논문 https://arxiv.org/pdf/2005.14165.pdf Github https://github.com/openai/gpt-3 이 논문은 GPT-3에 대한 논문입니다. 등장 배경 GPT-3는 아래와 같은 기존 모델들의 한계점들을 해결하기 위해 제안되었습니다. 1. 자연어의 각 task에 대한 대용량의 라벨링된 데이터가 필요하다는 것은 언어 모델의 적용 가능성을 제한시킵니다. 2. 사전 학습된 모델을 다시 미세 조정 시키는 것은 매우 협소한 task에 대해 미세 조정되는 것입니다. 3. 사람의 학습법과 비슷하게, 적은 데이터를 이용하여 충분히 학습 가능합니다. 즉, 다양한 자연어 관련 task들과 skill들을 잘 섞어서 이용하는것이 더 효과적입니다. 해결 방법 1. GPT 시리즈..
논문 https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Github https://github.com/openai/gpt-2 이 논문은 GPT-2에 대한 논문입니다. 기존의 GPT-1보다 어떤점이 더 나아졌는지 잘 살펴보겠습니다. 등장 배경 기존 GPT-1은 대규모의 자연어 데이터로 사전 학습을 먼저 거친 뒤, 사용할 task에 맞게 미세 조정을 했습니다. GPT-2는 이러한 과정조차 다 없애버리고, 미세 조정을 하지 않고도, 각 task에 맞는 수행을 할 수 있도록 제안된 모델입니다. 그렇기 때문에 GPT-2모델은 어마어마하게 큽니다. ※ 미세 조정을 왜 없앤건가요? 한번 사전 학습된 모델을 다시 미세..
논문 https://arxiv.org/pdf/1802.05365.pdf Github https://github.com/HIT-SCIR/ELMoForManyLangs 등장 배경 "너에게 사과를 한다.", "사과 먹을래?" 에서 "사과"라는 단어는 같지만, 다른 의미를 가집니다. 기존의 Word2Vec나, Glove등의 모델은 "사과"는 같은 임베딩 값을 가집니다. 단어가 어떻게 사용되느냐에 따라 다르게 의미를 임베딩 하는 방법이 바로 ELMo가 사용한 방법인 Contextualized Word Embedding입니다. 즉, ELMo는 동음이의어에 대해 서로 다른 벡터로 임베딩 할 수 있게 문맥을 고려하여 임베딩합니다. 모델 구조 ELMo는 다층 구조인 양방향 LSTM를 이용합니다. 여기서 기존의..
논문 https://arxiv.org/pdf/1810.04805.pdf Github https://github.com/google-research/bert 등장 배경 언어 모델의 사전 학습은 자연어 처리작업을 개선하는데 효과적인 것으로 나타났습니다. (GPT-1에서 이미 확인되었죠) 현재 나온 모델인 GPT-1은 왼쪽에서 오른쪽으로 이전 토큰만을 참고할 수 있는 단방향 구조를 사용합니다.(Transformer의 decoder를 사용하기 때문이죠.) 이 방법은 문장 수준의 작업에 적합하지 않고, 양방향 컨텍스트를 통합하는것이 중요한 질문,응답 문제에서 미세 조정을 할때, 좋지 않을 결과를 가지고 올 수 있습니다. 따라서 양방향 구조를 사용하는 BERT가 탄생합니다. ※ 양방향 단방향 구조가 뭔가..
논문 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf Github https://github.com/openai/finetune-transformer-lm 자연어 처리 분야에서 BERT와 함께 뛰어난 성능으로 주목받고 있는 모델입니다. 현재는 GPT-3까지 출시가 되었는데, GPT-4가 출시될거라는 말이 나왔죠(기사링크). 오늘은 GPT-1을 알아보도록 하겠습니다. 등장 배경 현재 라벨링 되어있지 않은 텍스트 데이터는 굉장히 많은 반면, 라벨링된 데이터는 적습니다. 따라서 많은 데이터로 학습하기 위하여 비지도 학습(unsupervised learning)으로 학습 할 수 있는 모델이 필요해졌습니다. 따라서 GPT-1이..
논문 https://arxiv.org/pdf/1706.03762.pdf Github https://github.com/jadore801120/attention-is-all-you-need-pytorch Attention is All You Need는 Transformer모델 즉, Self-Attention을 처음 제안하는 논문입니다. 현재 제안되는 최신 모델들은 대부분 Self-Attention을 기반으로 합니다. 자연어 분야를 뛰어 넘어, 멀티 모달 임베딩, 또는 이미지, 비디오, 그래프 등 다양하게 사용되고 있습니다. 등장 배경 Self-Attention모델의 등장 이전, 대부분의 자연어 처리(자연어 생성, 질문-응답, 자연어 번역 등)는 Encoder-Decoder 구조를 가지는 RNN, C..