자연어처리

인공지능공부/자연어처리

fasttext의 모든 것

fasttext fasttext는 word2vec이후 페이스북에서 개발한 모델입니다. 두 방법이 크게 다르지는 않지만 관점의 차이가 있습니다. word2vec에서는 말 그대로 "단어"를 최소단위로 생각했습니다. 하지만 fasttext같은 경우 단어를 더 작은 단위로 쪼개어 봅니다. 즉, n-gram의 구성으로 취급합니다. 예를 들어 kitty라는 단어가 있다고 합시다. fasttext에서는 이 단어의 시작과 끝에 를 붙여 를 만들어주고, n-gram이 2일때, 아래와 같이 쪼개줍니다. 이를 내부 단어(subword)라고 합니다. word2vec였으면 kitty자체를 하나의 단어로 취급했지만, fasttext같은 경우 위의 7개를 단어로 취급합니다. 즉, 위의 7개의 토근을 벡터화합니다. 위와 같이 단어를..

논문/논문리딩

Language Models are Unsupervised Multitask Learners

논문 https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Github https://github.com/openai/gpt-2 ​ 이 논문은 GPT-2에 대한 논문입니다. 기존의 GPT-1보다 어떤점이 더 나아졌는지 잘 살펴보겠습니다. ​ 등장 배경 기존 GPT-1은 대규모의 자연어 데이터로 사전 학습을 먼저 거친 뒤, 사용할 task에 맞게 미세 조정을 했습니다. GPT-2는 이러한 과정조차 다 없애버리고, 미세 조정을 하지 않고도, 각 task에 맞는 수행을 할 수 있도록 제안된 모델입니다. 그렇기 때문에 GPT-2모델은 어마어마하게 큽니다. ​ ※ 미세 조정을 왜 없앤건가요? 한번 사전 학습된 모델을 다시 미세..

논문/논문리딩

Deep contextualized word representations

논문 https://arxiv.org/pdf/1802.05365.pdf Github https://github.com/HIT-SCIR/ELMoForManyLangs ​ ​ 등장 배경 "너에게 사과를 한다.", "사과 먹을래?" 에서 "사과"라는 단어는 같지만, 다른 의미를 가집니다. 기존의 Word2Vec나, Glove등의 모델은 "사과"는 같은 임베딩 값을 가집니다. 단어가 어떻게 사용되느냐에 따라 다르게 의미를 임베딩 하는 방법이 바로 ELMo가 사용한 방법인 Contextualized Word Embedding입니다. 즉, ELMo는 동음이의어에 대해 서로 다른 벡터로 임베딩 할 수 있게 문맥을 고려하여 임베딩합니다. ​ 모델 구조 ELMo는 다층 구조인 양방향 LSTM를 이용합니다. 여기서 기존의..

논문/논문리딩

Improving Language Understanding by Generative Pre-Training

논문 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf Github https://github.com/openai/finetune-transformer-lm ​ 자연어 처리 분야에서 BERT와 함께 뛰어난 성능으로 주목받고 있는 모델입니다. 현재는 GPT-3까지 출시가 되었는데, GPT-4가 출시될거라는 말이 나왔죠(기사링크). 오늘은 GPT-1을 알아보도록 하겠습니다. ​ 등장 배경 현재 라벨링 되어있지 않은 텍스트 데이터는 굉장히 많은 반면, 라벨링된 데이터는 적습니다. 따라서 많은 데이터로 학습하기 위하여 비지도 학습(unsupervised learning)으로 학습 할 수 있는 모델이 필요해졌습니다. 따라서 GPT-1이..

논문/논문리딩

Attention Is All You Need

논문 https://arxiv.org/pdf/1706.03762.pdf Github https://github.com/jadore801120/attention-is-all-you-need-pytorch ​ Attention is All You Need는 Transformer모델 즉, Self-Attention을 처음 제안하는 논문입니다. 현재 제안되는 최신 모델들은 대부분 Self-Attention을 기반으로 합니다. 자연어 분야를 뛰어 넘어, 멀티 모달 임베딩, 또는 이미지, 비디오, 그래프 등 다양하게 사용되고 있습니다. ​ 등장 배경 Self-Attention모델의 등장 이전, 대부분의 자연어 처리(자연어 생성, 질문-응답, 자연어 번역 등)는 Encoder-Decoder 구조를 가지는 RNN, C..

컴공누나
'자연어처리' 태그의 글 목록