GPT

인공지능공부/자연어처리

Self-Attentive Sentence Embedding(SASE) 구현해보기

모델 성명은 여기를 참고해주세요. pytorch version 1.8.0입니다. SASE모델을 크게 아래처럼 쪼개갰습니다. embedder self-attention classifier loss function 먼저 들어가기 전에 라이브러리 import를 해주셔야합니다. import torch import torch.nn as nn import torch.nn.functional as F 1. Embedder 임베더는 말 그대로 초기 단어를 임베딩하고, bi-LSTM을 통해 문맥정보를 압축시켜주는 역할을 하는 부분입니다. 저는 word2vec을 따로 학습시켜주었고요. 다음과 같이 구현해주었습니다. 모델 그림으로 보면 위의 빨간 네모박스 부분이라고 생각해주시면 됩니다. 수식을 한번 볼까요? 윗 부분은 wo..

인공지능공부/자연어처리

Self-Attentive Sentence Embedding(SASE)의 모든 것

등장 배경 Word2vec, Fasttext와 같이 개별 단어에 대해 의미있는 표현들을 학습하는 word embedding 기법들은 많은 발전을 이루었는데요. 여러 단어 혹은 구가 나열된 문장의 표현을 학습하는 sentence embedding 기법들은 word embedding에 비해 많이 부족합니다. sentence embedding은 크게 두 가지로 나누어질 수 있는데요. 첫 번째는 unsupervised learning을 통해 universal sentence representation을 만드는 방법입니다. 대표적인 예로는 Skip Tought vector, ParagraphVector 등이 있습니다. ※ universal sentence representation이 뭐죠? 문장의 의미를 잘 표현..

인공지능공부/자연어처리

[huggingface🤗] 1.허깅페이스란?

허깅페이스 허깅페이스는 트랜스포머 기반의 다양한 모델들과 학습 스크립트를 구현해놓은 일종의 모듈입니다. 기존의 트랜스포머를 학습시킨다고 하면 딥러닝 프레임워크를 선택하고, 그에 맞게 구현을 해야했습니다. 하지만 허깅페이스는 그런 함수들이 이미 정의 되어있기 때문에, 간단하게 모델을 불러서 쓸 수 있습니다. 즉, 따로 구현을 하지 않고 arguments를 줌으로써 편하게 사용이 가능합니다. 또한 가장 좋은 점은 다른 누군가가 이미 학습한 모델을 가져다 쓸 수도 있다는 것입니다. 기존에는 직접 파일을 찾고, 받아서 사용했지만 간단하게 코드 몇 줄이면 그것도 손쉽게 할 수 있습니다. 이 말은 즉, 내가 학습시킨 모델도 허깅페이스에 올릴 수 있다는 것이죠! 뿐만 아니라 데이터도 다운받을 수 있습니다. 하지만! ..

논문/논문리딩

Language Models are Unsupervised Multitask Learners

논문 https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Github https://github.com/openai/gpt-2 ​ 이 논문은 GPT-2에 대한 논문입니다. 기존의 GPT-1보다 어떤점이 더 나아졌는지 잘 살펴보겠습니다. ​ 등장 배경 기존 GPT-1은 대규모의 자연어 데이터로 사전 학습을 먼저 거친 뒤, 사용할 task에 맞게 미세 조정을 했습니다. GPT-2는 이러한 과정조차 다 없애버리고, 미세 조정을 하지 않고도, 각 task에 맞는 수행을 할 수 있도록 제안된 모델입니다. 그렇기 때문에 GPT-2모델은 어마어마하게 큽니다. ​ ※ 미세 조정을 왜 없앤건가요? 한번 사전 학습된 모델을 다시 미세..

논문/논문리딩

Improving Language Understanding by Generative Pre-Training

논문 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf Github https://github.com/openai/finetune-transformer-lm ​ 자연어 처리 분야에서 BERT와 함께 뛰어난 성능으로 주목받고 있는 모델입니다. 현재는 GPT-3까지 출시가 되었는데, GPT-4가 출시될거라는 말이 나왔죠(기사링크). 오늘은 GPT-1을 알아보도록 하겠습니다. ​ 등장 배경 현재 라벨링 되어있지 않은 텍스트 데이터는 굉장히 많은 반면, 라벨링된 데이터는 적습니다. 따라서 많은 데이터로 학습하기 위하여 비지도 학습(unsupervised learning)으로 학습 할 수 있는 모델이 필요해졌습니다. 따라서 GPT-1이..

컴공누나
'GPT' 태그의 글 목록