논문

논문/논문리딩

Language Models are Few-Shot Learners

논문 https://arxiv.org/pdf/2005.14165.pdf Github https://github.com/openai/gpt-3 ​ 이 논문은 GPT-3에 대한 논문입니다. ​ 등장 배경 GPT-3는 아래와 같은 기존 모델들의 한계점들을 해결하기 위해 제안되었습니다. 1. 자연어의 각 task에 대한 대용량의 라벨링된 데이터가 필요하다는 것은 언어 모델의 적용 가능성을 제한시킵니다. 2. 사전 학습된 모델을 다시 미세 조정 시키는 것은 매우 협소한 task에 대해 미세 조정되는 것입니다. 3. 사람의 학습법과 비슷하게, 적은 데이터를 이용하여 충분히 학습 가능합니다. 즉, 다양한 자연어 관련 task들과 skill들을 잘 섞어서 이용하는것이 더 효과적입니다. ​ 해결 방법 1. GPT 시리즈..

논문/논문리딩

Language Models are Unsupervised Multitask Learners

논문 https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Github https://github.com/openai/gpt-2 ​ 이 논문은 GPT-2에 대한 논문입니다. 기존의 GPT-1보다 어떤점이 더 나아졌는지 잘 살펴보겠습니다. ​ 등장 배경 기존 GPT-1은 대규모의 자연어 데이터로 사전 학습을 먼저 거친 뒤, 사용할 task에 맞게 미세 조정을 했습니다. GPT-2는 이러한 과정조차 다 없애버리고, 미세 조정을 하지 않고도, 각 task에 맞는 수행을 할 수 있도록 제안된 모델입니다. 그렇기 때문에 GPT-2모델은 어마어마하게 큽니다. ​ ※ 미세 조정을 왜 없앤건가요? 한번 사전 학습된 모델을 다시 미세..

논문/논문리딩

Deep contextualized word representations

논문 https://arxiv.org/pdf/1802.05365.pdf Github https://github.com/HIT-SCIR/ELMoForManyLangs ​ ​ 등장 배경 "너에게 사과를 한다.", "사과 먹을래?" 에서 "사과"라는 단어는 같지만, 다른 의미를 가집니다. 기존의 Word2Vec나, Glove등의 모델은 "사과"는 같은 임베딩 값을 가집니다. 단어가 어떻게 사용되느냐에 따라 다르게 의미를 임베딩 하는 방법이 바로 ELMo가 사용한 방법인 Contextualized Word Embedding입니다. 즉, ELMo는 동음이의어에 대해 서로 다른 벡터로 임베딩 할 수 있게 문맥을 고려하여 임베딩합니다. ​ 모델 구조 ELMo는 다층 구조인 양방향 LSTM를 이용합니다. 여기서 기존의..

논문/논문리딩

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

논문 https://arxiv.org/pdf/1810.04805.pdf Github https://github.com/google-research/bert ​ ​ 등장 배경 언어 모델의 사전 학습은 자연어 처리작업을 개선하는데 효과적인 것으로 나타났습니다. (GPT-1에서 이미 확인되었죠) 현재 나온 모델인 GPT-1은 왼쪽에서 오른쪽으로 이전 토큰만을 참고할 수 있는 단방향 구조를 사용합니다.(Transformer의 decoder를 사용하기 때문이죠.) 이 방법은 문장 수준의 작업에 적합하지 않고, 양방향 컨텍스트를 통합하는것이 중요한 질문,응답 문제에서 미세 조정을 할때, 좋지 않을 결과를 가지고 올 수 있습니다. 따라서 양방향 구조를 사용하는 BERT가 탄생합니다. ​ ※ 양방향 단방향 구조가 뭔가..

논문/논문리딩

Improving Language Understanding by Generative Pre-Training

논문 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf Github https://github.com/openai/finetune-transformer-lm ​ 자연어 처리 분야에서 BERT와 함께 뛰어난 성능으로 주목받고 있는 모델입니다. 현재는 GPT-3까지 출시가 되었는데, GPT-4가 출시될거라는 말이 나왔죠(기사링크). 오늘은 GPT-1을 알아보도록 하겠습니다. ​ 등장 배경 현재 라벨링 되어있지 않은 텍스트 데이터는 굉장히 많은 반면, 라벨링된 데이터는 적습니다. 따라서 많은 데이터로 학습하기 위하여 비지도 학습(unsupervised learning)으로 학습 할 수 있는 모델이 필요해졌습니다. 따라서 GPT-1이..

논문/게제논문

[2020JOK(Journal of KIISE)] 시각-언어 공동 임베딩과 지식 그래프 임베딩을 이용한 영상 기반 상식 추론

https://www.kiise.or.kr/academy/board/publishList2.fa?MENU_ID=060500 한국정보과학회 발간자료 검색 Home 논문지 발간자료 검색 ※ 원문의 검색, 다운로드는 재적회원만 가능합니다. 회원 로그인 후 발간자료 검색을 이용하시기 바랍니다. www.kiise.or.kr 2020 JOK(Vol.47, No.10) p985 - 998 시각-언어 공동 임베딩과 지식 그래프 임베딩을 이용한 영상 기반 상식 추론 (Visual Commonsense Reasoning with Vision-Language Co-embedding and Knowledge Graph Embedding) ​ keyword #VisualCommonsenseReasoning #VisualQues..

논문/게제논문

[2020KCC] 영상 기반 상식 추론을 위한 영상-언어 공동 임베딩과 지식 그래프 임베딩

http://www.kiise.or.kr/academy/board/publishList2.fa?MENU_ID=060500 한국정보과학회 발간자료 검색 Home 논문지 발간자료 검색 ※ 원문의 검색, 다운로드는 재적회원만 가능합니다. 회원 로그인 후 발간자료 검색을 이용하시기 바랍니다. www.kiise.or.kr 2020 하계학술대회 논문집(제47권 제1호) p827~829 영상 기반 상식 추론을 위한 영상-언어 공동 임베딩과 지식 그래프 임베딩(Image-Language Co-embedding and Knowledge Graph Embedding for Visual Commonsense Reasoning) ​ keyword #VisualCommonsenseReasoning #VisualQuestionA..

논문/게제논문

[2020KTSDE] KG_VCR: 지식 그래프를 이용하는 영상 기반 상식 추론 모델

http://ktsde.kips.or.kr/digital-library/23377 KG_VCR: 지식 그래프를 이용하는 영상 기반 상식 추론 모델 Vol. 9, No. 3, pp. 91-100, Mar. 2020 Graph Convolutional Network Unlike the existing Visual Question Answering(VQA) problems, the new Visual Commonsense Reasoning(VCR) problems require deep common sense reasoning for answering questions: recognizing specific r... ktsde.kips.or.kr 2020 KTSDE(Vol.9, No.3) p91~100 KG_..

논문/게제논문

[2019KIPS] 지식 그래프를 이용한 영상 기반 상식 추론

http://kips.or.kr/bbs/confn/article/1024 :::: 한국정보처리학회에 오신걸 환영합니다 Home 공지사항 학술대회 온라인 논문집 학술대회 온라인 논문집 2019 추계학술대회 논문집(제26권 제1호) ISSN 2005-0011(Print) / ISSN 2671-7298(Online) 2019 추계학술발표대회 홈페이지 : https://www.manuscriptlink.com/society/kips/conference/2019fall 2019 추계학술발표대회 논문집(제26권 제2호) : 논문집 다운로드 / ISSN 2671-7298(Online) 목록 주소 : (04376) 서울특별시 용산구 한강대로 109, 100... kips.or.kr 2019 추계학술대회 논문집(제26권..

논문/논문리딩

Attention Is All You Need

논문 https://arxiv.org/pdf/1706.03762.pdf Github https://github.com/jadore801120/attention-is-all-you-need-pytorch ​ Attention is All You Need는 Transformer모델 즉, Self-Attention을 처음 제안하는 논문입니다. 현재 제안되는 최신 모델들은 대부분 Self-Attention을 기반으로 합니다. 자연어 분야를 뛰어 넘어, 멀티 모달 임베딩, 또는 이미지, 비디오, 그래프 등 다양하게 사용되고 있습니다. ​ 등장 배경 Self-Attention모델의 등장 이전, 대부분의 자연어 처리(자연어 생성, 질문-응답, 자연어 번역 등)는 Encoder-Decoder 구조를 가지는 RNN, C..

컴공누나
'논문' 카테고리의 글 목록