워드투벡

인공지능공부/자연어처리

fasttext의 모든 것

fasttext fasttext는 word2vec이후 페이스북에서 개발한 모델입니다. 두 방법이 크게 다르지는 않지만 관점의 차이가 있습니다. word2vec에서는 말 그대로 "단어"를 최소단위로 생각했습니다. 하지만 fasttext같은 경우 단어를 더 작은 단위로 쪼개어 봅니다. 즉, n-gram의 구성으로 취급합니다. 예를 들어 kitty라는 단어가 있다고 합시다. fasttext에서는 이 단어의 시작과 끝에 를 붙여 를 만들어주고, n-gram이 2일때, 아래와 같이 쪼개줍니다. 이를 내부 단어(subword)라고 합니다. word2vec였으면 kitty자체를 하나의 단어로 취급했지만, fasttext같은 경우 위의 7개를 단어로 취급합니다. 즉, 위의 7개의 토근을 벡터화합니다. 위와 같이 단어를..

컴공누나
'워드투벡' 태그의 글 목록