인공지능공부/자연어처리
fasttext의 모든 것
fasttext fasttext는 word2vec이후 페이스북에서 개발한 모델입니다. 두 방법이 크게 다르지는 않지만 관점의 차이가 있습니다. word2vec에서는 말 그대로 "단어"를 최소단위로 생각했습니다. 하지만 fasttext같은 경우 단어를 더 작은 단위로 쪼개어 봅니다. 즉, n-gram의 구성으로 취급합니다. 예를 들어 kitty라는 단어가 있다고 합시다. fasttext에서는 이 단어의 시작과 끝에 를 붙여 를 만들어주고, n-gram이 2일때, 아래와 같이 쪼개줍니다. 이를 내부 단어(subword)라고 합니다. word2vec였으면 kitty자체를 하나의 단어로 취급했지만, fasttext같은 경우 위의 7개를 단어로 취급합니다. 즉, 위의 7개의 토근을 벡터화합니다. 위와 같이 단어를..