인공지능공부/자연어처리

[NLP실습]1.자연어 처리 개요-단어 임베딩

2021.01.21

이번 포스팅은 앞의 이론에서 언급했었던 임베딩 방법들을 한번 더 설명하고, 구현해보겠습니다. 이론 포스팅은 여기를 클릭해주세요. 단어 임베딩이란 컴퓨터가 언어적인 의미가 담겨있는 자연어를 인식하기 위해, 언어적 특성을 반영하여 수치화 하는 것을 뜻합니다.단어 임베딩은 다음과 같이 크게 3가지로 나눌 수 있습니다. 1. 원핫 인코딩(one-hot enocoding) ▶구현 포인트 (1) 단어의 중복을 제거해줍니다. (2) 단어의 수만큼 배열을 만들고, 0으로 채워줍니다. (3) 해당 단어의 인덱스를 찾고, 그 부분을 1로 만들어줍니다. 아래의 코드는 아무런 라이브러리도 사용하지 않고, 구현한 코드입니다. ## no library def one_hot(word_list): #(1) 단어의 중복을 제거..

인공지능공부/자연어처리

[NLP이론]1.자연어 처리 개요-단어 임베딩

2021.01.21

▶자연어 처리란? "어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까?"에 대한 문제입니다. 즉, 컴퓨터가 인간의 언어를 이해하고 분석 가능한 모든 분야를 뜻합니다. 자연어 처리는 목적에 따라 크게 4가지로 나뉩니다. (1) 텍스트 분류 (2) 텍스트 유사도 (3) 텍스트 생성 (4) 기계 이해 위의 모든 분야들이 수행되기 위해서는 가장 먼저 단어가 표현이 되어야 합니다. 컴퓨터가 텍스트를 인식하는 방법들 중 가장 기본적인 방법은 아스키 코드로 표현하는 것 입니다. 아스키 코드는 아래와 같이 자연어를 0과 1로 수치화한 값을 뜻합니다. 아스키 코드 이 방법은 단순히 컴퓨터가 문자를 인식하기 위한 값이기 때문에, 언어적인 특징이 전혀 담겨있지 않습니다. 그렇다면, 컴퓨터가 언어적인 의미가 담겨있는 자연어를 인..

[NLP실습]1.자연어 처리 개요-단어 임베딩

[NLP이론]1.자연어 처리 개요-단어 임베딩

티스토리툴바