인공지능공부

인공지능공부/자연어처리

[NLP이론]2.자연어 처리 개요-유사도 및 문제들

▶자연어 처리의 문제들 앞의 포스팅에서 자연어 처리를 활용하는 아래와 같은 여러 문제들이 있다고 언급했습니다. 이번 포스팅에서는 그 문제들에 대해서 알아보겠습니다. · 텍스트 분류 · 텍스트 유사도 · 텍스트 생성 · 기계 이해 ​ (1) 텍스트 분류 텍스트 분류란 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇가지 범주(class) 중 어느 범주에 속하는지 분류하는 문제입니다. 2가지 문제일 경우 이진 분류 문제, 3가지 이상일 경우 다중 범주 분류 문제라고 합니다. 텍스트 분류의 예시로는 스팸 분류, 영화 리뷰의 감정 분류, 뉴스 기사 분류 등이 있습니다. 텍스트 분류는 크게 지도 학습을 통한 분류, 비지도 학습을 통한 분류가 있습니다. ​ · 지도 학습을 통한 분류 지도 학습을 통한 분류..

인공지능공부/자연어처리

[NLP실습]1.자연어 처리 개요-단어 임베딩

이번 포스팅은 앞의 이론에서 언급했었던 임베딩 방법들을 한번 더 설명하고, 구현해보겠습니다. 이론 포스팅은 여기를 클릭해주세요. ​ 단어 임베딩이란 컴퓨터가 언어적인 의미가 담겨있는 자연어를 인식하기 위해, 언어적 특성을 반영하여 수치화 하는 것을 뜻합니다.단어 임베딩은 다음과 같이 크게 3가지로 나눌 수 있습니다. ​ 1. 원핫 인코딩(one-hot enocoding) ▶구현 포인트 (1) 단어의 중복을 제거해줍니다. (2) 단어의 수만큼 배열을 만들고, 0으로 채워줍니다. (3) 해당 단어의 인덱스를 찾고, 그 부분을 1로 만들어줍니다. 아래의 코드는 아무런 라이브러리도 사용하지 않고, 구현한 코드입니다. ## no library def one_hot(word_list): #(1) 단어의 중복을 제거..

인공지능공부/자연어처리

[NLP이론]1.자연어 처리 개요-단어 임베딩

▶자연어 처리란? "어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까?"에 대한 문제입니다. 즉, 컴퓨터가 인간의 언어를 이해하고 분석 가능한 모든 분야를 뜻합니다. 자연어 처리는 목적에 따라 크게 4가지로 나뉩니다. (1) 텍스트 분류 (2) 텍스트 유사도 (3) 텍스트 생성 (4) 기계 이해 위의 모든 분야들이 수행되기 위해서는 가장 먼저 단어가 표현이 되어야 합니다. 컴퓨터가 텍스트를 인식하는 방법들 중 가장 기본적인 방법은 아스키 코드로 표현하는 것 입니다. 아스키 코드는 아래와 같이 자연어를 0과 1로 수치화한 값을 뜻합니다. 아스키 코드 이 방법은 단순히 컴퓨터가 문자를 인식하기 위한 값이기 때문에, 언어적인 특징이 전혀 담겨있지 않습니다. 그렇다면, 컴퓨터가 언어적인 의미가 담겨있는 자연어를 인..

컴공누나
'인공지능공부' 카테고리의 글 목록 (6 Page)