[빅데이터의 이해와활용] 텍스트 빅데이터
텍스트 처리와 자연어 처리
텍스트
- 숫자와 더불어 가장 대표적인 정보 저장 단위
- 소셜네트워크 서비스의 성장 ➔ 중요성이 커짐
- 명목 데이터
- 비명목 데이터로 활용하기 위해서는 텍스트 프로세싱이 선행되어야 한다
텍스트 프로세싱
- 텍스트에서 의미 있는 정보를 찾아내는 과정
- 자연어처리와는 차이가 있다
- 자연어처리는 텍스트, 음성기반 대화, 이미지, 사인 등 많은 것들을 대상으로 한다
자연어처리 기술의 활용
자연어 Natural Language
- 우리가 일상적으로 쓰는 언어
➔ 텍스트 요약/분류, 감성분석, 의미연결망 분석, 기계분석, 질의응답과 챗봇, 음성인식
텍스트 분류 Text Classification
- 텍스트가 어떤 범주에 속하는지 판단하는 작업
- 텍스트로부터 feature을 추출, 이를 통해 학습된 모형구축
➔ 이메일 스팸 분류
➔ 텍스트 감정 분석
감성분석 Sentiment analysis
- 텍스트에 포함된 의견이나 감정 등을 분석
- 영화평 분석, 고객의 의견 분석, 유권자 메시지 분석 등
의미연결망 분석
- 단어의 네트워크를 구성하여 단어 간의 관계성을 파악
- 특정 키워드가 내포하는 의미를 확장하여 살펴보는데 유용
질의응답
- 주어진 질의에 대한 답을 찾아 제시하는 연구
- 기계독해 이해력 테스트를 위한 데이터셋이 공개되면 관련 연구가 진행중이다
텍스트 전처리
텍스트 전처리
- 텍스트 분석의 궁극적 목표는 텍스트가 가진 함의의 이해
토큰화
- 문장을 가장 작은 단위로 나누는 작업
- 전통적으로 토큰으로 단어를 사용한다
- 단어 토큰화는 "띄어쓰기"를 중심으로 토큰을 만든다.
정규화
같은 의미지만 표기가 다른 단어들을 통합하는 방법
영어의 관사, 전치사, 우리말의 조사 등은 분석에 필요하지 않은 단어라 삭제해야함
어간추출과 형태소 분석
- 주로 많이 사용하는 방법은 단어의 원형을 추출하는 것
- 영어의 경우 "어간추출(stemming) / 표제어 추출(lemmatization)" 이용해 원형 추출
원-핫 인코딩
- 출현한 모든 단어 사전 크기의 벡터를 만들고 특정 단어의 위치를 숫자로 표기한 것
단어의 표현 방법
컴퓨터는 사람처럼 문장과 단어를 이해할 수 없다. 그렇기 때문에, 원-핫 인코딩 방법처럼 단어를 숫자로 치환해서 표현하는 방법이 사용된다
단어를 숫자로 바꾸면 텍스트를 통계적으로 처리할 수 있어 단어의 빈도수 등을 계산하거나 특정 단어의 중요도를 파악할 수 있다.
언어모형
언어모형 Language Model
- 단어 시퀀스에 대한 확률 분포를 구해 언어 처리하는 모형
- 특정 단어나 문장이 있을 때 다음에 나타날 단어나 문장에 대한 확률적 분포를 구한다
N - gram 언어모형
- 단어의 출현횟수에 기반하여 통계쩍 모델을 구축한다