레플리
글 수 282

딥러닝을 사용한 감성분석기 개발

조회 수 1658 추천 수 0 2018.02.22 00:36:39


senti_data.png

 

http://hugman.re.kr/blog/sentiment_analysis/

 

 

 

위의 표처럼 호텔 리뷰 문장을 '긍정/부정/중립/객관'으로 분류하는 방법을 다룬 글입니다. 딥러닝의 RNN을 사용하여 학습을 하였습니다. 보통은 단어 단위로 하는데 여기서는 간단하게 하기 위해서 한글자 캐릭터 단위로 처리하였습니다. 

 

사실 감정분석이나 문서분류는 거의 비슷하다고 할 수 있습니다. '긍정/부정'으로 나누느냐 '정치/사회/경제' 등의 카테고리로 나누느냐의 차이일 뿐입니다.

 

 

 

이렇게 문서를 분류하는 가장 간단한 방법은 특정 키워드가 몇 번 반복되는지 계산하는 것입니다. 예를 들어, '특별/최적'같은 단어가 나오면 긍정의 점수를, '낙후/곰팡이' 같은 단어가 나오면 부정의 점수를 올리고 최종 계산결과로 판단을 합니다. 하지만 사람이 일일이 특징이 되는 단어를 결정해야하기 때문에 구현이 힘들다는 단점이 있습니다.

 

두번째는 나이브 베이즈 같은 통계적 방법을 사용하는 것입니다. 특징 단어를 확률에 기반해서 자동으로 처리하기 때문에 더 쉽고 정확하게 분류할 수 있습니다.

 

세번째는 딥러닝으로 학습을 하는 것입니다. 통계적 방법과 달리 단어의 위치 같은 문맥 정보를 고려하기 때문에 문장의 의미에 맞게 보다 확실하게 판단할 수 있다는 장점이 있습니다. 

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수
그림으로 아주 쉽게 설명한, The Illustrated GPT-2 깊은바다 2020-08-15 2771
한국어로 대화하는 생성 모델의 학습을 위한 여정 - Transformer와 GPT2 깊은바다 2020-08-13 3565
KoGPT2, KoBERT, KoELECTRA로 만든 심리상담 챗봇 file 깊은바다 2020-08-05 6336
GPT3가 상식을 가지고 있을까 깊은바다 2020-07-24 740
GPT3 튜링 테스트 깊은바다 2020-07-23 668
네이버 뉴스 댓글로 사전훈련한 구어체 모델 - KcBERT 깊은바다 2020-07-20 813
GPT3로 하는 리액트 프로그래밍 file 깊은바다 2020-07-19 769
GPT2에서 문장 생성 시 단어를 확률에 따라 선택하는 방법 깊은바다 2020-07-16 2197
오픈소스 한국어 딥러닝 챗봇 - Kochat 깊은바다 2020-07-03 2499
KoGPT2를 파인튜닝하여 만든 챗봇 깊은바다 2020-06-23 3509
주석을 프로그램으로 변환하는 GPT 모델 깊은바다 2020-06-21 479
소설을 생성하는 NarrativeKoGPT2 file 깊은바다 2020-06-19 2194
GPT3 유료화 기능 소개 영상 깊은바다 2020-06-15 914
GPT2를 테스트해볼 수 있는 사이트 - Talk to Transformer file 깊은바다 2020-06-05 619
퓨샷(few-shot) 러닝에 최적화된 GPT3 모델 file 깊은바다 2020-05-30 1156