레플리
글 수 126

R을 이용한 텍스트 마이닝

조회 수 375 추천 수 0 2018.06.28 20:56:03


134715478_1.jpg

 

http://www.yes24.com/24/Goods/44336064?Acode=101

 

 

 

유명한 오픈소스 통계프로그램인 R을 사용해서 텍스트 마이닝을 하는 방법을 다룬 책입니다. 앞부분은 문자열 처리에 필요한 R 함수들의 사용법을 알려줍니다. 중간은 텍스트 전처리에 대한 부분인데 숫자, 대소문자, 공백, 특수문자, 불용어, 어근화 등을 자세히 설명하고 있습니다. 뒷부분은 토픽 모델과 감정 분석을 보여줍니다.

 

토픽 모델은 비지도학습으로 문서의 중심이 되는 단어들을 확률 기법을 통해 뽑아냅니다. 감정 분석은 크게 두 가지 방법이 있습니다. 첫째는 감성단어사전을 이용하여 사전에 포함된 단어의 개수에 따라 점수를 매기는 방식입니다. 두번째는 문서와 그 문서의 감정이 레이블된 데이터를 가지고 지도학습을 하여 감정을 판단합니다. 전체적인 문서의 패턴을 파악하기 때문에 단어사전을 이용하는 것보다 더 정확하다는 장점이 있습니다.

 

저자가 언론학과 교수라 그런지 약간 사회과학적인 분석 위주로 되어있습니다. 그리고 R을 사용하지 않는 사람이라면 책에 나온 내용을 바로 활용하기가 어려울 수 있습니다. 하지만 텍스트 마이닝에 대해서 개념을 이해하기에는 많은 도움이 될거라 생각합니다.

List of Articles
제목 글쓴이 날짜sort 조회 수
잡아라! 텍스트 마이닝 with 파이썬 file 깊은바다 2019-07-12 437
채용담당자가 공개하는 AI면접 합격 기술 file 깊은바다 2019-07-08 463
AI 마인드 file 깊은바다 2019-07-07 495
자연어 텍스트 처리를 통한 검색 시스템 구축 file 깊은바다 2019-06-30 375
만화로 쉽게 배우는 선형대수 file 깊은바다 2019-06-29 456
21세기를 위한 21가지 제언 file 깊은바다 2019-06-23 136
수학의 아름다움 - 자연어처리 알고리즘 file 깊은바다 2019-06-04 520
로봇 설계자 신시아 브리질 file 깊은바다 2019-05-26 217
머신러닝 비즈니스 - 애저 머신러닝 스튜디오 file 깊은바다 2019-04-30 251
자연어 처리 쿡북 with 파이썬 file 깊은바다 2019-04-15 443
PyTorch를 활용한 강화학습/심층강화학습 실전 입문 file 깊은바다 2019-03-17 811
텐서플로와 머신러닝으로 시작하는 자연어 처리 file 깊은바다 2019-02-28 627
대학에 가는 AI VS 교과서를 못 읽는 아이들 file 깊은바다 2019-02-28 279
머신러닝 탐구생활 file 깊은바다 2019-01-31 401
수학 없이 배우는 데이터 과학과 알고리즘 file 깊은바다 2019-01-10 71286