글 수 108

자연어 텍스트 처리를 통한 검색 시스템 구축

조회 수 197 추천 수 0 2019.06.30 16:17:41


800x0_결과.jpg

 

http://www.yes24.com/Product/Goods/15529679

 

< 목차 >

- 1. 텍스트 길들이기 시작 
- 2. 텍스트 길들이기 기초 
- 3. 검색 
- 4. 유사 문자열 일치 
- 5. 인명, 지명. 사물 식별 
- 6. 텍스트 클러스터링 
- 7. 분류, 커테고리 분류, 태깅 
- 8. 질의응답 시스템 예제 구축 
- 9. 길들여지지 않는 텍스트: 다음 개척지 탐구 

 

 

 

검색 엔진하면 구글이나 네이버만 생각하시는 분들이 많이 있습니다. 하지만 자체 사이트나 사내 시스템을 구축할 때 반드시 필요한 것이 바로 검색 기능입니다. 보통 루씬, 솔라, 엘라스틱 서치 같은 오프소스를 많이 활용합니다. 이 책은 솔라를 기반으로 어떻게 자연어처리를 하는지 다루고 있습니다.

 

사실 검색이야말로 자연어처리를 가장 먼저 적용한 분야이며, 지금까지도 여러 응용 서비스에서 핵심적인 기술이라 할 수 있습니다. 과거에는 키워드 위주로 입력을 했지만, 최근에는 문장의 의미를 이해하는 방식으로 많이 발전하고 있습니다.

 

 

 

검색 시스템을 만들기 위한 첫 번째 단계는 바로 색인(indexing)입니다. 보통 책의 맨 뒷부분에 있는 찾아보기와 똑같은 원리입니다. '인공지능 챗봇'을 검색한다고 예를 들어보겠습니다. 100개의 단어를 가진 10개의 문서가 있다고 가정하면, '인공지능'과 '챗봇'을 각각 100개 단어와 10번 비교합니다. 그러면 총 100x10x2 = 2000번의 연산이 필요합니다. 만약 색인 과정을 미리하여 각 단어가 어느 문서에 나오는지 DB로 저장되어 있다면 어떨까요.

 

인공지능 -> 1, 3, 7

챗봇 -> 2, 7, 9, 10

 

위와 같이 '인공지능'과 '챗봇'이 동시에 나오는 문서가 7번이란 것을 한 번에 알 수 있습니다. 물론 문서내에서 단어의 위치 등 세부적인 사항들이 있지만 기본적인 방법은 이와 같습니다. 이렇게 색인을 수행할 때 형태소분석이나 전처리 등 자연어처리 기술이 필수적으로 들어갑니다.

 

 

 

그밖에 유사도, 개체명인식, 클러스터링, 분류, 질의응답 등 유용한 내용들이 많이 있습니다. 다만 저자가 3명이라 그런지, 챕터마다 수준 차이가 좀 많이 나는 편입니다. 그래도 자연어처리에 대해서 전체적인 개념을 이해할 수 있다는 면에서 나쁘지는 않습니다. 솔라에 대한 부분은 빼고 읽더라도 크게 무리는 없다고 생각합니다.

List of Articles
제목 글쓴이 날짜sort 조회 수
한국어 임베딩 file 깊은바다 2019-12-11 14
에이트 - 인공지능에게 대체되지 않는 나를 만드는 법 file 깊은바다 2019-12-10 36
안녕, 인간 file 깊은바다 2019-11-10 120
머신러닝 실무 프로젝트 file 깊은바다 2019-10-18 377
음성 사용자 인터페이스 디자인 file 깊은바다 2019-09-29 92
알파고를 분석하며 배우는 인공지능 file 깊은바다 2019-09-22 172
보이스봇 챗봇 디자인 file 깊은바다 2019-09-13 108
밑바닥부터 시작하는 딥러닝 2 file 깊은바다 2019-09-07 202
영어학습을 위한 인공지능 챗봇 활용 및 제작 file 깊은바다 2019-08-12 144
파이썬을 이용한 머신러닝, 딥러닝 실전 앱 개발 file [2] 깊은바다 2019-08-12 231
만화로 쉽게 배우는 회귀분석 file 깊은바다 2019-08-05 162
인공지능을 위한 수학 file 깊은바다 2019-07-29 275
잡아라! 텍스트 마이닝 with 파이썬 file 깊은바다 2019-07-12 157
채용담당자가 공개하는 AI면접 합격 기술 file 깊은바다 2019-07-08 208
AI 마인드 file 깊은바다 2019-07-07 191