레플리
글 수 126

자연어 텍스트 처리를 통한 검색 시스템 구축

조회 수 375 추천 수 0 2019.06.30 16:17:41


800x0_결과.jpg

 

http://www.yes24.com/Product/Goods/15529679

 

< 목차 >

- 1. 텍스트 길들이기 시작 
- 2. 텍스트 길들이기 기초 
- 3. 검색 
- 4. 유사 문자열 일치 
- 5. 인명, 지명. 사물 식별 
- 6. 텍스트 클러스터링 
- 7. 분류, 커테고리 분류, 태깅 
- 8. 질의응답 시스템 예제 구축 
- 9. 길들여지지 않는 텍스트: 다음 개척지 탐구 

 

 

 

검색 엔진하면 구글이나 네이버만 생각하시는 분들이 많이 있습니다. 하지만 자체 사이트나 사내 시스템을 구축할 때 반드시 필요한 것이 바로 검색 기능입니다. 보통 루씬, 솔라, 엘라스틱 서치 같은 오프소스를 많이 활용합니다. 이 책은 솔라를 기반으로 어떻게 자연어처리를 하는지 다루고 있습니다.

 

사실 검색이야말로 자연어처리를 가장 먼저 적용한 분야이며, 지금까지도 여러 응용 서비스에서 핵심적인 기술이라 할 수 있습니다. 과거에는 키워드 위주로 입력을 했지만, 최근에는 문장의 의미를 이해하는 방식으로 많이 발전하고 있습니다.

 

 

 

검색 시스템을 만들기 위한 첫 번째 단계는 바로 색인(indexing)입니다. 보통 책의 맨 뒷부분에 있는 찾아보기와 똑같은 원리입니다. '인공지능 챗봇'을 검색한다고 예를 들어보겠습니다. 100개의 단어를 가진 10개의 문서가 있다고 가정하면, '인공지능'과 '챗봇'을 각각 100개 단어와 10번 비교합니다. 그러면 총 100x10x2 = 2000번의 연산이 필요합니다. 만약 색인 과정을 미리하여 각 단어가 어느 문서에 나오는지 DB로 저장되어 있다면 어떨까요.

 

인공지능 -> 1, 3, 7

챗봇 -> 2, 7, 9, 10

 

위와 같이 '인공지능'과 '챗봇'이 동시에 나오는 문서가 7번이란 것을 한 번에 알 수 있습니다. 물론 문서내에서 단어의 위치 등 세부적인 사항들이 있지만 기본적인 방법은 이와 같습니다. 이렇게 색인을 수행할 때 형태소분석이나 전처리 등 자연어처리 기술이 필수적으로 들어갑니다.

 

 

 

그밖에 유사도, 개체명인식, 클러스터링, 분류, 질의응답 등 유용한 내용들이 많이 있습니다. 다만 저자가 3명이라 그런지, 챕터마다 수준 차이가 좀 많이 나는 편입니다. 그래도 자연어처리에 대해서 전체적인 개념을 이해할 수 있다는 면에서 나쁘지는 않습니다. 솔라에 대한 부분은 빼고 읽더라도 크게 무리는 없다고 생각합니다.

List of Articles
제목 글쓴이 날짜 조회 수sort
자연어 텍스트 처리를 통한 검색 시스템 구축 file 깊은바다 2019-06-30 375
R을 이용한 텍스트 마이닝 file 깊은바다 2018-06-28 375
파이썬과 케라스로 배우는 강화학습 file 깊은바다 2017-11-29 357
당신이 알고 싶은 음성인식 AI의 미래 file 깊은바다 2020-04-22 355
모두의 딥러닝 file 깊은바다 2018-05-13 352
알파고를 분석하며 배우는 인공지능 file 깊은바다 2019-09-22 348
챗봇 혁명 file 깊은바다 2017-09-11 342
다양한 봇빌더를 이용한 똑똑한 챗봇 만들기 file 깊은바다 2020-01-21 341
인공지능 개론 file 깊은바다 2016-03-25 339
외로워지는 사람들 file 깊은바다 2020-04-01 338
자율주행혁명 file 깊은바다 2018-01-18 337
영어학습을 위한 인공지능 챗봇 활용 및 제작 file 깊은바다 2019-08-12 336
보이스봇 챗봇 디자인 file 깊은바다 2019-09-13 333
아무것도 모르고 시작하는 인공지능 첫걸음 file 깊은바다 2018-08-16 319
마스터 알고리즘 file [1] 깊은바다 2017-03-05 314