레플리
글 수 126

자연어 텍스트 처리를 통한 검색 시스템 구축

조회 수 375 추천 수 0 2019.06.30 16:17:41


800x0_결과.jpg

 

http://www.yes24.com/Product/Goods/15529679

 

< 목차 >

- 1. 텍스트 길들이기 시작 
- 2. 텍스트 길들이기 기초 
- 3. 검색 
- 4. 유사 문자열 일치 
- 5. 인명, 지명. 사물 식별 
- 6. 텍스트 클러스터링 
- 7. 분류, 커테고리 분류, 태깅 
- 8. 질의응답 시스템 예제 구축 
- 9. 길들여지지 않는 텍스트: 다음 개척지 탐구 

 

 

 

검색 엔진하면 구글이나 네이버만 생각하시는 분들이 많이 있습니다. 하지만 자체 사이트나 사내 시스템을 구축할 때 반드시 필요한 것이 바로 검색 기능입니다. 보통 루씬, 솔라, 엘라스틱 서치 같은 오프소스를 많이 활용합니다. 이 책은 솔라를 기반으로 어떻게 자연어처리를 하는지 다루고 있습니다.

 

사실 검색이야말로 자연어처리를 가장 먼저 적용한 분야이며, 지금까지도 여러 응용 서비스에서 핵심적인 기술이라 할 수 있습니다. 과거에는 키워드 위주로 입력을 했지만, 최근에는 문장의 의미를 이해하는 방식으로 많이 발전하고 있습니다.

 

 

 

검색 시스템을 만들기 위한 첫 번째 단계는 바로 색인(indexing)입니다. 보통 책의 맨 뒷부분에 있는 찾아보기와 똑같은 원리입니다. '인공지능 챗봇'을 검색한다고 예를 들어보겠습니다. 100개의 단어를 가진 10개의 문서가 있다고 가정하면, '인공지능'과 '챗봇'을 각각 100개 단어와 10번 비교합니다. 그러면 총 100x10x2 = 2000번의 연산이 필요합니다. 만약 색인 과정을 미리하여 각 단어가 어느 문서에 나오는지 DB로 저장되어 있다면 어떨까요.

 

인공지능 -> 1, 3, 7

챗봇 -> 2, 7, 9, 10

 

위와 같이 '인공지능'과 '챗봇'이 동시에 나오는 문서가 7번이란 것을 한 번에 알 수 있습니다. 물론 문서내에서 단어의 위치 등 세부적인 사항들이 있지만 기본적인 방법은 이와 같습니다. 이렇게 색인을 수행할 때 형태소분석이나 전처리 등 자연어처리 기술이 필수적으로 들어갑니다.

 

 

 

그밖에 유사도, 개체명인식, 클러스터링, 분류, 질의응답 등 유용한 내용들이 많이 있습니다. 다만 저자가 3명이라 그런지, 챕터마다 수준 차이가 좀 많이 나는 편입니다. 그래도 자연어처리에 대해서 전체적인 개념을 이해할 수 있다는 면에서 나쁘지는 않습니다. 솔라에 대한 부분은 빼고 읽더라도 크게 무리는 없다고 생각합니다.

List of Articles
제목 글쓴이 날짜 조회 수sort
안녕, 인간 file 깊은바다 2019-11-10 286
펭귄브로의 3분 딥러닝, 파이토치맛 file 깊은바다 2020-08-02 290
리얼월드 머신러닝 file 깊은바다 2018-10-20 293
가장 빨리 만나는 챗봇 프로그래밍 with Bot Framework file 깊은바다 2018-12-24 294
한 권으로 정리하는 4차산업혁명 file 깊은바다 2018-07-06 300
머신 러닝 워크북 file 깊은바다 2018-04-14 304
마스터 알고리즘 file [1] 깊은바다 2017-03-05 314
아무것도 모르고 시작하는 인공지능 첫걸음 file 깊은바다 2018-08-16 319
외로워지는 사람들 file 깊은바다 2020-04-01 331
보이스봇 챗봇 디자인 file 깊은바다 2019-09-13 333
자율주행혁명 file 깊은바다 2018-01-18 335
영어학습을 위한 인공지능 챗봇 활용 및 제작 file 깊은바다 2019-08-12 336
다양한 봇빌더를 이용한 똑똑한 챗봇 만들기 file 깊은바다 2020-01-21 338
인공지능 개론 file 깊은바다 2016-03-25 339
챗봇 혁명 file 깊은바다 2017-09-11 341