글 수 96

자연어 텍스트 처리를 통한 검색 시스템 구축

조회 수 111 추천 수 0 2019.06.30 16:17:41


800x0_결과.jpg

 

http://www.yes24.com/Product/Goods/15529679

 

< 목차 >

- 1. 텍스트 길들이기 시작 
- 2. 텍스트 길들이기 기초 
- 3. 검색 
- 4. 유사 문자열 일치 
- 5. 인명, 지명. 사물 식별 
- 6. 텍스트 클러스터링 
- 7. 분류, 커테고리 분류, 태깅 
- 8. 질의응답 시스템 예제 구축 
- 9. 길들여지지 않는 텍스트: 다음 개척지 탐구 

 

 

 

검색 엔진하면 구글이나 네이버만 생각하시는 분들이 많이 있습니다. 하지만 자체 사이트나 사내 시스템을 구축할 때 반드시 필요한 것이 바로 검색 기능입니다. 보통 루씬, 솔라, 엘라스틱 서치 같은 오프소스를 많이 활용합니다. 이 책은 솔라를 기반으로 어떻게 자연어처리를 하는지 다루고 있습니다.

 

사실 검색이야말로 자연어처리를 가장 먼저 적용한 분야이며, 지금까지도 여러 응용 서비스에서 핵심적인 기술이라 할 수 있습니다. 과거에는 키워드 위주로 입력을 했지만, 최근에는 문장의 의미를 이해하는 방식으로 많이 발전하고 있습니다.

 

 

 

검색 시스템을 만들기 위한 첫 번째 단계는 바로 색인(indexing)입니다. 보통 책의 맨 뒷부분에 있는 찾아보기와 똑같은 원리입니다. '인공지능 챗봇'을 검색한다고 예를 들어보겠습니다. 100개의 단어를 가진 10개의 문서가 있다고 가정하면, '인공지능'과 '챗봇'을 각각 100개 단어와 10번 비교합니다. 그러면 총 100x10x2 = 2000번의 연산이 필요합니다. 만약 색인 과정을 미리하여 각 단어가 어느 문서에 나오는지 DB로 저장되어 있다면 어떨까요.

 

인공지능 -> 1, 3, 7

챗봇 -> 2, 7, 9, 10

 

위와 같이 '인공지능'과 '챗봇'이 동시에 나오는 문서가 7번이란 것을 한 번에 알 수 있습니다. 물론 문서내에서 단어의 위치 등 세부적인 사항들이 있지만 기본적인 방법은 이와 같습니다. 이렇게 색인을 수행할 때 형태소분석이나 전처리 등 자연어처리 기술이 필수적으로 들어갑니다.

 

 

 

그밖에 유사도, 개체명인식, 클러스터링, 분류, 질의응답 등 유용한 내용들이 많이 있습니다. 다만 저자가 3명이라 그런지, 챕터마다 수준 차이가 좀 많이 나는 편입니다. 그래도 자연어처리에 대해서 전체적인 개념을 이해할 수 있다는 면에서 나쁘지는 않습니다. 솔라에 대한 부분은 빼고 읽더라도 크게 무리는 없다고 생각합니다.






List of Articles
제목 글쓴이 날짜 조회 수
잡아라! 텍스트 마이닝 with 파이썬 file 깊은바다 2019-07-12 52
채용담당자가 공개하는 AI면접 합격 기술 file 깊은바다 2019-07-08 85
AI 마인드 file 깊은바다 2019-07-07 76
자연어 텍스트 처리를 통한 검색 시스템 구축 file 깊은바다 2019-06-30 111
만화로 쉽게 배우는 선형대수 file 깊은바다 2019-06-29 109
21세기를 위한 21가지 제언 file 깊은바다 2019-06-23 57
수학의 아름다움 - 자연어처리 알고리즘 file 깊은바다 2019-06-04 149
로봇 설계자 신시아 브리질 file 깊은바다 2019-05-26 93
머신러닝 비즈니스 - 애저 머신러닝 스튜디오 file 깊은바다 2019-04-30 115
자연어 처리 쿡북 with 파이썬 file 깊은바다 2019-04-15 215
PyTorch를 활용한 강화학습/심층강화학습 실전 입문 file 깊은바다 2019-03-17 198
텐서플로와 머신러닝으로 시작하는 자연어 처리 file 깊은바다 2019-02-28 288
대학에 가는 AI VS 교과서를 못 읽는 아이들 file 깊은바다 2019-02-28 159
머신러닝 탐구생활 file 깊은바다 2019-01-31 194
수학 없이 배우는 데이터 과학과 알고리즘 file 깊은바다 2019-01-10 196