레플리
글 수 126

자연어 텍스트 처리를 통한 검색 시스템 구축

조회 수 375 추천 수 0 2019.06.30 16:17:41


800x0_결과.jpg

 

http://www.yes24.com/Product/Goods/15529679

 

< 목차 >

- 1. 텍스트 길들이기 시작 
- 2. 텍스트 길들이기 기초 
- 3. 검색 
- 4. 유사 문자열 일치 
- 5. 인명, 지명. 사물 식별 
- 6. 텍스트 클러스터링 
- 7. 분류, 커테고리 분류, 태깅 
- 8. 질의응답 시스템 예제 구축 
- 9. 길들여지지 않는 텍스트: 다음 개척지 탐구 

 

 

 

검색 엔진하면 구글이나 네이버만 생각하시는 분들이 많이 있습니다. 하지만 자체 사이트나 사내 시스템을 구축할 때 반드시 필요한 것이 바로 검색 기능입니다. 보통 루씬, 솔라, 엘라스틱 서치 같은 오프소스를 많이 활용합니다. 이 책은 솔라를 기반으로 어떻게 자연어처리를 하는지 다루고 있습니다.

 

사실 검색이야말로 자연어처리를 가장 먼저 적용한 분야이며, 지금까지도 여러 응용 서비스에서 핵심적인 기술이라 할 수 있습니다. 과거에는 키워드 위주로 입력을 했지만, 최근에는 문장의 의미를 이해하는 방식으로 많이 발전하고 있습니다.

 

 

 

검색 시스템을 만들기 위한 첫 번째 단계는 바로 색인(indexing)입니다. 보통 책의 맨 뒷부분에 있는 찾아보기와 똑같은 원리입니다. '인공지능 챗봇'을 검색한다고 예를 들어보겠습니다. 100개의 단어를 가진 10개의 문서가 있다고 가정하면, '인공지능'과 '챗봇'을 각각 100개 단어와 10번 비교합니다. 그러면 총 100x10x2 = 2000번의 연산이 필요합니다. 만약 색인 과정을 미리하여 각 단어가 어느 문서에 나오는지 DB로 저장되어 있다면 어떨까요.

 

인공지능 -> 1, 3, 7

챗봇 -> 2, 7, 9, 10

 

위와 같이 '인공지능'과 '챗봇'이 동시에 나오는 문서가 7번이란 것을 한 번에 알 수 있습니다. 물론 문서내에서 단어의 위치 등 세부적인 사항들이 있지만 기본적인 방법은 이와 같습니다. 이렇게 색인을 수행할 때 형태소분석이나 전처리 등 자연어처리 기술이 필수적으로 들어갑니다.

 

 

 

그밖에 유사도, 개체명인식, 클러스터링, 분류, 질의응답 등 유용한 내용들이 많이 있습니다. 다만 저자가 3명이라 그런지, 챕터마다 수준 차이가 좀 많이 나는 편입니다. 그래도 자연어처리에 대해서 전체적인 개념을 이해할 수 있다는 면에서 나쁘지는 않습니다. 솔라에 대한 부분은 빼고 읽더라도 크게 무리는 없다고 생각합니다.

List of Articles
제목 글쓴이 날짜sort 조회 수
프롬프트 엔지니어링 교과서 file 깊은바다 2023-12-04 286
외로워지는 사람들 file 깊은바다 2023-02-17 179
매출 올리는 데이터 사이언티스트 file Dfinite 2022-07-31 801
AI 메이커스, 인공지능 전쟁의 최전선 file 깊은바다 2022-06-04 601
이노베이터 - 컴퓨터의 역사 file 깊은바다 2021-05-11 232
바닥부터 배우는 강화 학습 file 다코미 2021-01-20 460
파이썬으로 챗봇 만들기 file 다코미 2021-01-20 432
처음 만나는 AI 수학 with Python file 다코미 2021-01-14 421
기초부터 시작하는 강화학습/신경망 알고리즘 file 깊은바다 2020-10-18 532
EBS 수학과 함께하는 AI 기초 file 깊은바다 2020-09-15 643
펭귄브로의 3분 딥러닝, 파이토치맛 file 깊은바다 2020-08-02 295
미술관에 GAN 딥러닝 실전 프로젝트 file [1] 깊은바다 2020-07-05 421
보통 사람들의 전쟁 file 깊은바다 2020-05-28 275
당신이 알고 싶은 음성인식 AI의 미래 file 깊은바다 2020-04-22 355
외로워지는 사람들 file 깊은바다 2020-04-01 338