레플리
글 수 72

예일대의 자연어-SQL 데이터셋, Spider

조회 수 526 추천 수 0 2020.07.12 17:39:03


Image for post

 

https://yale-lily.github.io/spider

 

 

 

보통 목적지향 챗봇은 먼저 문장에서 의도와 개체를 추출합니다. 그리고 각 의도에 맞는 함수를 코드로 구현합니다. 파라미터로 받은 개체 정보를 사용해서 API를 호출하거나 DB와 연동하는 등 적절한 동작을 수행합니다. 만약 딥러닝을 통해 End2End 방식으로 만들려면, 그 과정을 사람이 프로그래밍하지 않고 자동화할 필요가 있습니다.

 

예일대에서 공개한 Spider는 자연어-SQL 데이터셋입니다. 텍스트로 질문을 하면 거기에 맞는 SQL을 보여줍니다. 리더보드도 운영하고 있는데, 지금은 BERT 계열이 상위권을 차지하고 있습니다. 과연 이런 노력이 End2End 목적지향 챗봇으로 이어질 수 있을까요. 당분간은 쉽지 않은 길인 것 같습니다.

 

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
파이썬으로 3줄 요약기 만들기 깊은바다 2018-01-19 10810
마르코프 체인을 사용한 자동 문장 생성 file 깊은바다 2017-04-05 8977
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6162
한국어 채팅 데이터로 머신러닝 하기 깊은바다 2018-04-25 6086
자연어(NLP) 처리 기초 정리 깊은바다 2018-10-22 5769
자바 형태소 분석기 open-korean-txt 깊은바다 2017-04-11 5434
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4741
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4724
한국어 전처리 기법 모음 깊은바다 2020-07-31 4539
빠르고 성능 좋은 형태소분석기 MeCab-Ko 깊은바다 2017-05-02 4422
문서에서 핵심 단어를 찾는 TF-IDF 알고리즘 file 깊은바다 2017-09-07 4257
한글 NLP with Python - KoNLPy 사용법 [2] 깊은바다 2017-12-08 4028
노가다 없는 텍스트 분석을 위한 한국어 NLP 깊은바다 2018-04-26 3902
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3245
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3229