레플리
글 수 72

한국어 자연어처리 데이터셋 - KorQuAD

조회 수 4722 추천 수 0 2018.12.21 02:47:39


https://korquad.github.io/

 

 

 

SQuAD(Stanford Question Answering Dataset)는 자연어처리 데이터셋으로 '컨텍스트/질문/대답'으로 이루어져 있습니다. 컨텍스트와 질문이 하나의 입력으로 들어가면 컨텍스트에서 질문에 대한 대답을 찾아 출력하도록 학습합니다. 예를 들어, 다음과 같습니다.

 

 

 

< 컨텍스트 >
The region is home to about 2.5 million insect species, tens of thousands of plants, and some 2,000 birds and mammals. To date, at least 40,000 plant species, 2,200 fishes, 1,294 birds, 427 mammals, 428 amphibians, and 378 reptiles have been scientifically classified in the region. One in five of all the bird species in the world live in the rainforests of the Amazon, and one in five of the fish species live in Amazonian rivers and streams. Scientists have described between 96,660 and 128,843 invertebrate species in Brazil alone.

 

< 질문 / 대답 >
How many species of insects are known in the region?
-> 2.5 million


What portion of bird species make up the world's total live in the rainforest?
-> One in five

 

 

 

다만 영문이라 아쉬웠는데 얼마전 LG CNS에서 한글로 된 KorQuAD를 공개하였습니다. 형식은 SQuAD와 동일하고 위키피디아의 정보를 사용했습니다. 그동안 마땅한 한글 데이터셋이 없어 답답했던 분들에게 큰 도움이 될 듯 합니다.

 

그런데 파일을 열어보니 한글이 \ud1f4\uc5ed\ud55c 같은 바이트 스트링으로 되어 있습니다. 따로 프로그램에서 변환을 하면 되지만 바로 확인할 수가 없으니 조금 불편하네요^^;

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
파이썬으로 3줄 요약기 만들기 깊은바다 2018-01-19 10805
마르코프 체인을 사용한 자동 문장 생성 file 깊은바다 2017-04-05 8959
한국어 문장 분리기, KSS(Korean Sentence Splitter) 파이썬 포팅 file 깊은바다 2020-12-23 6105
한국어 채팅 데이터로 머신러닝 하기 깊은바다 2018-04-25 6086
자연어(NLP) 처리 기초 정리 깊은바다 2018-10-22 5766
자바 형태소 분석기 open-korean-txt 깊은바다 2017-04-11 5418
한국어 자연어처리 데이터셋 - KorQuAD 깊은바다 2018-12-21 4722
WordPiece와 BPE(Byte Pair Encoding) 깊은바다 2019-06-17 4717
한국어 전처리 기법 모음 깊은바다 2020-07-31 4523
빠르고 성능 좋은 형태소분석기 MeCab-Ko 깊은바다 2017-05-02 4422
문서에서 핵심 단어를 찾는 TF-IDF 알고리즘 file 깊은바다 2017-09-07 4235
한글 NLP with Python - KoNLPy 사용법 [2] 깊은바다 2017-12-08 4028
노가다 없는 텍스트 분석을 위한 한국어 NLP 깊은바다 2018-04-26 3902
TextRank 기법을 이용한 핵심 어구 추출 및 텍스트 요약 file 깊은바다 2018-12-28 3220
한글 자모 분리 및 합치기 파이썬 패키지 [1] 깊은바다 2020-03-03 3203