레플리
글 수 72

한국어 자연어처리 데이터셋 - KorQuAD

조회 수 4725 추천 수 0 2018.12.21 02:47:39


https://korquad.github.io/

 

 

 

SQuAD(Stanford Question Answering Dataset)는 자연어처리 데이터셋으로 '컨텍스트/질문/대답'으로 이루어져 있습니다. 컨텍스트와 질문이 하나의 입력으로 들어가면 컨텍스트에서 질문에 대한 대답을 찾아 출력하도록 학습합니다. 예를 들어, 다음과 같습니다.

 

 

 

< 컨텍스트 >
The region is home to about 2.5 million insect species, tens of thousands of plants, and some 2,000 birds and mammals. To date, at least 40,000 plant species, 2,200 fishes, 1,294 birds, 427 mammals, 428 amphibians, and 378 reptiles have been scientifically classified in the region. One in five of all the bird species in the world live in the rainforests of the Amazon, and one in five of the fish species live in Amazonian rivers and streams. Scientists have described between 96,660 and 128,843 invertebrate species in Brazil alone.

 

< 질문 / 대답 >
How many species of insects are known in the region?
-> 2.5 million


What portion of bird species make up the world's total live in the rainforest?
-> One in five

 

 

 

다만 영문이라 아쉬웠는데 얼마전 LG CNS에서 한글로 된 KorQuAD를 공개하였습니다. 형식은 SQuAD와 동일하고 위키피디아의 정보를 사용했습니다. 그동안 마땅한 한글 데이터셋이 없어 답답했던 분들에게 큰 도움이 될 듯 합니다.

 

그런데 파일을 열어보니 한글이 \ud1f4\uc5ed\ud55c 같은 바이트 스트링으로 되어 있습니다. 따로 프로그램에서 변환을 하면 되지만 바로 확인할 수가 없으니 조금 불편하네요^^;

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
음성인식 방법과 카카오i의 음성형엔진 깊은바다 2018-04-09 661
무엇이든 물어보세요, 지식그래프 : 카카오미니와 검색 적용 소개 깊은바다 2018-09-27 663
머신러닝으로 쏟아지는 유저 CS 답변하기 깊은바다 2018-01-26 681
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 690
자연어로 빅데이터 분석 - 왓슨 애널리틱스 깊은바다 2016-03-21 732
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 795
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 828
사진을 문장으로 변환하는 구글의 새로운 기술 file 깊은바다 2016-03-25 835
왓슨 컴퓨터의 인공지능 소개 깊은바다 2018-03-25 836
우리말 자연어처리 기술 - 과거와 현재 깊은바다 2018-08-28 860
마르코프 체인으로 만든 p봇 깊은바다 2017-05-01 895
나이브 베이즈로 스팸 분류 깊은바다 2018-04-15 911
Machine Learning for Kids로 감정분석 깊은바다 2020-02-09 932
파이썬과 커뮤니티와 한국어 오픈데이터 - KoNLPy의 탄생배경 깊은바다 2019-11-11 942
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 깊은바다 2019-03-10 967