- AI Dev - 인공지능 개발자 모임
- 정보공유
- 자연어처리
글 수 72
https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=103&oid=014&aid=0004482548
"국립국어원은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일 국립국어원 '모두의 말뭉치' 사이트에서 공개한다고 밝혔다."
"문화체육관광부와 국립국어원은 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 되었다."
그동안 한국어는 보통 세종 말뭉치를 사용했습니다. 이번에 9배나 더 큰 규모의 새로운 말뭉치가 공개됐습니다. 특히 메신저 대화, 웹 자료 등 구어체 텍스트가 많은게 특징입니다. 아래 사이트에서 신청 후 받으실 수 있습니다.
< 모두의 말뭉치 >
- https://corpus.korean.go.kr/