레플리
글 수 283

욕설을 찾는 BERT 모델 - Purifier

조회 수 3265 추천 수 0 2019.08.28 02:54:11


ap_graph

 

https://github.com/teammatmul/project-purifier

 

 

 

BERT로 욕설을 판단하는 모델입니다. 웹사이트에서 바로 테스트 해보실 수 있습니다. 띄어쓰기를 하지 않거나 중간에 기호가 삽입되면 약간 정확도가 떨어집니다. 그 외에는 상당히 잘 찾아냅니다.

 

욕설의 위치를 마스킹하는 기능도 추가되었습니다. 데이터셋은 단지 '욕설/정상'으로만 라벨이 달려있습니다. 설명에는 puri attention layer를 사용하여 욕설인 토큰을 찾는다고 합니다.

 

무엇보다 크롤링한 10만개의 문장들에 일일이 라벨을 달았다는게 대단합니다. 게다나 욕설을 읽는 스트레스까지 포함하면 고생이 상당했을 텐데요^^; 모델을 구현하는 능력도 중요하지만, 데이터 수집하고 정제하는 노력도 필수적인 것 같습니다.

 

 

 

< 테스트 사이트 >

-> http://www.matmul.net/purifier

엮인글 :
List of Articles
제목 글쓴이 날짜sort 조회 수
GPT-3를 사용하여 코딩을 하는 MS의 파워FX 깊은바다 2021-06-01 249
일상대화 딥러닝 모델들을 쉽게 실행할 수 있는 Openchat 깊은바다 2021-06-01 569
구글의 딥러닝 대화 모델 - LaMDA 깊은바다 2021-06-13 587
GPT-3를 활용하여 주석을 코드로 바꿔주는 GitHub Copilot 깊은바다 2021-06-30 356
6B 파라미터의 GPT-J_6B 오픈소스 모델 깊은바다 2021-07-01 3125
GPT-3 데모 사이트 - gpt3demo.com 깊은바다 2021-07-13 3707
인터넷 검색을 하고 장기기억을 저장하는 페이스북의 챗봇 - Blenderbot 2 file 깊은바다 2021-07-19 653
죽은 약혼자를 챗봇으로 살려낸 남자 - Project December 깊은바다 2021-07-27 561
챗봇의 슬롯 채우기(Slot Filling)와 DST(Dialogue State Tracking) file 깊은바다 2021-08-19 1466
네이버의 초거대모델인 HyperCLOVA 논문 file 깊은바다 2021-09-13 556
문장을 벡터로 변환하는 방법들 깊은바다 2021-09-16 931
부적절한 문장을 판단해주는 딥러닝 모델 - Ask Delphi file 깊은바다 2021-11-08 399
여러 한국어 GPT 모델들 file [1] 봄눈 2021-11-21 3335
HyperCLOVA로 만드는 캐릭터 챗봇 file 깊은바다 2021-11-26 761
검색기반 거대모델인 딥마인드의 RETRO 깊은바다 2021-12-20 511