레플리
글 수 283

욕설을 찾는 BERT 모델 - Purifier

조회 수 3269 추천 수 0 2019.08.28 02:54:11


ap_graph

 

https://github.com/teammatmul/project-purifier

 

 

 

BERT로 욕설을 판단하는 모델입니다. 웹사이트에서 바로 테스트 해보실 수 있습니다. 띄어쓰기를 하지 않거나 중간에 기호가 삽입되면 약간 정확도가 떨어집니다. 그 외에는 상당히 잘 찾아냅니다.

 

욕설의 위치를 마스킹하는 기능도 추가되었습니다. 데이터셋은 단지 '욕설/정상'으로만 라벨이 달려있습니다. 설명에는 puri attention layer를 사용하여 욕설인 토큰을 찾는다고 합니다.

 

무엇보다 크롤링한 10만개의 문장들에 일일이 라벨을 달았다는게 대단합니다. 게다나 욕설을 읽는 스트레스까지 포함하면 고생이 상당했을 텐데요^^; 모델을 구현하는 능력도 중요하지만, 데이터 수집하고 정제하는 노력도 필수적인 것 같습니다.

 

 

 

< 테스트 사이트 >

-> http://www.matmul.net/purifier

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
RAG를 사용한 페르소나 챗봇 - ChatHaruhi file 깊은바다 2023-10-17 718
Llama 2의 RLHF 구현 방법 깊은바다 2023-07-19 729
GPT3가 상식을 가지고 있을까 깊은바다 2020-07-24 741
LLM이 서로 협력하여 프로그램을 개발 - ChatDev file 깊은바다 2023-08-16 751
HyperCLOVA로 만드는 캐릭터 챗봇 file 깊은바다 2021-11-26 762
GPT3로 하는 리액트 프로그래밍 file 깊은바다 2020-07-19 769
ChatGPT와 유사한 서비스 - Chatsonic file 깊은바다 2023-01-09 794
GPT-3 패러다임을 바꿀 미친 성능의 인공지능 등장 및 활용 사례 10가지 깊은바다 2020-09-14 799
ChatGPT 프롬프트 엔지니어링 - 다양한 말투로 대답하기 file 깊은바다 2023-02-17 804
러시아의 구글 얀덱스, 100B 초거대모델 무료 공개 깊은바다 2022-06-26 806
네이버 뉴스 댓글로 사전훈련한 구어체 모델 - KcBERT 깊은바다 2020-07-20 814
DALL-E를 능가하는 OpenAI의 GLIDE 깊은바다 2021-12-27 838
구글의 초거대모델 PaLM의 추론과 상식 능력 file 깊은바다 2022-05-20 838
인간의 언어를 이해하는 기계, NLU 깊은바다 2019-05-17 850
ChatGPT보다 한글을 더 잘 대답하는 모델 - Claude file 깊은바다 2023-01-10 855