레플리
글 수 72

나이브 베이즈로 스팸 분류

조회 수 910 추천 수 0 2018.04.15 15:46:13


 

http://gomguard.tistory.com/69

 

 

 

인공지능을 활용한 대표적인 방법으로 스팸 분류를 들 수 있습니다. 여기서 사용된 알고리즘은 바로 나이브 베이즈입니다. 베이즈 확률이란 어떤 정보가 주어졌을때 확률이 변하는 것을 의미합니다.

 

예를 들어, 트럼프 카드에서 스페이스 무늬가 나올 확률은 1/4입니다. 하지만 카드를 살짝 보니 검정색이었다는 정보를 얻었다면 1/2로 확률이 변합니다.

 

이렇게 조건이 주어졌을때 확률을 구하는 방법이 베이즈 정리입니다. 특히 이를 단순화한 나이브 베이즈를 많이 사용합니다.

 

P(A|B) = P(B|A)P(A)/P(B)

 

 

 

문서가 스팸인지를 알고 싶다면 P(스팸|문서)의 확률을 구해야 합니다. 이 확률은 구하기 어렵지만 P(문서|스팸)은 데이터셋을 통해서 얻을 수가 있습니다.

 

문서는 단어들의 집합이기 때문에 다음과 같이 변경할 수 있습니다. P(단어1|스팸)*P(단어2|스팸)*P(단어3|스팸)*... 각각의 확률은 스팸으로 분류된 전체 문서들의 단어의 개수에서 특정 단어의 개수를 구해 계산할 수 있습니다.

엮인글 :
List of Articles
제목 글쓴이 날짜 조회 수sort
나이브 베이즈로 스팸 분류 깊은바다 2018-04-15 910
마르코프 체인으로 만든 p봇 깊은바다 2017-05-01 895
우리말 자연어처리 기술 - 과거와 현재 깊은바다 2018-08-28 860
왓슨 컴퓨터의 인공지능 소개 깊은바다 2018-03-25 836
사진을 문장으로 변환하는 구글의 새로운 기술 file 깊은바다 2016-03-25 835
메이템 가상비서 앱 자연어처리 모듈 개발 file [1] 깊은바다 2019-01-31 828
인공지능이 법률 문서를 검토한다면? 깊은바다 2019-01-09 795
자연어로 빅데이터 분석 - 왓슨 애널리틱스 깊은바다 2016-03-21 732
자연어처리 벤치마크 GLUE의 한글 버전인 KLUE 공개 file 깊은바다 2021-05-22 690
머신러닝으로 쏟아지는 유저 CS 답변하기 깊은바다 2018-01-26 681
무엇이든 물어보세요, 지식그래프 : 카카오미니와 검색 적용 소개 깊은바다 2018-09-27 663
음성인식 방법과 카카오i의 음성형엔진 깊은바다 2018-04-09 661
클로바 Interaction Model의 이해 및 설계/제작 노하우 - 자연어처리 방법 깊은바다 2018-06-06 642
엑소브레인 자연어 질의응답 기술 file 깊은바다 2018-03-25 627
IBM 왓슨의 자연어처리 방식 깊은바다 2020-06-26 626