안녕하세요.
머신러닝을 이제 시작하는 아무것도 모르는 새내기 입니다.
다름이 아니라, 하고자하는 목표를 달성하기 위해서
어떤 방식으로 접근해야 할지 명확치 않아 질문 드립니다.
PDF 나 워드 또는 한글 파일에서 텍스트를 추출하여
추출된 내용으로
표지,
항목,
항목의 내용 등을
학습을 통하여 인지 하려고 합니다.
ex )
//============== 이런유형은 목차 ================
개인신용정보 제공·이용에 대한 고객 권리 안내 ··································7
메리츠금융그룹 고객정보의 취급방침 ···················································10
보험금 지급절차 안내장 ···········································································14
안내말씀 ·······································································································17
유의사항 ·······································································································17
=========================================//
//=== 이런 유형은 항목 ==========
1. 금융서비스 이용 범위
==========================//
//===== 이런 유형은 항목의 내용 ==================================
가. 고객의 개인신용정보는 금융거래의 설정 ․ 유지여부 판단 목 적 및 고객이 동의한 목적만으로 이용됩니다.
나. 고객은 영업장 ․ 인터넷 등 다양한 채널을 통해 금융거래를 체결하거나 금융서비스를 제공받는 과정에서
1) 금융회사가 본인의 개인신용정보(이하 ‘본인정보’)를 제휴 ․ 부가서비 스 등을 위해 제휴회사 등에 제공하는 것 및
2) 당해 금융회 사가 금융상품 소개 및 구매권유(이하 ‘마케팅’) 목적으로 이용하는 것에 대해 동의를 하지 않는 경우에도 금융거래를 체결하거나 금융서비스를 이용하실 수 있습니다.
=========================================================//
제 생각엔 비지도 학습으로 접근하는게 맞는거 같은데.
명확치 않고, 비지도 학습이 맞아면 어떤 알고리즘으로 접근하는것이 맞는것인지.
아니면 다른 학습 방으로 접근 하는것이 맞는지.
조언 부탁 드립니다.
감사합니다.
비지도학습보다는 지도학습이 더 적합할 것 같습니다. 각 문장마다 라벨을 달고, 분류 모델로 학습하는게 어떨까요. 만약 1, 1) 등 형식이 일정하다면 굳이 학습을 적용할 필요가 없을 수도 있습니다. 그냥 룰베이스도 해도 충분할 듯 합니다.