-
ML - Text Mining 01ML&DL&AI/ML 2023. 9. 17. 13:24728x90
1. 텍스트 마이닝이란
- 데이터로부터 유용한 인사이트를 발굴하는 Data Mining의 한 종류
- 정형 및 비정형 데이터를 자연어 처리 방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출/가공하는 것을 목적으로 하는 기술
2. 자연언어(Nature language)란?
- 정보를 전달하는 수단
- 인간이 일상생활에서 사용하는 언어
- 특정 집단에서 사용되는 모국어의 집합 (한국어, 영어, 불어, 일본어, 중국어 등)
- 인공언어에 대응되는 개념
- 인공언어란
- 특정한 법칙들에 따라 적절하게 구성된 문자열들의 집합
- 특정 목적을 위해 인위적, 의도적으로 만든 언어 ex) 에스페란토, 형식언어(수식), 프로그래밍 언어
- 자연어처리 응용 분야
- 인간의 언어가 사용되는 실세계의 모든 영역
- 정보검색, 질의응답 시스템
- Google, Naver, iphone siri, 갤럭시 bixby, IBM Watson
- 기계번역, 자동통역
- Google 번역기, ETRI 지니톡
- 문서작성, 문서요약, 문서 분류, 철자 오류 검색 및 수정, 문법 오류 검사 및 수정
- 기업 활용 사례
- 지식 경영(Knowledge management)
- 많은 양의 데이터 중 의미 있는 데이터만 뽑아내고 효율적으로 관리
- 사이버 범죄 예방(Cybercrime prevention)
- 텍스트 마이닝을 이용한 범죄 예방 어플리케이션 등
- 고객 관리 서비스(Customer care service)
- 고객에게 빠르고 자동화된 응답을 제공하기 위해 활용
- 고객 클레임 분석을 통한 부정행위 탐지(Fraud detection through claims investigation)
- 보험회사는 텍스트 마이닝을 통해 사기를 방지하고 빠르게 클레임 처 리
- 콘텐츠 강화(Content enrichment)
- 다양한 목적에 따라 그에 적합한 내용으로 정리하고 요약
- 소셜 미디어 데이터 분석(Social media data analysis)
- 해당 브랜드나 제품에 대한 다양한 의견과 감성반응을 살핌
728x90'ML&DL&AI > ML' 카테고리의 다른 글
ML Linear Model(선형 모델) (0) 2023.09.03 ML 데이터 스케일링 (0) 2023.08.30 ML 모델 성능 평가(K-fold cross-validation, GridSearchCV) (0) 2023.08.21 ML AdaBoost(Adaptive Boosting) (0) 2023.08.16 앙상블(Ensemble) 모델 (0) 2023.08.16