-
머신러닝의 과정
ML&DL&AI/ML
2023. 8. 4. 10:53
머신러닝의 과정
- Problem Identification(문제 정의)
- Data Collect(데이터 수집)
- Data Preprocessing(데이터 전처리)
- EDA(탐색적 데이터분석)
- Model 선택, Hyper Parameter 조정
- Training(학습)
- Evaluation(평가)
1. Problem Identification(문제 정의)
- 비즈니스 목적 정의모델을 어떻게 사용해 이익을 얻을까?
- 현재 솔류션의 구성 파악
- 지도 VS 비지도 VS 강화
- 분류 VS 회귀
2. Data Collect(데이터 수집)
- File (CSV, XML, JSON)
- Database
- Web Crawler (뉴스, SNS, 블로그)
- lot 센서를 통한 수집
- Survey
3. Data Preprocessing(데이터 전처리)
- 결측치, 이상치 처리
- Feature Engineering (특성공학)
- Scaling (단위 변환)
- Encoding (범주형 > 수치형)
- Binning (수치형 > 범주형)
- Transform (새로운 속성 추출)
4. EDA(탐색적 데이터분석)
- 기술통계, 변수와 상관관계
- 시각화 : pandas, metplotlib, seaborn
- Feature Selection(사용할 특성 선택)
5. Model 선택, Hyper Parameter 조정
- 목적에 맞는 적절한 모델 선택
- KNN, SVN, Linear Regression, Ridge, Lasso, Decision Tree, Random forest, CNN, RNN ...
- Hyper Parameter
- model의 성능을 개선하기 위해 사람이 직접 넣는 parameter
6. Model Training(학습)
- model.fit(X_train, y_train)
- train 데이터와 test 데이터를 7:3 정도로 나눔
- train 데이터의 문제와 정답으로 모델 학습
- model.predict (X_test)
7. Evaluation(평가)
- 분류
- accuracy (정확도)
- recall (재현율)
- precision (정밀도)
- f1 score
- roc곡선의 auc
- 회귀
- MSE(Mean Squared Error)
- RMSE(Root Mean Squared Error)
- R² (R Square)