ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 머신러닝의 과정
    ML&DL&AI/ML 2023. 8. 4. 10:53
    728x90

    머신러닝의 과정

    • Problem Identification(문제 정의)
    • Data Collect(데이터 수집)
    • Data Preprocessing(데이터 전처리)
    • EDA(탐색적 데이터분석)
    • Model 선택, Hyper Parameter 조정
    • Training(학습)
    • Evaluation(평가)

     

     

    1. Problem Identification(문제 정의)

    • 비즈니스 목적 정의모델을 어떻게 사용해 이익을 얻을까?
    • 현재 솔류션의 구성 파악
    • 지도 VS 비지도 VS 강화
    • 분류 VS 회귀

     

     

    2. Data Collect(데이터 수집)

    • File (CSV, XML, JSON)
    • Database
    • Web Crawler (뉴스, SNS, 블로그)
    • lot 센서를 통한 수집
    • Survey

     

     

    3. Data Preprocessing(데이터 전처리)

    • 결측치, 이상치 처리
    • Feature Engineering (특성공학) 
      • Scaling (단위 변환)
      • Encoding (범주형 > 수치형)
      • Binning (수치형 > 범주형)
      • Transform (새로운 속성 추출)

     

     

    4. EDA(탐색적 데이터분석)

    • 기술통계, 변수와 상관관계
    • 시각화 : pandas, metplotlib, seaborn
    • Feature Selection(사용할 특성 선택)

     

     

    5. Model 선택, Hyper Parameter 조정

    • 목적에 맞는 적절한 모델 선택
    • KNN, SVN, Linear Regression, Ridge, Lasso, Decision Tree, Random forest, CNN, RNN ...
    • Hyper Parameter
      • model의 성능을 개선하기 위해 사람이 직접 넣는 parameter

     

     

    6. Model Training(학습)

    • model.fit(X_train, y_train)
      • train 데이터와 test 데이터를 7:3 정도로 나눔
      • train 데이터의 문제와 정답으로 모델 학습
    • model.predict (X_test)
      • test 데이터의 문제를 넣고 정답을 예측

     

     

    7. Evaluation(평가)

    • 분류
      • accuracy (정확도)
      • recall (재현율)
      • precision (정밀도)
      • f1 score
      • roc곡선의 auc

     

    • 회귀
      • MSE(Mean Squared Error)
      • RMSE(Root Mean Squared Error)
      • R² (R Square)

     

    728x90

    'ML&DL&AI > ML' 카테고리의 다른 글

    ML KNN(최근접 이웃 알고리즘)란  (0) 2023.08.08
    머신러닝 7과정 실습  (0) 2023.08.04
    머신러닝의 종류  (0) 2023.08.04
    인공지능의 바라보는 시선  (0) 2023.08.04
    머신러닝이란?  (0) 2023.08.03
Designed by Tistory.