-
1. K-Nearest Neighbors(최근접 이웃 알고리즘)
- 유유상종의 개념과 유사하다
- 새로운 데이터 포인트와 가장 가까운 훈련 데이터셋의 데이터 포인트를 찾아 예측한다.
- K 값에 따라 가까운 이웃의 수가 결정된다.
- 분류와 회귀에 모두 사용 가능하다.
2. KNN 개념 정리
- K 값이 작을수록 모델의 복잡도가 상대적으로 증가(noise 값에 민감)
- 반대로 K 값이 커질수록 모델의 복잡도가 낮아짐
- 100개의 데이터를 학습하고 K를 100개로 설정하여 예측하면 빈도가 가장 많은 클래스 레이블로 분류
> 과소 적합(안 좋은 분류 모델)
3. KNN의 거리 공식
4. KNN 장단점 및 키워드
- n_neighbors : 이웃의 수
- metrics : 유클리디안 거리 방식
- 새로운 테스트 데이터 세트가 들어오면,
훈련데이터 세트와의 거리를 계산해서 훈련 데이터 세트가 크면(특성, 샘플의 수) 예측이 느려짐
- 수백 개의 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소(sparse)한 데이터 세트에는 잘 동작 안 함
- 거리를 측정하기 때문에 같은 scale을 같도록 정규화가 필요