MachineLearning

K-Neareast Neighbor 알고리즘 (K-NN)by Pigbrain

-Training Data와 가장 유사한 K개의 데이터를 이용하여 값을 예측하는 알고리즘
-Input Data와 Training Data들과의 유사성은 유클리드거리를 이용

장점
- 높은 정확도
- Outlier에 둔감
- 데이터에 대한 가정이 필요 없다
단점
- 계산 비용이 높다
- 많은 메모리 필요

예제

영화 제목	발차기 장면 횟수	키스 장면 횟수	영화 유형
A	3	104	로맨스
B	2	100	로맨스
C	1	81	로맨스
D	101	10	액션
E	99	5	액션
F	98	2	액션
G	18	90	?

물음표에 해당하는 영화 유형을 찾아보자

다른 모든 영화와의 유사도를 계산 한다
유사도가 가장 가까운(가장 작은) K개의 영화를 찾는다 (K=3으로 가정)
K개중 다수의 영화 유형을 G의 영화 유형으로 예측한다

영화 제목	영화 'G'와의 거리(유사도)
A	20.5
B	18.7
C	19.2
D	115.3
E	117.4
F	118.9

영화 G와 유사도가 가장 가까운 영화는 A, B, C 이다.
A, B, C가 로맨스 이기 때문에 G도 로맨스 이다.

Published 01 July 2015

MachineLearning