K-Neareast Neighbor 알고리즘 (K-NN)by Pigbrain

-Training Data와 가장 유사한 K개의 데이터를 이용하여 값을 예측하는 알고리즘
-Input Data와 Training Data들과의 유사성은 유클리드거리를 이용

  • 장점
    • 높은 정확도
    • Outlier에 둔감
    • 데이터에 대한 가정이 필요 없다
  • 단점
    • 계산 비용이 높다
    • 많은 메모리 필요

예제

영화 제목발차기 장면 횟수키스 장면 횟수영화 유형
A3104로맨스
B2100로맨스
C181로맨스
D10110액션
E995액션
F982액션
G1890?


물음표에 해당하는 영화 유형을 찾아보자

  1. 다른 모든 영화와의 유사도를 계산 한다
  2. 유사도가 가장 가까운(가장 작은) K개의 영화를 찾는다 (K=3으로 가정)
  3. K개중 다수의 영화 유형을 G의 영화 유형으로 예측한다
영화 제목영화 'G'와의 거리(유사도)
A20.5
B18.7
C19.2
D115.3
E117.4
F118.9


영화 G와 유사도가 가장 가까운 영화는 A, B, C 이다.
A, B, C가 로맨스 이기 때문에 G도 로맨스 이다.

Published 01 July 2015