지도학습(분류) Flashcards
KNN
[리드] 비모수적 확률 밀도 추정 알고리즘
[정의] Sample에 주어진 x에서 가장 가까운 k개의 원소가 많이 속하는 class로 x를 분류하는 비모수적 확률밀도 추정방법
장/단 효율성, 결과 일관성 (단) 성능 가변성, 고비용, 높은 자원 요구
* 데이터 셋을 저장만하고 모델을 능동적으로 생성하지 않는 Lazy Learning 방식
[동작]
1. Fingerprint DB 구축 : 특정 위치를 참조 위치로 지정
2. 데이터셋 그룹핑 : Fingerprint DB 내 데이터 표준 그룹화
3. 거리측정 : 유클리드 거리
4. 매개변수 선택 (k값 선정) : 최적 성능 k값 선택
5. 후보집합 생성 : 최소 거리부터 순서대로 k개 데이터 찾아 후보 집합 생성 및 정렬
6. Label 값 확인 : 후보 집합의 각 원소가 어떤 클래스에 속하는지 Label 값 확인
7. 클래스 맵핑 : 가장 많은 빈도 수 차지 클래스 찾아 x를 클래스에 맵핑
[활용]
- 위치 측위, 선호도 분류, 데이터 필터링, 고속도로 통행시간 예측
SVM
[리드] 분류와 회귀분석에서 과적합 없는 고성능 알고리즘
[정의] 학습 데이터를 두 개의 클래스로 분류하기 위해 여백(Margin)을 최대로 하는 결정직선탐색 분류 알고리즘
[목적] 클래스 간 최장 경계 탐색, 과적합 회피, 통계적 학습 이론 기반, 차원의 저주 회피
[구성요소] (서초결마커슬)
- Support Vector : 클래스 분류 결정 직선에서 가장 근거리에 위치하는 벡터 (X1, X2)
- 초평면 : n차원 공간 구분 위해 결정되는 n-1 평면 (WTX=1, -1)
- 결정 직선 : 클래스 간 최대 Margin을 갖는 경계선 (WTX=0)
- Margin : A와 B 클래스 서포트 벡터 사이의 거리 (max 2/w)
- 커널 함수 : 비선형 패턴 분리 위해 비선형 패턴 입력 공간을 선형패턴으로 변환 (k(x,y))
- 슬랙 변수 : 완벽한 분리 불가능시 허용된 오차위한 변수(이상값 처리)
[주요기법]
- 하드마진 SVM : 마진의 안쪽이나 바깥쪽으로 절대로 이상치(Outlier)를 허용하지 않는 SVM
- 소프트마진 SVM : 마진의 안쪽이나 바깥쪽으로 이상치(Outlier)를 허용하는 SVM
- 커널 기법 : 비선형 패턴 분리, input space를 선형패턴의 Feature space로 고차공간 변환 후 경계 탐색
[문제점/해결법] 비선형 분류 문제 / 커널 트릭(저 차원의 입력X를 고차원의 값 Θ(x)로 변경)
[사례] 텍스트 분류, 이미지 분류, 의료 정보 분류, 손글씨 인식
나이브 베이지안
[정의] 조건부 확률에 베이즈 정리(Bayes Theorem)을 적용하여 문서나 데이터를 구성하는 각각의 요소들이 등장할 확률에 대한 독립성을 가정하여 입력벡터를 분류하는 확률적 분류 기법
[특징] 베이즈 정리 이용, 지도학습 분류기, 독립성 가정
[알고리즘 수행 절차]
1. 지도학습 분류 2.입력벡터 선택 3.조건부 확률 계산, 4.확률계산 5. 클래스 선택
[문제점/해결법]
- Zero 조건부 확률 : Laplace Smoothing 기법 적용, 강화학습 수행 재학습
- Underflow 현상 : Log 변환 기법 적용