지도학습(앙상블) Flashcards
앙상블
[리드] 최적의 알고리즘 조합
[정의] 주어진 데이터로 여러 개의 모델을 학습 후 예측시 모델의 예측 결과들을 종합하여 정확도를 높이는 기법
[특징] 상호보완, 과적합 최소화
[절차] 1.도출 및 생성 → 2.학습 →3.조합 → 4.최적 의견 도출
[앙상블 모형 유형]
- 보팅 : 서로 다른 알고리즘 약 분류기 병렬 사용 (예측치 투표)
- 배깅 : 동일 알고리즘 약 분류기 병렬 사용 (복수 모델)
- 부스팅 : 동일 알고리즘 약 분류기 직렬 사용 (가중치 부여)
- 스태킹 : 여러 모델 활용, 결합 후 메타모델 재학습 (예측치 재학습)
- 랜덤 포레스트 : 배깅 + 의사결정트리 (배깅 보다 많은 임의성)
* 높은 bias로 인한 Underfitting , 높은 Variance로 인한 Overfitting 오류 최소화
[적용 효과] 보다 높은 신뢰성 확보(다양한 예측 모델 적용), 정확도 상승(이상치에 대한 강건성)
배깅
[정의] 데이터에서 여러 bootstrap 자료 생성, 모델링 후 결합하여 최종 예측 모형을 만드는 알고리즘
[특징] 병렬 모델, 샘플링 방법
* 배깅을 이용한 앙상블 모델은 대표적으로 랜덤 포레스트가 존재
[절차]
1. Row data에서 bootstrap 데이터 추출
2. 추출을 반복하여 n개의 데이터 생성
3. 각 데이터를 각각 모델링 하여 모델 생성
4. 단일 모델을 결합하여 배깅 모델 생성
부스팅
[정의] 오분류 개체들에 가중치를 적용하여 새로운 분류 규칙 생성 반복 기반 최종 예측 모형 생성
[특징] 연속형 모델, 심플링 방법(오류 기반 가중치)
[절차]
1. Row data에 동일 가중치로 모델 생성
2. 생성된 모델로 인한 오분류 데이터 수집
3. 오분류 데이터에 높은 가중치 부여
4. 과정 반복을 통하여 모델의 정확도 향상
랜덤 포레스트
[리드] 배깅+결정트리 앙상블 기법
[정의] 배깅보다 더 많은 임의성을 주어 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀 분석)를 도출하는 기계학습 방법
* 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종
[절차]
1. N개의 bootstrap sample 생성 : 훈련 데이터 셋 생성
2. Tree 생성/훈련 : 배깅을 이용한 Forest 구성
3. 예측/Voting으로 결과도출 :
* 데이터 Set내의 데이터 분포가 고르지 않는 경우 사용
[차별화] 배깅,부스팅,랜덤 포레스트 비교
보팅
[정의] 동일한 데이터 셋에서 서로 다른 알고리즘 모델을 조합 결과를 투표로 최종 결과를 예측하는 방법
[종류] 하드 보팅(다수결 원칙), 소프트 보팅(확률 원칙)
* 모델 예측 성능에 있어 소프트 보팅이 하드 보팅보다 뛰어난 결과, 소프트 보팅 주로 사용
[학습절차]
1. 데이터 셋 참조
2. 각 모델 학습
3. 각 모델 예측
4. Voting통한 최종 예측 값 도출
스태킹
[정의] 여러 모델을을 활용하여 각각의 예측 결과를 도출하고, 그 예측 결과를 다시 학습 데이터로 만들어 다른 모델로 재학습 방식
[특징] 성능 향상, 과적합
* 스태킹 방식에 사용되는 모델은 크게 기반 모델과 메타 모델로 구분
[학습절차]
1. 데이터 훈련
2. 분류기 학습, 테스트
3. 예측별과 도출
4. 메타모델 학습
5. 최종 예측 값 도출