지도학습(앙상블) Flashcards

1
Q

앙상블

A

[리드] 최적의 알고리즘 조합
[정의] 주어진 데이터로 여러 개의 모델을 학습 후 예측시 모델의 예측 결과들을 종합하여 정확도를 높이는 기법
[특징] 상호보완, 과적합 최소화
[절차] 1.도출 및 생성 → 2.학습 →3.조합 → 4.최적 의견 도출
[앙상블 모형 유형]
- 보팅 : 서로 다른 알고리즘 약 분류기 병렬 사용 (예측치 투표)
- 배깅 : 동일 알고리즘 약 분류기 병렬 사용 (복수 모델)
- 부스팅 : 동일 알고리즘 약 분류기 직렬 사용 (가중치 부여)
- 스태킹 : 여러 모델 활용, 결합 후 메타모델 재학습 (예측치 재학습)
- 랜덤 포레스트 : 배깅 + 의사결정트리 (배깅 보다 많은 임의성)
* 높은 bias로 인한 Underfitting , 높은 Variance로 인한 Overfitting 오류 최소화
[적용 효과] 보다 높은 신뢰성 확보(다양한 예측 모델 적용), 정확도 상승(이상치에 대한 강건성)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

배깅

A

[정의] 데이터에서 여러 bootstrap 자료 생성, 모델링 후 결합하여 최종 예측 모형을 만드는 알고리즘
[특징] 병렬 모델, 샘플링 방법
* 배깅을 이용한 앙상블 모델은 대표적으로 랜덤 포레스트가 존재
[절차]
1. Row data에서 bootstrap 데이터 추출
2. 추출을 반복하여 n개의 데이터 생성
3. 각 데이터를 각각 모델링 하여 모델 생성
4. 단일 모델을 결합하여 배깅 모델 생성

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

부스팅

A

[정의] 오분류 개체들에 가중치를 적용하여 새로운 분류 규칙 생성 반복 기반 최종 예측 모형 생성
[특징] 연속형 모델, 심플링 방법(오류 기반 가중치)
[절차]
1. Row data에 동일 가중치로 모델 생성
2. 생성된 모델로 인한 오분류 데이터 수집
3. 오분류 데이터에 높은 가중치 부여
4. 과정 반복을 통하여 모델의 정확도 향상

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

랜덤 포레스트

A

[리드] 배깅+결정트리 앙상블 기법
[정의] 배깅보다 더 많은 임의성을 주어 구성한 다수의 결정 트리로부터 분류 또는 평균 예측치(회귀 분석)를 도출하는 기계학습 방법
* 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종
[절차]
1. N개의 bootstrap sample 생성 : 훈련 데이터 셋 생성
2. Tree 생성/훈련 : 배깅을 이용한 Forest 구성
3. 예측/Voting으로 결과도출 :
* 데이터 Set내의 데이터 분포가 고르지 않는 경우 사용
[차별화] 배깅,부스팅,랜덤 포레스트 비교

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

보팅

A

[정의] 동일한 데이터 셋에서 서로 다른 알고리즘 모델을 조합 결과를 투표로 최종 결과를 예측하는 방법
[종류] 하드 보팅(다수결 원칙), 소프트 보팅(확률 원칙)
* 모델 예측 성능에 있어 소프트 보팅이 하드 보팅보다 뛰어난 결과, 소프트 보팅 주로 사용
[학습절차]
1. 데이터 셋 참조
2. 각 모델 학습
3. 각 모델 예측
4. Voting통한 최종 예측 값 도출

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

스태킹

A

[정의] 여러 모델을을 활용하여 각각의 예측 결과를 도출하고, 그 예측 결과를 다시 학습 데이터로 만들어 다른 모델로 재학습 방식
[특징] 성능 향상, 과적합
* 스태킹 방식에 사용되는 모델은 크게 기반 모델과 메타 모델로 구분
[학습절차]
1. 데이터 훈련
2. 분류기 학습, 테스트
3. 예측별과 도출
4. 메타모델 학습
5. 최종 예측 값 도출

How well did you know this?
1
Not at all
2
3
4
5
Perfectly