지도학습 Flashcards
의사결정트리
[정의] 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 분류 및 예측 기법
[특징] 트리구조, 데이터 공간의 순차적 분할, 엔트로피기반 정보획득, 규칙으로 변환 가능
[구성] Root Node, Child Node, Parent Node, Leaf(Terminal) Node, Internal Node, Branch
[절차] 1.의사결정나무의 형성 2.가지치기 3.타당성 평가 4.해석 및 예측
[알고리즘]
- CART : 각 독립 변수를 이분화하는 과정을 반복하여 이진트리 형성 (지니지수)
- C4.5와 C5.0 : 가지치기를 사용할 때 학습자료를 사용하는 알고리즘 (엔트로피 지수)
- CHAID : 가지치기하지 않고 나무를 적당한 크기에서 성장을 중지하는 알고리즘 (카이제곱 통계량)
- QUEST : 범주형 범수로의 편향이 심각한 CART의 문제점 개선 알고리즘 (카이제곱 통계량)
[활용] 세분화, 분류, 예측, 차원축소 및 변수 선택
의사결정트리 불순도 유형
[유형]
1. 지니지수
- CART에서 사용하는 불순도 알고리즘
- 복원추출 개념을 이용하여 집합내에 이질적인 것이 얼마나 섞였는지를 측정하는 지표
- 1에 가까울 수록 이질적, 순도가 낮음
2. 엔트로피 지수
- C4.5에서 사용하는 불순도 알고리즘
- log를 사용하여 집합의 무질서한 정도츨 측정하는 지표
- 값이 클수록 순도가 낮음
3. 카이제곱 통계량
- CHAID,QUEST에서 사용하는 불순도 알고리즘
- 데이터의 분포와 사용자가 선택한 가정 분포 사이의 차이를 나타내는 측정값
- 카이제곱 값이 클수록 순도가 낮음
인공신경망
[정의] 인간의 뉴런을 모방하여 가중치 조정을 통한 분류와 예측을 위해 다수 노드를 연결한 계층적 조직
[구성요소]
- Input Layer : 입력값
- Hidden Layer : 가중치, 입력함수, 활성화 함수, Cirtical Point(활성화 되기 위한 최솟값)
- Output Layer : 출력값
베이지안 네트워크
[정의] 체계적 확률 정보 기반 방향성 비순환 그래프와 그래프를 다루는 기법이 정리된 방법론
[특징] 주관적 정보, 추론단계, 인과적 추론 가능
- 사전확률, 우도확률 -> 사후확률
[구축기법] 기존 지식 및 인과적 요인 반영, 규정 설계 기반 자동 구축, 데이터 기반 학습 기법
[추론 알고리즘] 정확 계산 알고리즘, 근사 알고리즘
[활용분야] 질병 증상 모델링, 컴퓨터 비전