지도학습(회귀분석) Flashcards
회귀분석
[정의] 특정 현상에 대해 독립변수 x와 종속변수 y간의 상관관계를 함수로 표현하여 관계 검증 분석 기법
[가정] 독립-종속 관계 선형성, 오차 기대값 0, 정규분포, 오차 독립성
[요소] (독종회자방)독립변수, 종속변수, 회귀계수, 최소자승법, 회귀방정식
[유형] (단다일다선로)(독립변수) 단순, 다중 (종속변수) 일변량, 다변량 (종속형태) 선형, 로지스틱
[공선성문제] 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
[진단] 공차한계 0.1 이하 시 발생, 분산팽창요인(VIF) 10이상 발생, 상관계수 0.9이상
[해결방안] 유발변수 확인/제거, 모형 보완 및 변형(일차분차식, 비율식)
선형 회귀분석
[정의] 둘 이상의 변수들 간에 존재하는 관련성을 분석하기 위하여 관측된 자료에서 이들간의 함수적 관계식을 통계적 방법으로 추정하는 기법
[가정] 선형성(독립변수와 종속변수가 선형), 오차의 정규성(잔차의 분포가 평균이 0인 정규분포), 오차의 독립성(독립변수 X간의 상관관계가 없이 독립성), 오차의 등분산성 (잔차의 분산이 같아 특정한 패턴이 없이 고르게 분포)
[유형] 단순 선형 회귀(y=Wx + b), 다중 선형 회귀(y=W1x1 + W2x2+….Wnxn), -> W는 가중치, b는 편향
[특징]
- 목적 : 예측 문제 해결
- 분석기법 : 최소 제곱법, 실제 값과 예측된 값 간 잔차(오차) 제곱이 최소가 되는 계소를 탐색
- 모델검증 기법 : F-test, t-test
[분석요소] 독립변수, 종속변수, 회귀계수, 최소자승법, 회귀방정식
[분석절차]
1. 산점도 작성
2. 단순 선형 회귀모형 선정
3. 회귀식의 추정
4. 회귀식의 정도 측정
5. 회귀식을 통한 모집단의 추정
* 적용예시 : 흡연유과 사망률 역학 조사, 노종 수요/공급 예측
로지스틱 회귀
[정의] 분석 대상들이 여러 집단으로 나누어진 경우, 독립 변수의 선형 결합을 이용하여 개별 관측치가 어느 집단에 속하는지 확률을 계산하는 분류 기법
[가정] 독립성, 다중공선성 부재
[특징]
- 목적 : 분류 문제 해결
- 분석기법 : 최대 우도법, 가중 최소 제곱법
- 모델검증 기법 : 혼동 행렬, ROC Curve
- 적용예시 : 주식 매도/보유 판단, 대출 승인/거절 판단
* 로지스틱 회귀 모형은 시그모이드 함수에 활용되어, 분류 모델의 성능 향상 가능
다중 회귀분석
[정의] 두개 이상의 독립변수가 하나의 종속변수에 미치는 영향을 분석하고 예측
다변량 회귀분석
[정의] 종속변수가 2개 이상인 회귀 모형들간의 상호 관계를 분석하는 기법
[기법]
- 전진 선택법 : 절편에서 시작 중요한 독립변수부터 차례로 모형에 추가 (변수가 많은 경우 유용)
- 후진 제거법 : 독립변수 후보 모두를 포함 시작, 영향이 적은 변수부터 제거 (전체 변수들의 정보 이용)
- 단계 선택법 : 전진 선택법으로 변수 추가, 기존 변수의 중요도가 약해지면 후진 제거법
* 회귀분석시 변수들의 상관 관계 영향으로 다중 공선성 문제 발생
로짓 변환
[정의] 계수들에 대해 비선형인 odds ratio(성공확률/실패확률)를 선형으로 변환 위해 자연로그를 취하는 과정
[특징]
- 입력값의 범위가 [-∞, ∞] 일때 출력값 범위가 [0, 1] 로 조정
- 독립변수와 로짓의 관계를 선형함수로 표현하는 것이 가능
[확률의 로짓 변환 2단계]
1. Odds ratio 승산비 계산 2. 로짓 변환(자연로그)
[활용] 의료,통신,마이닝, ROC 커브의 AUC 판단
다중공선성
[정의] 독립 변수들간 강한 상관관계가 발생하여 회귀분석의 가정 조건을 위반하는 현상
[영향] 잘못된 변수해석, 예측 정확도 하락
* 독립 변수의 공분산 행렬이 full rank 이어야 한다는 조건을 침해
[유형]
1. 완전공선성 : 두 독립변수가 완벽한 선형 관계 (최소 자승 추정치 추출 불가)
2. 다중공선성 : 독립변수간 강한 상관관계 발생 ( 추정량 불안정, 분산값 증가)
[다중공선성 진단 기법]
- 결정계수 : 공차 < 0.1
- 상관계수 : r ≥ 0.9, 직접 선택하여 분석 제외
- 분산팽창 요인(VIF) : VIF(Variance Inflation Factor)값이 가장 큰 독립변수 제외
* VIF가 10 이상이면 다중공선성이 있다고 판단
[해결방안]
- 변수제거, PCA, 능형 회귀분석
공선성문제
[정]독립변수들간 강한 상관관계
[진단]공차한계 0.1 이하시 발생,분산팽창요인(VIF),10이상 발생, 상관계수 0.9이상
[해]유발변수 확인/제거, 모형 보완/변형(일차분차식,비율식)