통계 분석 Flashcards
통계 분석
[정의] 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정
[종류]
- 차이 검정 : t검정(일표본,독립표본,대응표본), 분산분석(ANOVA) (일원,반복측정,이원,이원 반복측정)
- 관계 검정 : 교차 분석, 상관 분석, 회귀 분석(단순회귀,다중회귀,로지스틱회귀)
T-검정
[정의] 두 집단 이하의 표본 평균 간의 차이를 검증하고자 할 때 이용되는 평균 차이 검정 기법
[분류]
- 일표본 t-검정(1) : 특정 하나의 집단의 평균 검정
- 독립표본 t-검정(2) : 서로 독립적인 두 집단간의 평균(또는 비율)이 서로 차이가 있는지 확인
- 대응표본 t-검정(반복) : 하나의 집단내에서 동일한 대상을 두번 반복 측정
[한계점/해결방안] t-test를 여러 번 반복하는 경우엔 1 종 오류가 증가 / ANOVA
ANOVA
[정의] 세 그룹 이상의 분산을 검정하여 , 각 집단의 모평균 차이를 비교 검정하는 분석 기법
[조건] 정규성, 등분산성, 독립성
* 셋 이상 집단 비교 시 T-test를 여러번 사용함에 따라 나타나는 Type1 error inflation 현상 개선
[종류] (독립변수/종속변수)
1. One Way ANOVA : 한 개의 집단 구분 독립 변수 (급여 → 생산성) - (1 / 1)
2. 반복측정 ANOVA (반복(3)) : 집단에 대한 반복 측정 (급여 → 생산성, 1/3/6개월 후 측정) - (1 / 1)
3. Two Way ANOVA : 두개의 집단 구분 독립 변수 (급여,나이 → 생산성) - (2 / 1)
4. Multi Way ANOVA : 다수의 집단 구분 독립 변수 분석 (급여,나이,성별 → 생산성) - (3 / 1)
5. 다변량 ANOVA : 실한 개의 집단 구분 독립 변수와 두 개 이상 의 종속 변수 분석(급여 → 생산성,만족도) - (1 / 2이상)
교차 분석
[정의] 두 범주형 자료 간에 상호 관련성(독립인지 아닌지) 분석
상관관계
[정의] 두 변수간 상관성을 확인하기 위해 상관계수를 측정하여 이를 기반으로 어떤 선형 관계를 표현하는 관계
[개념도] A변수 ←(선형관계)→ B변수
[관계분석] 두 변수 간 선형적 또는 비선형적 관계
[관계유형] 양의 관계, 음의 관계
[분석기법] 피어슨 상관계수, 스피어만 상관계수, 켄달타우 상관계수
원인관계
[정의] 독립 변인이 종속 변인에 영향을 미치는지에 대해서 둘 간의 관계를 분석하는 통계적 방법
[개념도] 독립변수 ←(인과관계)→ 종속변수
[관계분석] 하나의 사건이 다른 사건을 일으킬 때 그 두 사건의 관계
[관계유형] 직접 인과 관계, 간접 인과 관계
[분석기법] 선형 회귀 분석, 로지스틱 화귀분석, 단순(다중)회귀분석
상관 분석
[정의] 두 변수간 상관계수를 측정하여 이를 기반으로 어떤 선형 관계를 가지는지 분석하는 기법
[특징] 상관성 유무만 확인, 인과관계는 분석하지 않음
[조건] 등분산성 (종속변수 흩어진 정도 동일), 선형성(연속 두변수간에 선형적 관계 존재)
[유형] 피어슨 (등간척도 기반 -신장, 몸무게/모수검증) , 스피어만(서열척도 기반-학교등급, 졸업학위 / 비모수검정)
[구성]
- 분산, 공분산, 두개의 변수
- 상관 계수 : 독립변수와 종속 변수의 관계 정도를 -1과 1 사이로 정량화 한 것
산점도, 공분산, 상관계수
양적자료일 때의 연관성을 알아보는 방법
[산점도] 변수 x를 수평축에 놓고 변수 y를 수직축에 놓고 각 관측값의 짝을 좌표에 표시 기법
[공분산] 두 개의 변수의 상관관계를 수치적으로 표시한 값, 각 변수 x, y의 편차의 기대값(평균)으로 표시
- 공분산은 변수 x, y의 단위에 따라 값의 변동이 크기때문에 연관 강도 측정은 어려움
- 상관 계수를 이용하여 연결 강도 측정
[상관계수] 선형 연관성의 강도를 표시
- 공분산/(x표준편차*y표준편차)
- 상관계수는 1에 가까울 수록 양의 관계를, -1에 가까울 수록 음의 관계
최소자승법
[정의] 선형 모델의 파라미터를 추정하는 가장 기초적이면서 평범한(ordinary) 방법 중에 하나
- 여러 개의 점이 주어졌을 때 이 점들을 가장 잘 대표할 수 있는 직선을 찾을 때 사용
- y=f(x) 측정 모델에서 SUM(y-f(x))^2이 최소가 되는 y=f(x)를 찾는 기법
- 오차(잔차) 제곱의 합이 최소가 되는 해
분류분석
[정의] 다수의 속성 또는 변수 갖는 객체를 사전에 정해진 그룹 또는 범주중의 하나로 분류하여 분석하는 방법
[유형] 의사결정나무(시각화표현) , 로지스틱회귀 분석(반응변수가 범주형인경우), 앙상블 분석(분류기 확률 기반,배깅,부스팅, 랜덤포레스트, 스태킹), 인공신경망 분석 (인간의 뇌 기반, 뉴런,가중치)
*추가적으로 베이지안 분류, SVM, KNN, 규칙기반/사례기반 추론기법 존재
군집분석
[정의] 객체 유사성 측정기반 유사성이 높은 집단을 분류 하고 객체간 유사성과 상이성을 통한 데이터 분석 방법
[유사성 측정 거리] 연속형 변수(유클리디안 거리, 표준화거리) , 범주형 변수 (자카드거리, 코사인 거리)
[유형] 거리기반 - K-means, K-medoids , 밀도기반 - DBSCAN
다중공선성
[정의] 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
* 독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분
[해결] 주성분 분석
최적 회귀방정식
[리드] 변수 선택 방식
[정의] 다중 회귀 분석에서 데이터에 설명변수 x들의 수가 많아지지 않도록 적은 수의 설명 변수
[변수선택방식]
- 모든 가능한 회귀방법 : 모든 가능한 독립변수들의 조합을 통한 최적 회귀모형 선택
- 변수 제거법 : 적은 영향을 주는 변수부터 제거
- 변수 선택법 : 상수 모형에서 가장 큰 영향을 주는 설명변수부터 추가
- 단계별 회귀방법 : 변수 선택법 과정에서 기존 변수와의 영향을 고려
시계열 분석
[정의] 계절요인,순환요인,불규칙 요인, 추세 요인을 기반으로 시간 흐름에 따른 데이터 변화 추이 또는 패턴을 찾아 미래를 예측하는 분석 기법
* 시계열 분석을 위해서는 정상화를 통해 시간에 관계없이 평균과 분산이 일정해야 함.
[시계열 요소]
- 수준 : 시계열의 평균값
- 추세 : 전반적인 패턴 변화
- 계절변동 : 짧은 주기동안의 주기적인 패턴
- 잡음 : 무작위적 변동
시계열과 정상성
[정의] 시계열의 평균과 분산이 일정하고, 특정한 트렌드 (추세)가 존재하지 않는 성질
[방안]
- 평균이 일정하지 않는 경우 차분을 통해 정상화
- 분산이 일정하지 않는 경우 변환을 통해 정상화