자료 Flashcards
자료(데이터)
[데이터 구분]
1. 범주형 자료(질적 자료) : 명목, 순서
2. 수치형 자료(양적 자료) : 연속형, 이산형
범주형 자료(질적)
[정의] 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료
[종류]
1. 명목 자료(특성) : 성별,혈액형,학력
2. 순서 자료(범주) : 우선순위,등수,학점,선호도
[기술통계 분석]
- 일변량 : 도수분포표, 막대그래프, 원형그래프
- 다변량 : 분할표(일원분할, 이원분할, 사전설계분할, 사후설계분할)
수치형 자료(양적)
[정의] 관측된 값이 수치로 측정되는 자료
[종류]
1. 이산형 자료(등간자료) : 온도, 설문문항
2. 연속형 자료(비율자료) : 시험점수, 키, 몸무게
[기술통계 분석]
- 중심위치 : 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 가중평균
- 산포 : 범위, 4분위, 편차, 분산, 표준편차, 왜도, 첨도
- 그래프 : 도수분포표와 히스토그램, 줄기 잎 그래프, 상자 도표, Cross Tabulation, 산점도
중심위치
[정의] 관찰된 자료들이 어디에 집중되어 있는가를 나타내는 기술통계 분석
[유형] (산중최조기가절)
- 산술평균 : 이상치에 민감하게 반응
- 중앙값 : 이상치의 영향을 받지 않음
- 최빈값 : 발생 빈도가 가장 높은 값
- 조화평균 : 자료들의 역수를 자료수로 나누어 그 역수를 취한 평균 (서울-부산 왕복 평균 시속)
- 기하평균 : 비율의 평균계산 (물가상승률, 인구변동률)
- 가중평균 : 중요도, 영향도(빈도)등에 따른 가중치를 곱하여 구한 평균
- 절단평균 : 최대,최솟값 중 K 개를 제외한 산술평균
산포
[정의] 자료가 중심위치로부터 어느 정도 흩어져 있는가를 나타냄
- 사분위 : 상자도표에서 25% 비율로 4등분 표시
- 범위 : 최댓값 - 최솟값
- 편차 : 관측값 - 평균값 (평균을 중심으로 편차를 모두 더하면 0)
- 분산 : 편차를 제곱하여 모두 더한값 (편차의 합이 0이 되기 때문에 제곱)
- 표준편차 : 분산에 제곱근, 평균에서 어느만큼 떨어져 있는지 척도
- 왜도 : 좌우, 자료가 평균을 중심으로 대칭인지 확인
- 첨도 : 상하, 분포의 뾰족한 정도
왜도
[정의] 데이터의 분포가 중심위치로부터 기울어진 방향과 정도를 나타내는 비대칭성에 대한 측도
[판단기준] 최빈값, 중위수, 평균
- 왜도 = 0 : 최빈값 = 중위수 = 평균, 좌우대칭
- 왜도 > 0 : 최빈값 < 중위수 < 평균, 왼쪽 기울임
- 왜도 < 0 : 최빈값 > 중위수 > 평균, 오른쪽 기울임
[활용] Raw 데이터 분석, 회귀분석, 모델링 이후등의 잔차 분석
첨도
[정의] 데이터의 분포가 중심경향값부터 집중적으로 분포된 정도를 나타내는 뾰족성에 대한 측도
[판단기준] 뾰족함의 정도, 정규분포 형태
- 첨도 = 0 : 표준 정규 분포
- 첨도 > 0 : 표준 정규 분포보다 뾰족
- 첨도 < 0 : 표준 정규 분포보다 납작