데이터 분석 Flashcards
이상값
[정의] 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰값
[검출 방법]
- ESD(Extreme Studentized Deviation), 기하평균, 사분위수
- 확률 밀도 함수, 히스토 그램, 시계열 차트
[처리방법]
- 단순 처리 : 삭제, 대체법, 변환
- 시각화를 이용한 처리 : 박스 플롯 해석을 통한 이상값 제거, 분류하여 처리
결측값
[리드] 입력이 누락된 값
[정의] 실험이나 조사 시 부주의등으로 관측되어야 할 값을 얻지 못한 데이터 값
[사례] NA, 99999999, NULL등으로 표현
[종류] 완전 무작위 결측, 무작위 결측, 비 무작위 결측 완무비
[처리 방법]
- 삭제 : 목록 삭제, 단일값 삭제, 완전 제거
- 단순 대치법 : 평균 대치법, 연역적 대체 (유추)
- 단순 확률 대치법 : 핫덱(Hot-Deck, 비슷한 성향 데이터로 대체), 콜드덱(Cold-Deck, 외부 출처, 이전 연구자료), 혼합방법
- 다중 대치법 : 대치, 분석,
- 예측 모델 : 기계적 패턴 추출, 분석 기술 활용(회기분석, SVM, 기계학습)
DIKW 피라미드
[정의] 데이터가 지혜가 되는 과정을 잘 표현한 개념으로 지의 계층을 4단계로 나뉘어 제일 하위의 데이터에서 시작하여 정보, 지식, 지혜의 오름차순으로 도식화된 개념
[특징] 빅데이터 시각화
[분류체계] 데이터(Data) → 정보(Information) → 지식(Knowledge) → 지혜(Wisdom)
[구성요소]
- 데이터(분리된 요소), 정보(연관된 요소), 지식(조직화된 정보), 지혜(적용된 지식)
데이터 마이닝
[정의] 대용량의 데이터로부터 이들 데이터간의 상관관계, 패턴, 규칙 등을 찾아 의사결정에 필요한 정보를 추출하는 일련의 과정
[수행단계] KDD (추전변마해평)
- 추출/선정(데이터), 사전처리, 변형, 데이터 마이닝(패턴), 해석 및 평가(지식)
[기법]
- 예측 : 의사결정트리, 신경망 분석, 가설검증
- 탐색 : 연관규칙, 연속성, 군집분석
SEMMA
[리드] 개발자 관점의 데이터 마이닝 분석 표준 프로세스
[정의] SAS 기업에서 개발한 데이터 마이닝 표준 가이드로 Sample,Explore,Modify,Model,Assess 단계 구성 데이터 분석 방법로
[절차] Sample → Explore → Modify → Model → Assess
* SEMMA는 데이터 마이닝 모델 개발 측면에 초점을 맞추고 있음
[단계]
1. Sample : Input Data Source, Sample (분석 데이터 생성/준비)
2. Explore : Filter Outlier, DataMining, Bar Chart (기초 통계, 그래픽적 탐색, 클러스터링)
3. Modify : Variable Session (분석 데이터 수정/변환)
4. Model : Regression, Neural Network (모델 구축, 전통적 통계)
5. Assess : Assement, Feedback (모델 평가 검증)
* 데이터마이닝 개발 관점 중심으로 비즈니스적 이해 미흡. 이를 보완한 CRISP-DM 활용 확산
crisp-dm
[리드] 데이터마이닝 공개 표준 프로세스
[정의] 다양한 산업 분야에서 적용이 가능한 데이터 분석 프로세스를 위해 6개의 레벨로 구성하여 표준화시킨 계층적 데이터 분석 방법론
[특징] 비즈니스 이해, 6단계 프로세스
* Phases, Generic Tasks, Specialized Tasks, Process Instance 4레벨과 6단계 절차 수행
[4 계층구성] 단계 < 일반화 태스크 < 세분화 태스크 < 프로세스 실행
[6단계 프로세스] (비데준모평적)
1. 비즈니스 이해 : 비즈니스 관점 고객 이해, 프로젝트 세부 계획 수립 (목표 및 기준, 초기 평가)
2. 데이터 이해 : 초기 데이터 수집/확보, 데이터 품질 검사 (초기 Data Report, 품질 Report)
3. 데이터 준비 : 데이터 정제 및 품질 확보, 분석데이터 구조화 (속성/레코드, 데이터 선별)
4. 모델링 : 데이터 모델링 기법 선택, 품질/유효 검사 (모델링 기법, 테스트 설계)
5. 평가 : 측정/모델링 결과 평가 (승인된 모델)
6. 적용(Deployment) : 지속/유지 전락 수립, 최종 보고서 작성 (상계 계획, 최종 보고서)
빅데이터 분석 방법론 5단계
[정의] 대량의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보를 찾아내기 위한 과정
[목적] 짧은 시간안에 많은 정보를 빅데이터로부터 추출
[방법론] 단계,태스크,스탭의 3계층으로 구성된 계층적 프로세스 모델
[프로세스] 5단계
1. 분석 기획 : 비즈니스 이해, 프로젝트 위험 계획
2. 데이터 준비 : 데이터 수집, 정합성 점검
3. 데이터 분석 : 텍스트/탐색적 분석, 모델링
4. 시스템 구현 : 설계/구현, 테스트 및 운영
5. 평가 및 전개 : 프로젝트 평가 및 보고
분석준비도 분석성숙도
[분석 준비도] 기업의 데이터 분석 도입 수준을 파악하기 위한 6가지 영역 대상 현 수준 정도
[영역] 분석 업무파악, 인력 및 조직, 분석기법, 분석 데이터, 분석 문화, IT 인프라
[분석 성숙도] 기업의 데이터 분석을 위한 기업의 비즈니스, 조직 및 역량, IT 부분에 대한 성숙도
[성숙도] CMMI 기반 데이터 분석 성숙도
1. 도입 : 데이터 웨어하우스, 데이터 마트, ETL/EAI, OLAP
2. 활용 : 실시간 대시보드, 통계 분석 환경
3. 확산 : 빅데이터 관리 환경, 시뮬레이션, 분석 전용 서버
4. 최적화 : 프로세스 내재화, 분석 협업 환경
분석과제 도출 2가지 유형
[방식]
1. 하향식 접근 방법(Top Down) : ① 문제탐색 (벤치마킹, 환경분석 기법, 분석 유스케이스) ② 문제정의 ③ 해결방안 탐색 ④ 타당성 검토
2. 상향식 접근 방법(Bottom Up) : 문제의 정의 자체가 어려운 경우, 비지도 학습 방법으로 수행, 디자인 사고의 발산 단계, 프로토타이핑 접근법(반복적 시행착오를 통한 도출)
확증적 자료분석 CDA
[정의] 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 정통적인 기법
[절차] 가설검정 → 데이터 수집 → 통계분석 → 가설검증
[핵심요소] 중심극한 정리, P-Value
[기법] t-test, F-test, ANOVA, 상관분석, 회귀분석, 카이제곱검정
[활용] 가설검증, 유의성 검증
탐색적 자료 분석 EDA
[정의] 존재하는 데이터를 기반으로 가설을 세워 데이터를 분석하는 기법
[절차] 데이터 수집 → 시각화 탐색 → 패턴 도출 → 인사이트 발견
[핵심요소] 저항성, 잔차해석, 자료의 재표현, 자료의 현시성
[기법] 히스토그램, 줄기잎그림, 산점도, 상자수염그림
[활용분야] 모형정립, 가설도출, 데이터 마이닝
요약변수와 파생변수
[요약변수] 수집된 정보를 분석에 맞게 종합(aggregate)한 변수
- 데이터 마트에서 가장 기본적인 변수
- (예) 단어 빈도, 상품별 구매 금액, 상품별 구매 순서
[파생변수] 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발
- (예) 구매상품 다양성 변수, 주 활동 지역 변수, 주 구매 상품 변수
데이터 4가지 척도
[척도] 데이터(자료)가 정의되고 분류되는 방식
- 질적자료 : 명목, 순서/서열
- 양적자료 : 구간, 비율
암묵지, 형식지
[정의] 암묵지는 장인(匠人)의 비장의 기술처럼 표현할 수는 없지만 알고 있는 지식이고, 형식지는 말이나 글로 표현이 가능한 지식
[관계]
- 암묵지 → (표출화 연결과) → 형식지
- 형식지 → (내면화 공통화) → 암묵지