빅데이터 Flashcards
빅데이터
[정의] 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 다양한 비정형 데이터
[5V] 다양성(Variety), 크기(Volume), 속도(Velocity), 정확성(Veracity), 가치(Value)
[데이터 유형]
- 정형 : DB 저장된 구조적 데이터
- 반정형 : 웹 문서, 메타데이터, 센서 데이터
- 비정형 : 소셜 데이터, 오디오, 비디오, 이미지
빅데이터 기술
[기술]
- 수집 : ETL, CEP, CDC, Kafka, Flume, Crawling, Open API, Streaming
- 저장 : RDB, NoSQL(MongoDB, 카산드라, HBase), 분산파일 시스템(HDFS)
- 처리 : 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소
- 분석 : 통계분석, 테스트 마이닝, Data Mining, Elastic Search, SNA, Spark 통계 분석, 최적화, 평판 분석
- 활용 : 시각화(Pig, Hive, R), 데이터 교환(Open API), 데이터 인증(ID/PW, OTP, 전자인증)
- 보안기술 : 사용자 인증, 접근제어, 개인정보 비식별화(가총마삭범)
- 데이터 품질 관리 기술 : 지침/가이드, 단계별 품질
빅데이터 처리 기술
[처리 기술]
- Data 필터링 : 오류나 중복 제거, 테이터 품질 개선 (Data Mining, Storm)
- Data 정제 : 결측치 처리, 이상치 식별/제거 (MAR, MCAR, NMAR, 분산)
- Data 통합/변환 : 유사 데이터 통합, 분석용이 형태 변환 (ETC, 표현단위, 정규화, 이산화 요약)
- Data 축소 : 데이터 분석 활용 불가 항목 제거 (PCA, LDA, DWT)
빅데이터 분석.기술
[분석 기술]
- 통계 분석 : 수치형 데이터를 확률기반 예측,검정 구행 (상관,회귀 분석, 분산(ANOVA), PCA)
- 데이터 마이닝 : 대용량 Data간 단계 패턴, 탐색 수행 (예측, 분류, 군집화, 패텬/순차 패턴 분석)
- 텍스트 마이닝 : Text 기반 유용한 정보 추출, 분석 수행 (형태소, 개체명, 토픽, 감성분성)
- 오피니언 마이닝 : 평판분석 기법, 소셜미디어 등의 긍정, 부정, 중립 선호도 판별 기술
- SNA : 소셜미디어 언어 분석 기반 정보추출 분석 (중심성, 응집성, 역할/연결 구조 분석)
[인프라 기술] Hadoop, R, Map&Reduce, NoSQL
빅데이터 시각화 기술
[절차] 정보구조화 → 정보 시각화 특성정의 → 정보 시각화 표현
[시각화 기술] (시분관비공)
- 시간 시각화 : 막대/점 그래프, 누적 막대 그래프 (트랜드 분석 목적)
- 분포 시각화 : 파이/도우넛 차트, 트리 맵 (최대/최소/평균 기준 각 항복 비교 검토)
- 관계 시각화 : 스캐터 플롯, 히스토그램 (각 변수 상관관계 통해 One –> Other 변수 변화 측정)
- 비교 시각화 : 히트맵, 스타 차트, 다차원 척도법 (여러 변수 통해 원하는 Data 탐색 목적)
- 공간 시각화 : 지도 매핑, 코로플레스 차트
빅데이터 분석 모델 평가
[정의] 데이터 마이닝을 통해 생성된 모델의 에러율 예측을 통해 모델의 타당성을 평가하는 검증 방법
[방법]
1. Train-validation : Training Set, Test Set, Validation Set을 통해서 모델의 정확도 측정
2. CrossValidation : 데이터를 k개의 집합으로 나누어 검증한 결과의 평균치로 모델 검증
3. Bootstrap : 전체 데이터에서 무작위 복원 추출로 훈련 집합을 생성하여 검증하는 방법
빅데이터 보안
[보안 핵심요소]
1. 알고리즘 : 기계학습, 행동이상 탐지 등의 알고리즘 이용
2. 시각화 : 데이터 시각화를 통해 실시간 대처 능력 확대
3. 컨텍스트 : 위협 탐지, 포렌식 기능을 사이버 공격에 대한 지속적인 모니터링과 결합
4. 자동화 : 자동 감지 및 대응
[보안 대상] 네트워크, 웹 트랜잭션, 인프라, 인포메이션, 아이덴티티 (인증)
[보안 분석 기술] 연관성 규칙 학습, 분류, 군집화, 데이터 융합 및 통합, 앙상블 학습, 유전 알고리즘, 시각화
빅데이터 큐레이션
[정의] 빅데이터 전략을 제시하고 최적의 빅데이터 구축에서 분석 및 결과 활용까지 전 과정을 지휘하는 활동
[역할] 미래 예측 , 숨은 니즈 발견, 리스크 경감, 맞춤형 서비스, 실시간 대응
[수행절차] 1.데이터 수집 2.저장/관리 통합 3.정재/변환 4. 학습/분석 최적화 5. 품질 평가, 검증 6.예측 /활용
[적용분야] 자연재해 (실시간 홍수 예측, 지질 분석 대응) , 사회재난 (교통사고 예방, 범죄 예방)
빅데이터 프레임워크
[리드] 데이터 경제의 핵심 도구
[정의] 규모, 다양성, 속도 특성의 빅데이터로부터 의미 있는 통찰 획득을 위한 효율적인 저장,처리,분석 지원 SW 도구 및 기술
[빅데이터 처리 요구사항] 데이터 다양성 수용 (비정형 데이터 처리), 대규모 데이터 처리(데이터 분산, 동시처리)
* 단일 컴퓨터 및 정형 데이터베이스등 기존 데이터 분석 한계 극복한 인프라 및 규격화된 기술을 제공
[프레임워크] 빅데이터 수집, 실시간 분산 처리, 분산 저장, 빅데이터 인프라, 지능형 분석, 시각화
[구성요소] (구성요소 - 역할 - 핵심기술)
- 빅데이터 저장 Infra : 다양한 형태의 데이터 저장 및 가공(HDFS, Hadoop, Hbase, 데이터 레이크)
- 실시간 수집 및 연계 : 실시간 대용량 데이터 수집 및 서비스 연계 (Sqoop, Logstash, Chuckwa, Flume)
- 분산 컴퓨팅 : 서버 Cluster, 데이터 분산 처리 (병렬 컴퓨팅, 그리드 컴퓨팅, Kafka, Spark)
- 분산 빅데이터 분석 : 의사결정 위한 유의미한 정보 분석 및 시각화 (ELK, Pig, 마이닝, 기계학습, Zepplin)
- 빅데이터 시각화 : 사용자 친화적 데이터 정보 시각화 (Zepplin, R, Kibana, Druid)
* 데이터 경제 시대의 빅데이터 프레임워크 확산에 따라 기업정보 유출, Privacy 침해 증가, 대응 필요
[차별화] 보안 신뢰성 향상 방안
- 표준 및 인증 기반 프레임워크 보안 강화 : ISO 27001 - ISMS&27017 - PIMS&27018
- PET,PbD 활용 : 동형암호, 차분 프라이버시, 연합학습, 재현데이터
* 활용과 보호의 동시 보장을 통한 안전하고 효과적인 빅데이터 활용 지원
람다 아키텍처
[정의] 데이터 대상 분석 기능 수행 위해 배치, 스피드, 서빙 레이어로 구성된 데이터 분석 아키텍처
[목적] 전송 지연 최소화, 일관성, 정확성 제공
[구성] (배서스)
1. 수집 : Kafka, 플럼
2. 배치 레이어 : 마스터 데이터 셋에 저장, 배치 뷰 생성 서빙 Layer에 제공
- Map&Reduce, Apache Spark, 플링크, 테즈
3. 스피드 레이어 : 처리지연 최소화를 위해 증분 방식 처리, 실시간 뷰 생성
- Apache Storm, Apache Spark 스트리밍, 플링크, 삼자
4. 서빙 레이어 : 분석 요청시 배치 뷰, 실시간 뷰 병합하여 결과를 제공
- Hbase, 카산드라, 하이브, RDBMS, 엘리펀트
[문제점 및 개선방안]
- (문) 배치/스피드 레이어 분리구조. 코드 공유, 기능 중복 구현, 상이 프레임워크, 패러다임 등의 유지/관리 복잡성
- (개) 카파 아키텍처 구성: 스피드 레이어, 서빙 레이어 - 배치레이어 제거, 모든 계산 스피드 레이어 활용, 스트림 형태 처리
‘* 저장된 데이터를 일괄 처리하는 배치 레이어와 실시간 유입 데이터 처리용 스피드 레이어, 사용자로부터 쿼리 요청 결과 제공 서빙 레이어로 구성
카파 아키텍처
[리드] 람다 아키텍처 복잡성 해소, 카파 아키텍처
[정의] 데이터 실시간 분석 기능 수행 위해 스피드, 서빙 레이어로 구성된 실시간 데이터 분석 아키텍처
[목적] 레이어간 코드 공유 복잡성 제거(Batch Layer 제거), 실시간 처리
[구성]
1. 수집 : Kafka, 플럼
2. 스피드 레이어 : Apache Storm, Apache Spark 스트리밍, 플링크, 삼자
3. 서빙 레이어 : Hbase, 카산드라, 하이브, RDBMS, 엘리펀트
hadoop 2.0
[정의] 기존 Hadoop 1.0 시스템의 네임 노드 SPOF 취약점을 보완한 YARN기반 빅데이터 분산처리 시스템
[개선점]
- Job Tracker 분리
- YARN 기반 분산처리 확대
- Name Node 고가용성 지원 (Active-Standby)
[구성요소]
- Resource Manager : Scheduler, App Manager, Resource Tracker
- Node Manager : App Master, Container
apach spark
[리드] 범용 분산 플랫폼, 스파크
[정의] 디스크 I/O를 효율화하고 데이터 분석 작업에 용이한 인메모리 컴퓨팅 기반 데이터 분산처리 시스템
[특징] HDFS 사용 , RDD단위, 직관적 이해, 일괄처리
[구성요소] Spark Core, SQL, Streaming, 자원 스케줄링(YARN)
apach storm
빅데이더 실시간 처리,실시간 처리,스트리밍
구성 nimbus,supervisor,zookeeper
kafka
※ DS 토픽 참조
[차별화] 카프카를 이용한 대용량 실시간 데이터 처리 시스템
- 카프카 - Apache Stome - Hadoop 3.0