빅데이터 Flashcards

1
Q

빅데이터 요소기술

A

[업무절차] 수집(선정, 수집계획 수립 및 실행) → 저장관리(전/후처리 및 저장, 보안/품질 관리) → 분석(계획 수립 , 분석시스템 구축 및 분석 서비스 운영) → 활용(데이터 제공기준 , 절차수립, 플랫폼 기반 서비스구축)
[수집] Crawling, Open API, Streaming, Log Aggregator(Chukwa, Flume, Scribe), RDB Aggregator(Sqoop, Direct JDBC/ODBC)
[처리]
- 데이터 필터링 : 오류 발견, 보정, 삭제, 품질개선, Data MIning, Storm
- 데이터 정제 : 결측치 처리, 이상치 식별/제거, 잡음처리
- 데이터 통합 : 유사데이터 통합, ETL, 표현단위
- 데이터 변환 : 분석용이형태 변환, 정규화, 집합화(Aggregation), 요약
- 데이터 축소 : 데이터분석 활용 불가항목 제거, 차원축소, 데이터 압축, DWT, PCA
[저장] RDB(Oracle, MSSQL, MySQL), NoSQL(MongoDB, Cassandra, HBase), 분산파일시스템(HDFS)
[분석]
- 통계분석 : 상관 분석, 회귀 분석, 분산 분석(ANOVA), 주성분 분석
- 데이터 마이닝 : 예측, 분류, 군집, 연관, 순차분석
- 텍스트 마이닝 : 형태소 분석, 개체명 분석, 군집/분류, 토픽 분석, 감성 분석
- SNA(Social N/W Analysis) : 중심성 분석, 응집성 분석, 연결구조 분석, 역할구조 분석
[활용] 시각화(통계 분석환경(Pig, Hive, R 등) 활용, 인포그래픽스), 데이터 교환(Open API), 데이터 보안(OAuth 2.0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

카프카

A

[리드] 비동기 메시지 통신
[정의] 외부 수집 데이터 스트림을 실시간 처리위한 Pub-Sub구조의 분산형 스트리밍 플랫폼
[특징] Data Durability(File에 Msg저장, 장애시 유실 방지), 분산환경 최적화(분산 시스템 기반 설계), 메세지 전송 효율화(TCP 헤더 사용, Pull기반 메시지 처리)
* RabbitMQ, ActiveMQ등 기존 메시지 큐에 비해 분산환경 처리속도 및 장애 내성 향상 장점
[구성]
- 메세지구성 측면 : Topic(레코드저장), Partition(topic저장단위), Offset(partition 데이터주소)
- 파이프라인 : Producer(발행), Broker(Zookeeper), Consumer(구독)
[동작방식] 메세지 생성(producer 메세지 생성후 Kafka Push) → 큐저장(Kafka 시스템 Consumer큐 저장) → 메시지 전달(Consumer Kafka에서 메시지 Pull) → Kafka 분산처리 → Kafka 내 Topic 단위저장
[성능향상기법]
- Zero-Copy (데이터가 유저 모드 거치지 않고 곧바로 네트워크 전송기법) , Partition (Topic 저장 단위)
* 파티션 복제를 통한 ISR구현시 FT보장과 시간/NW 비용간 Trade-Off 고려 필요
[차별화] ISR 최적화 구현 방안
- 데이터 중요도기반 복제 검증 수준 설정 → Producer ACK값 활용
- Ack=0 낮음, 높은 처리 속도, 높은 데이터 유실율
- Ack =1 유실율 개선, 백업 보장 어려움
- Ack=-1 or all 데이터 무손실, 처리속도 저하
* MSA 대용량 트래팩 처리 위한 이벤트 기반 아키텍처 구축시 Kafka 활용 확산

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Redis

A

[리드] 대용량 서비스위한 캐시
[정의] Key-Value 구조의 비정형 데이터를 저장하고 관리하기 위한 오픈소스 데이터 관리 시스템
[특징] 인메모리 DB, BSD 라이선스
* Redis는 주로 캐시로 활용하며 그 외 세션 스토어, 메시지 대기열, 스트리밍 목적 활용
[구성요소]
- 데이터 구조 : Strings(Key-Value), Set(미정렬 집합), Sorted Sets(Score 함께 저장), Lists(Array형태)
- 성능 확장 : Redis Cluster(분산 클러스터), Replication(M-S구조 이중화), Shading(분할 저장, 쓰기성능)
- 영속성 보장 : AOF(변경사항 기록, appendonly.aof), Snapshot(Disk에 기록)
* Redis 외에 대표적인 캐시 솔루션으로 Memcached 가 존재
[차별화] Redis vs Memcached
- 자료구조 : Strings, Sets, Hashes등 다양 / Strings, Integers만 지원
- 스레드 : 단일 스레드 / 멀티 스레드
- 데이터 저장 : Memory&Disk / Memory - 복제 : Master-Slave 복제 지원 / 미지원

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

추천 시스템

A

[정의] 개인 맞춤형 서비스 제공 위해 구매패턴 등 과거 데이터를 분석하여 상품을 추천하는 시스템
[유형] 추천 시스템
- 컨텐츠 기반 필터링
- 협업 필터링 : 최근접 이웃(사용자 기반, 아이템 기반), 잠재요인
[필요성]1.다품종 시대 상품 선택의 어려움,2.고객의 니즈 파악 어려움
[기대효과]고객만족도 증가,추천상품으로 인한 매출 증가

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

협업 필터링

A

[리드] 개인 맞춤형 서비스 제공
[정의] 아이템의 기본 정보를 토대로 사용자 행동 양식을 기반으로 유사한 콘텐츠를 추천해주는 방식
[유형]
- 사용자 기반(User-based)
- 아이템 기반(Item-based)
* 협업필터링의 유사도 알고리즘을 통해 수치화하여 유사도 측정
[알고리즘] 유사도 측정 알고리즘
- 유클리디안 유사도
- 자카드 유사도
- 코사인 유사도
- 피어슨 유사도
* 편향된 컨텐츠 제공으로 필터버블, 사이버 발칸, 고정관념이 강화되어 사용자 민주주의적 의식 필요

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

유클리디안 거리

A

[정의] n차원의 공간에서 두 벡터간 거리 계산을 차원별 값 차이의 제곱의 합에 루트를 취해 계산하는 방법
[특징] L2 Distance,직선 거리
[공식]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

맨하탄 거리

A

[정의] 두 벡터의 각 차원별 값의 차이의 절대값을 모두 더해 계산하는 방법
[특징] L1 Distance, 다양한 경로
[공식]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

자카드 유사도

A

[정의] 두 집합의 교집합을 합집합으로 나누어 나오는 교집합 비율을 이용하는 방법
[특징] 0과 1사이의 값(동일하면 1, 공통요소가 없으면 0), 두개의 집합 한정
[공식]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

코사인 유사도

A

[정의] 두 벡터간 코사인 각도를 이용하여 계산하는 방법
[특징] 벡터간 방향성(유사도가 0인경우 두 항목의 일치점 없음), 단위 벡터 내적 이용(내각의 크기로 유사도 측정)
[공식]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

필터버블

A

[정의] 정보 제공자가 정보 이용자의 성향에 따른 편향된 정보를 제공하여 다양한 정보 접근권을 제한하는 현상
[필요성] 정보제공자가 이용자 개인 성향, 관심사, 사용 패턴, 검색 데이터 수집, 알고리즘을 통해 이용자의 분석 데이터에 따라 우선적 노출 정보 선별
[문제점] 개인의 고정관념과 편견 강화, 타의에 의한 가치관 왜곡, 확증편향
[대응방안]
1. RAA : 구독자가 편향 언론사 콘텐츠 소비 시 경고 메시지 전송,
2. 플립피드 : 정반대 성향 피드 노출하여 개별 사용자 편향성(확증편향) 해결
3. 쿠키제거 : 브라우저 상 히스토리제거

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

데이터 패브릭

A

[정의] 데이터가 저장된 위치 관계없이 적시에 올바른 데이터 액세스 할수 있도록 지원하는 통합 플랫폼
[등장배경] 데이터 관리 난이도 증가, 데이터 민주화
[구성요소] 데이터 소스, 카탈로그/메타데이터, 그래프/분석, 데이터 통합, 데이터 소비자
[데이터 페브릭의 필수 기능]
- 일관된 Query 제공, 통합 및 카탈로그 작성, 확장성 및 유연성

  • DB 토픽 참고
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

디지털 큐레이션

A

[정의] 디지털 자원을 제공, 보존, 유지, 수집, 아카이빙하는 것을 지칭하며. 넓게 보면 현재와 장래에 이용될 신뢰할 수 있는 디지털 정보를 유지하고, 가치를 부여하는 행위
[필요성] 정보 증가 → 정보 수집,처리 비용 증가 → 정보의 정리 요구 증대
[사례] 핀터레스트(이미지 큐레이션 서비스), 플립보드(모바일 뉴스 신디케이션 서비스), 아이엠 데이

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

패스트 데이터

A

[정의] 기업 비즈니스 환경에서 경쟁 우위 확보를 위해 데이터 발생 시점에 실시간으로 처리하고 예측 가능하게 하는 데이터 분석 기술
[등장배경] IoT 디바이스 급증, 실시간 기업(RTE) 지원, 기존 빅데이터 분석의 한계
[처리 절차] 데이터 수집/실행 -> 저장 -> 분석 -> 실행
[주요기술]
- 데이터 수집/실행 : CEP(Complex Event Processing), EDA(Event Driven Architecture)
- 저장 : In-Memory 시스템 (MMDB에서 저장/분석을 지원)
- 분석 : 상관분석, 의사결정나무, 군집분석, 연관/연속 분석
- 실행 : R, 데이터 시각화 (시간,분포,관계,비교,공간 시각화)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

다크 데이터

A

[정의] 기업내 저장은 되어 있으나 분석되지 않는 데이터
* 다크 데이터를 분석할 때는 활용에 대한 비즈니스 시나리오 선행 필요

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

스몰 데이터

A

[정의] 빅데이터와 반대되는 개념으로, 실제 분석에 활용할 수 있는 정제된 데이터 집합
[등장배경] 데이터 소스 부족(방대한 데이터 수집 어려움), AI 데이터 제한 (데이터에 대한 보호 규정 강화)
[필요성] 조직간의 AI 능력 격차 축소, 데이터 부족 산업의 발전 촉진, 불필요한 데이터 감소, 개인정보 수집량 감소

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

스마트 데이터

A

[정의] 빅데이터에 비해 다소 용량은 적지만 바로 분석이 가능한 품질이 좋은 데이터
* 빅데이터를 가공해서 얻어지는 양질의 데이터

17
Q

재현(합성) 데이터

A

[리드] 통계적 합성 데이터
[정의] 원본의 데이터와 통계적으로 유사하나 통계적 방법이나 기계학습 등을 이용하여 가상으로 새롭게 생성한 합성/모의 데이터
[필요성] 개인정보 최소화, 데이터 세트 편향 방지, 데이터 공급 한계 해결
[재현대상] 비정형 데이터(이미지 및 음성등 수집 비용이 큰 경우 활용), 정형 데이터(개인정보노출 우려 되는 경우 활용), 시계열 데이터(시뮬레이션,임베디트 테스트 데이터로 활용)
[유형]
- 완전 재현 데이터 : 원본 자료의 속성을 모두 재현 (강력한 보안성 제공)
- 부분 재현 데이터 : 원본 자료의 일부 속성을 재현 (민간정보 대체)
- 복합 합성 데이터 : 원본 데이터 + 재현 데이터 동시 사용 (혼합데이터 기반 생성)
* 재현 데이터 생성 후 원본 데이터와 유사성 검증하여 품질 확보
[재현 데이터 생성 주요 알고리즘] (통기차)
- 통계적 방법 : 다중 대체법(대치,분석,결합), 교란된 Gibbs 샘플러, Re-sampling
- 기계 학습 : 몬테카를로 시뮬레이션, CART(의사결정 트리 생성), GAN (Real Data기반 Fake Data)
- 차분 프라이버시 : 차분 프라이버시 (Noise 주입)