데이터 관리 Flashcards
이레이저 코딩
[리드] 고효율, 고가용 데이터 보호 기술
[정의] 분할과 페리티를 이용하여 데이터를 인코딩하고, 데이터 손실시 디코딩 과정을 거쳐 원본 데이터를 복구하는 데이터 기술
[특징] 데이터 저장공간 효율성(RAID의 영역 단위 복구), 높은 가용성 보장(디스크 용량에 관계 없이 재구성)
* 기존 Replica 기반 복구 방식에 비해 데이터 저장 용량 및 가용성 향상
[핵심기술]
<동작절차>
- 데이터 분할(n개) : 같은 크기의 블록으로 데이터 분할
- 패리티 생성(인코딩, k개) : n개의 데이터로부터 인코딩을 통해 패리티 생성
- 데이터 저장(n+k개) : 분할 데이터(n) + 패리티(k개) 저장
- 데이터 복구(디코딩) : 오류 데이터 영역 단위로 복구
<구현>
- Reed-Soolomon Code : 데이터(n) + 패리티(k)
- Tahoe-LAFS : 데이터를 여러 서버에 암호화하여 분산 저장
- Waver Code ; 동일한 스트립에 데이터 및 패리티 블록 배치
* HDFS, Swift, VSAN등 분산 저장 방식 기술에서 이레이저 코딩 활용하여 데이터 고가용성 확보
[차별화] Replication과 이레이저 코딩 비교
- (공간 효율) : 33%/ 71% - (쓰기 성능) : 높음 / 낮음 - (복구 비용) : 낮음 / 높음
</구현></동작절차>
데이터 거래소
[정의] 확보한 데이터를 수집/가공하여 부가가치를 높여 필요한 소비자에게 공급하는 대규모 플랫폼
[등장배경] 표준 품질 보증, 데이터 통합 분석, 효율적인 데이터 유통
* 데이터 조회, 매칭, 계약 및 결제의 기능 제공, 과정을 중계하는 플랫폼 역할 수행
[기술요소]
- 데이터 보안 : SaaS 수준 책임분담모델, 비식별 조치 기반 개인정보 관리
- 데이터 품질 : DQM3 기반 데이터 품질관리, 신용평가 기반 거래 체결
- 데이터 활용 : 오픈소스 기반 분석도구, 추천 / Billing 솔루션 기반 구매 시스템
- 데이터 플랫폼 : CKAN기반 데이터 통합연계 플랫폼, DCAT 기반 데이터 표준화
* 판매 데이터는 표준 API통해 비식별화 및 암호화 전송
[유형] 금융 거래소 유형, 중계/거래 플랫폼 유형, 경매소 유형
데이터 거버넌스
[정의] 고품질의 데이터 활용위해 일관성, 책임감, 적응성을 통한 데이터 아키텍처 관리/활용 체계
[목표] 컴플라이언스 대처, 데이터 이해/신뢰 상승, 데이터 오용방지, 비용절감, 디지털 자산 보호
* 데이터의 품질 결여, 접근성 부족, 데이터 보안 위험성, 유지보수 과다/결여 문제로 데이터 거버넌스 필요
[구성요소] (인프관조)
- 조직 : 데이터 소유자, 관리자, 데이터 아키텍트, 시스템 관리자
- 프로세스 : DA 구축/변경 관리, DA 준수 통제, DA 활용 지원, DA 시스템 관리
- 관리시스템 : 데이터 아키텍처 정보 정의 영역, 데이터 아키텍
- 인력 : 기술적 역량, 활용 역량
* 데이터의 가용성, 유용성, 통합성, 보안성 관리를 위한 데이터 거버넌스 기능이 존재
[데이터 거버넌스 주요 기능]
- 데이터 품질 관리 (DQM) : 데이터 프로파일링 및 데이터 정재
- 데이터 주기 관리 : 데이터의 생성에서 폐기까지의 흐름을 관리하는 정책 수립
- 메타 데이터 관리 : 분석도구가 빅데이터를 정확하게 해석하고 사용할 수 있도록 실행
- 데이터 보안 및 프라이버시 : 필요한 데이터 보호 수준 정의
데이터 리니지
[리드] 데이터 계보 관리
[정의] 데이터의 흐름을 시각화하고 계보로 구현한 메타데이터 기반 데이터 계보 관리 솔루션
[등장배경] 기업 업무의 복잡성, 시스템 간 연계 증가 → 데이터 계보 파악 니즈 증가
(사례) DW기반 기업에서 BI 데이터 정합성 문제
[구성도] 수집 → 분석 → 적재/매핑/관리 → 시각화 리포팅 → 사용자
[구성요소]
1. 수집/분석 : EDF(AP,ETT,DA 모델), 외부 솔루션 (BI/DW,EAI,ETL,CDC,Log)
2. 적재/관리 : 맵핑 정보(Data Flow, Data Mgmt), 메타데이터
3. 시각화 : 시각화 툴, 리포팅
* 데이터 기반 비즈니스 영위 기업 증가에 따라 데이터 계보 관리 필요성 및 수요 증가 전망
데이터 웨어하우스
[리드] 다차원 데이터 분석 자료 제공, DW
[정의] Biz 의사결정 지원 위해 운영/외부 정형 데이터를 목적 데이터로 가공하여 DM 구성 및 OLAP 기반한 데이터 저장소
[특징] 주제지향적, 시계열적, 통합적(다수의 다른 DB로부터 통합), 비휘발적
[구성도] 소스 데이터(운영/외부) → ETT(추출, DW에 로드) → DW서버(데이터마트, OLAP, 데이터 마이닝) → 사용자
[구성요소]
1. 데이터 수집/추출 : ETT/ETL, ODS(운영정보 저장소)
2. 데이터 저장소 : Meta Data, Data Mart(특화된 소규모 DW)
3. 데이터 분석 : OLAP, Data Mining
[구축절차]
1. DW 모델링 2. ETL(Legacy→DW) 3. Data Mart 모델링 4. ETL(ODS/DW→Data Mart) 5. ROLAP, MOLAP 구축 6. DW 운영
[구축방법]
1. Top-Down 2. Bottom-Up(Data Mart→DW) 3. Hybrid
데이터 레이크
[리드] 데이트 분석지원
[정의] 데이터 분석 지원 위해 정형,반정형,비정형의 다양한 원시 데이터들을 실시간 수집,전처리,변환,저장, 제공하는 통합 데이터 저장소
[필요성] 데이터 증가, 기존 ETL/DW 기술로 처리 한계
[구성/구성요소]
- 데이터(원시) → 수집 → 저장 → 처리 → 활용(Discovery, 시각화)
[구성요소]
- 데이터 소스 : Batch, App 데이터, 실시간 데이터
- 데이터 수집 : DB, FTP, IoT, Storage
- 데이터 저장 : RDBMS, NoSQL
- 데이터 처리 : Metadata, HDFS
데이터 표준화
[정의] 시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 전사적으로 적용하는 정책
[필요성] 데이터 의미 파악 개선, 시스템별 일관성, 유지보수 개선
[구성도] 전사 데이터 표준화 = 데이터 표준 + 데이터 표준 관리 조직 + 데이터 표준화 절차
[구성요소]
1. 데이터 표준 : 표준 용어/단어/도메인/코드
2. 데이터 표준 관리 조직 : 전사 데이터, 업무 데이터, 업무 시스템
3. 데이터 표준화 절차 : 요구사항 수집, 표준 정의/확정/정리
데이터.마이그레이션
[정의] 차세대사업, 기업 합병 등 시스템의 변경에 의해 데이터를 새로운 시스템으로 이관하는 행위
[수행절차]
1. 요구사항 분석 및 범위 결정 : 목적, 예산, 기간등
2. 기존 환경 진단 및 평가 : HW, SW, OS 분석, 비용 산출
3. 위험 요소 및 기술 분석 : 위험 요소 점검 및 대응 방안
4. 전략 수립 및 수행 : 세부 단계 분류, 담당자 지정, 마이그레이션 (스키마 -> 데이터 -> 응용 프로그램)
5. 점검 및 테스트
6. 최적화
[방식] 1.빅뱅 2.빅뱅 + 단계적 전환 3.단계적 전환
OLAP
[리드] 의사 결정을 위한 상호작용 도구
[정의] 최종사용자가 직접 다차원으로 이루어진 데이터로부터 통계적인 요약 정보 분석 기반 의사결정 활용 기술
[주요 제공기능]
- Drill Down/Up : 정보 범위, 요약 수준별 계층적 접근 분석 기능 제공
- Pivot : 분석 데이터(리포트)의 축(차원) 변경 기능
- Slice : 다차원 배열의 특정 차원에 대한 부분집합 정보 제공
- Dice : Slice 항목에 대한 Rotation, Drill Up/Down 분석 기능 제공
- Data Surfing : 리포트 형태 및 조건 변경 기능 제공
[구축과정] OLTP → DW → Data Mart → OLAP
[유형]
1. MOLAP : 다차원 DB 기반 (신속 질의 대응, 대용량 처리 어려움)
2. ROLAP : RDBMS 기반 (대용량 처리 적합, 모델링 위한 별도 스키마 필요)
3. DOLAP : 분석 필요 데이터 클라이언트 저장, 분석 방식 (설치 및 관리 용이, 대용량 처리 한계)
4. HOLAP : 다차원 + RDB 병행, 신규데이터 다차원, 상세데이터 RDBMS 저장 (요약/원시 데이터 모두 활용 가능, 모델링 복잡성)
molap
[정의] 다차원데이터를 저장하기 위한 특수한 구조의 다차원DB 사용
[특징] ROLAP 대비 사용이 쉽고, 검색속도가 빠름, 중소형 DW에 적합
[설계절차] 1.주제영역 설정 2.변수차원 구성항목 결정 3.구분차원 결정 4.계층구조와 속성 정의 5.관계식 정의 6.차원수 결정
[설계방법] 논리적 표현방식(하이퍼 큐브, 멀티 큐브), 스키마 설계 방법 (Start Schema, Snowflake Schema, Composite Schema)
rolap
[정의] 관계형 데이터베이스와 SQL과 같은 관계형 질의어를 사용하여 다차원 데이터를 저장하고 분석하는 형태
[특징]
- 관계형 DB, 다차원 모델링 기반 분석 방식
- 대용량 처리 적합, 모델링 위한 별도 스키마 필요
dolap
[정의] 서버 없이 직접 Data Warehouse와 연결되어 최종 사용자의 분석 및 질의 요구 처리
[특징]
- 분석 필요 데이터 클라이언트 저장, 분석 방식
- 설치 및 관리 용이, 데이터 이동 따른 대용량 처리 한계
holap
[정의] ROLAP RDB 장점과 MOLAP의 다차원 접근 장점을 결합한 하이브리드 OLAP
[특징]
- 다차원/관계형 DB 혼용, 다차원 모델링 기반 분석 방식
- 요약/원시 데이터 모두 활용 가능, 모델링 복잡성
* 차원 접근과 RDB 기반의 2개 접근 방법을 통한 효율적인 OLAP 구축
데이터 패브릭
[리드] 데이터 활용 민첩성 확보
[정의] 데이터가 저장된 위치에 관계없이 적시에 올바른 데이터에 엑세스 할 수 있도록 지원하는 통합 데이터 관리 플랫폼
[등장배경] 관리 난이도 증가(데이터 다양화, 통합적 관리 어려움), 데이터 민주화(접근 용이한 환경 필요)
* 데이터 Silo 문제 해결과 비용 효율성 제고를 위해 확장 가능한 통합 데이터 관리 지원
* 추상화를 통해 사용자가 원하는 데이터에 신속하게 접근 가능하게 계층 분리
[계층별 구성 요소]
1. 데이터 소스 Layer : DW, Data Lake, IoT, RDBMS, NoSQL (다양한 소스에 있는 데이터 수집)
2. 카탈로그, 메타데이터 Layer : 데이터 카탈로그, 활성 메타데이터 (데이터 자산 분류 및 인벤토리)
3. 그래프, 분석 Layer : 지식 그래프 분석, 증강 분석 (연결 지식 그래프 통한 분석)
4. 데이터 통합 Layer : 데이터 준비 및 데이터 전송 (동적 데이터 통합, 데이터 조율 자동화)
5. 데이터 소비자 Layer : DataOps, 오케스트레이션, 데이터 거버넌스, 품질, 보안(데이터 수명 주기 관리)
[주요 기능]
- 데이터 가상화 측면 : 메타 데이터 관리, 데이터 계보, 데이터 카탈로그(시각적 표현)
- 데이터 프로세스 측면 : 오케스트레이션, 데이터 준비 및 모델링, 데이터 통합/전달
- 데이터 지속성 측면 : 거버넌스, 품질 및 보안, 데이터 계층 관리
* 데이터웨어하우스, 데이터레이크 등의 플랫폼에서 데이터 패브릭, 데이터 매쉬의 플랫폼으로 발전중
데이터 사일로
[정의] 한 조직내 정보가 다른 부서에는 공되지 않거나 특정 부서만 접근이 가능한 데이터 고립 현상
[발생원인]
- 기업 문화 : 부서간 성과 경쟁
- 조직 구조 : 조직내 부서간 위계 질서 발생, 통합 의지 부재
- 사용 기술 : 조직내 다양한 솔루션 사용에 따른 데이터 차이 발생
[해결방안] DataOps, 데이터 패브릭