DataAnalytics: Parquet, OpenSearch, Redshift, EMR, Hive, Glue, Lake Formation, QuickSite, Kinesis Analytics, Firehose, MSK Flashcards

1
Q

Athena,Parquet, CSV

A

Serverless сервис для анализа данных в S3 через SQL запросы.

Parquet - это columnar формат данных
Он лучше (чем CSV) для оптимизации запросов Athena

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

OpenSearch,Комплимент, SQL совместимость

A

Managed service для ElasticSearch

“Комплимент” к основной БД (даже к DynamoDB/CloudWatch добавляют)

Индексация данных для полнотекстового поиска
НЕ SQL-совместимая (но есть плагин)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Redshift сравнение с Postgres, Athena

A

Анализ данных в data-warehouse, data-lake
На базе Postgres, но НЕ БД, а analytical processing
Умеет в disaster recovery через Multi-AZ и Snapshots (как RDS)

‼️ Похожа на Athena, но лучше, сложнее, дороже
- данные нужно заранее загрузить в Redshift (а в Athena - не нужно)
- данные могут быть НЕ только из S3
- SQL запросы выполняются быстрее, благодаря индексам БД

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Amazon EMR

A

EMR (Elastic MapReduce)
Managed сервис для Hadoop кластера (BigData)

Поддерживает Apache Spark, Flink, Apache Presto, Hive, HBase

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hive

A

data-warehouse приложение для Hadoop
Hive предоставляет SQL-like язык HiveSQL
позволяет работать с данными, хранимыми в Amazon EMR или DynamoDB

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Glue,Parquet

A

Serverless сервис для ETL jobs
Может перекачать данные в другой бакет, изменив их формат

Parquet - это columnar формат данных
Он лучше (чем CSV) для оптимизации запросов Athena

📗 Glue Job Bookmark - prevent re-processing old data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Lake Formation

A

Managed Service для быстрого создания Data Lake’ов
Lake Formation fine-grained access control

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

QuickSite, SPICE Engine

A

Serverless ML-powered сервис для UI dashboards для Business Intelligence задач
Интегрирован с RDS, Athena, Reshift, S3

SPICE Engine - in-memory computation для данных, которые загрузили в QuickSite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Kinesis Data Analytics

A

Managed сервис для
- SQL базы данных
- Apache Flink

real-time аналитика, если source - это Kinesis Data Stream

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

MSK

A

Managed Service для Kafka

✅ Kafka НЕ имеет ограничения на размер сообщения.
Kinesis имеет лимит 1 MB

✅ Kafka НЕ имеет ограничения на retention сообщений.
Kinesis имеет лимит 1 год

❌ Kafka НЕ умеет делать scale down.
Kinesis умеет делать Shard Merging.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Firehose

A

near-real-time (1 min)
данные - логи
пушит в S3 (Redshift, OpenSearch, Splunk, custom HTTP)
managed, no custom code
PUSH механизм => no data-retention, no data-replay

How well did you know this?
1
Not at all
2
3
4
5
Perfectly