DataAnalytics: Parquet, OpenSearch, Redshift, EMR, Hive, Glue, Lake Formation, QuickSite, Kinesis Analytics, Firehose, MSK Flashcards
Athena,Parquet, CSV
Serverless сервис для анализа данных в S3 через SQL запросы.
Parquet - это columnar формат данных
Он лучше (чем CSV) для оптимизации запросов Athena
OpenSearch,Комплимент, SQL совместимость
Managed service для ElasticSearch
“Комплимент” к основной БД (даже к DynamoDB/CloudWatch добавляют)
Индексация данных для полнотекстового поиска
НЕ SQL-совместимая (но есть плагин)
Redshift сравнение с Postgres, Athena
Анализ данных в data-warehouse, data-lake
На базе Postgres, но НЕ БД, а analytical processing
Умеет в disaster recovery через Multi-AZ и Snapshots (как RDS)
‼️ Похожа на Athena, но лучше, сложнее, дороже
- данные нужно заранее загрузить в Redshift (а в Athena - не нужно)
- данные могут быть НЕ только из S3
- SQL запросы выполняются быстрее, благодаря индексам БД
Amazon EMR
EMR (Elastic MapReduce)
Managed сервис для Hadoop кластера (BigData)
Поддерживает Apache Spark, Flink, Apache Presto, Hive, HBase
Hive
data-warehouse приложение для Hadoop
Hive предоставляет SQL-like язык HiveSQL
позволяет работать с данными, хранимыми в Amazon EMR или DynamoDB
Glue,Parquet
Serverless сервис для ETL jobs
Может перекачать данные в другой бакет, изменив их формат
Parquet - это columnar формат данных
Он лучше (чем CSV) для оптимизации запросов Athena
📗 Glue Job Bookmark - prevent re-processing old data
Lake Formation
Managed Service для быстрого создания Data Lake’ов
Lake Formation fine-grained access control
QuickSite, SPICE Engine
Serverless ML-powered сервис для UI dashboards для Business Intelligence задач
Интегрирован с RDS, Athena, Reshift, S3
SPICE Engine - in-memory computation для данных, которые загрузили в QuickSite
Kinesis Data Analytics
Managed сервис для
- SQL базы данных
- Apache Flink
real-time аналитика, если source - это Kinesis Data Stream
MSK
Managed Service для Kafka
✅ Kafka НЕ имеет ограничения на размер сообщения.
Kinesis имеет лимит 1 MB
✅ Kafka НЕ имеет ограничения на retention сообщений.
Kinesis имеет лимит 1 год
❌ Kafka НЕ умеет делать scale down.
Kinesis умеет делать Shard Merging.
Firehose
near-real-time (1 min)
данные - логи
пушит в S3 (Redshift, OpenSearch, Splunk, custom HTTP)
managed, no custom code
PUSH механизм => no data-retention, no data-replay