Analysis Flashcards

1
Q

O que é o Kinesis Data Analytics?

A

Serviço que permite processar e analisar dados de streaming em tempo real com SQL padrão, podendo realizar consultas para agregar, filtrar e juntar dados em fluxo de tempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Como funciona o Kinesis Data Analytics com Lambda?

A

Permite execução de código personalizado, flexibilidade de pós-processamento para agregações de linhas, conversão de diferentes formatos, transformação e enriquecimento de dados, encriptação.
Integração com outros serviços e destinos: S3, DynamoDB, Aurora, Redshift, SNS, SQS, CloudWatch.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quais os casos de uso do Kinesis Data Analytics?

A

Streaming de ETL, criação de métricas contínuas, análise responsiva.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Exemplos de aplicações do Kinesis Data Analytics

A

Monitoramento e análise de logs, detecção de fraudes, análise de IoT, análise de dados de mídia social.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Resources Kinesis Analytics (ENGLISH)

A
  • Pay only for resources consumed (but it’s not cheap)
  • Charged by Kinesis Processing Units (KPU’s) consumed per hour
  • 1 KPU = 1 vCPU + 4GB
  • Serverless; scales automatically
  • Use IAM permissions to access streaming source and
    destination(s)
  • Schema discovery
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

O que é o RANDOM_CUT_FOREST no Kinesis Data Analytics

A

Algoritmo em SQL para detecção de anomalias nos dados em tempo real, como dados de sensores, logs de aplicativos, entre outros

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

What is Opensearch?

A
  • A fork of Elasticsearch and
    Kibana
  • A search engine * An analysis tool * A visualization tool (Dashboards = Kibana)
  • A data pipeline * Kinesis replaces Beats & LogStash
  • Horizontally scalable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

O que é o OpenSearch

A

Mecanismo de busca rápido e escalável, versão do Lucene e distribuído horizontamente através de muitos nós em um cluster.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Aplicações do OpenSearch

A
  • Pesquisa de texto completo
  • Análise de log
  • Monitoramento de aplicativos
  • Análise de segurança
  • Análise de fluxo de cliques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Opensearch applications

A
  • Full-text search
  • Log analytics
  • Application monitoring
  • Security analytics
  • Clickstream analytic
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

OpenSearch conceitos de documentos

A

Documentos são as coisas que você procura, eles podem ser mais do que texto
– qualquer JSON de dados estruturados funcionam. Todo documento tem um
ID exclusivo e um tipo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

OpenSearch concepts of documents

A

Documents are the things you’re searching for. They can be more than text
– any structured JSON
data works. Every document has a unique ID, and a type.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

OpenSearch conceito de índices.

A

Um índice permite pesquisar em todos documentos dentro de uma coleção de tipos. Eles contêm índices invertidos que permitem pesquisar tudo dentro deles ao mesmo tempo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

OpenSearch Index concepts

A

An index powers search into all documents within a collection of types. They contain inverted índices that let you search across everything within them at once.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

An index is split into shards

A

Each shard may be on a different node in a cluster.Every shard is a self-contained Lucene index of its own.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Os documentos são hash para um fragmento específico

A

Cada shard pode estar em um nó diferente em um cluster.
Cada fragmento é um eu
-contido índice Lucene próprio.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Redundancy

A

This index has two primary shards and two replicas.
Your application should round-robin requests amongst nodes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Amazon Opensearch Service

A
  • Fully-managed (but not serverless) * Scale up or down without downtime * But this isn’t automatic * Pay for what you use * Instance-hours, storage, data transfer * Network isolation * AWS integration * S3 buckets (via Lambda to Kinesis) * Kinesis Data Streams * DynamoDB Streams * CloudWatch / CloudTrail * Zone awareness
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Amazon Opensearch Service (Port)

A
  • Totalmente gerenciado (mas não sem servidor)
  • Ampliar ou reduzir sem tempo de inatividade
  • Mas isso não é automático
  • Pague pelo que usar
  • Instância-hora, armazenamento, transferência de dados
  • Isolamento de rede
  • Integração AWS
  • S3 buckets (via Lambda para Kinesis)
  • Kinesis Data Streams
  • DynamoDB Streams
  • CloudWatch / CloudTrail
  • Zone awareness
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Amazon Opensearch options

A
  • Dedicated master node(s)
  • Choice of count and instance types
  • “Domains”
  • Snapshots to S3 * Zone Awarenes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Opções do Amazon Opensearch

A
  • Nó(s) principal(is) dedicado(s)
  • Escolha de contagem e tipos de instância
  • “Domínios”
  • Snapshots para S3
  • Zone Awarenes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Cold / warm / ultrawarm / hot storage
- Standard data nodes use “hot” storage

A
  • Instance stores or EBS volumes / fastest performance
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

UltraWarm (warm) storage uses S3 + caching

A
  • Best for indices with few writes (like log data /
    immutable data)
  • Slower performance but much lower cost
  • Must have a dedicated master node
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Cold storage

A
  • Also uses S3
  • Even cheaper
  • For “periodic research or forensic analysis on older
    data”
  • Must have dedicated master and have UltraWarm
    enabled too.
  • Not compatible with T2 or T3 instance types on data
    nodes
  • If using fine-grained access control, must map users to
    cold_manager role in OpenSearch Dashboards
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Integrações OpenSearch com outros serviços AWS

A
  • Buckets S3 (via Lambda para Kinesis)
  • Kinesis Data Streams
  • Fluxos do DynamoDB
  • CloudWatch/CloudTrail
  • Conscientização da zona
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Index State Management examples

A
  • Delete old indices after a period of time * Move indices into read only state after a period of
    time
  • Move indices from hot
    -> UltraWarm
    -> cold
    storage over time
  • Reduce replica count over time * Automate index snapshots
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

SM policies are run every 30
-48 minutes

A

Random jitter to ensure they don’t all run at once

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Exemplos de gerenciamento de estado do índice

A

Excluir índices antigos após um período de tempo
* Mover índices para o estado somente leitura após um período de tempo
* Mover índices de hot
-> Ultraquente
-> frio
armazenamento ao longo do tempo
* Reduzir a contagem de réplicas ao longo do tempo
* Automatizar instantâneos de índice

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

More Index Management - Index rollups

A
  • Periodically roll up old data into summarized indices
  • Saves storage costs
  • New index may have fewer fields, coarser time buckets
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

More Index Management - Index transforms

A
  • Like rollups, but purpose is to create a different view to analyze data differently.
  • Groupings and aggregations
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Rollups de índice

A
  • Acumule periodicamente dados antigos em índices resumidos
  • Economiza custos de armazenamento
  • Novo índice pode pode ter menos campos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Transformações de índice

A
  • Como rollups, mas o objetivo é criar uma visão diferente para analisar os dados de forma diferente.
  • Agrupamentos e agregações
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Cross-cluster replication

A
  • Replicate indices / mappings / metadata across domains
  • Ensures high availability in an outage
  • Replicate data geographically for better latency
  • “Follower” index pulls data from “leader” index
  • Requires fine-grained access control and node-to
    -node encryption
  • “Remote Reindex” allows copying indices from one cluster to another on demand
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

replicação de cluster cruzado

A
  • Replicar índices/mapeamentos/
    metadados entre domínios
  • Garante alta disponibilidade em uma interrupção
  • Replicar dados geograficamente para
    melhor latência
  • O índice “Seguidor” extrai dados de índice de “líder”
  • Requer multa-controle de acesso granular e nó-para
    -criptografia de nó
  • “Reindexação Remota” permite copiar índices de um cluster para outro Sob demanda
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Opensearch Stability
* 3 dedicated master nodes is best

A
  • Avoids “split brain”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Opensearch Stability - Don’t run out of disk space

A

Minimum storage requirement is roughly:
Source Data * (1 + Number of Replicas) * 1.45

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Choosing the number of shards

A
  • (source data + room to grow) * (1 + indexing
    overhead) / desired shard size
  • In rare cases you may need to limit the number of
    shards per node
  • You usually run out of disk space first
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Choosing instance types

A
  • At least 3 nodes
  • Mostly about storage requirements
  • i.e., m6g.large.search, i3.4xlarge.search,
    i3.16xlarge.search
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Estabilidade Opensearch - 3 master nodes dedicados é melhor?

A

Sim, evita split brain

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Espaço em disco, qual o requisito mínimo de armazenamento?

A

Aproximadamente:
Dados de Origem * (1 + Número de Réplicas) * 1,45

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Como escolher o número de shards?

A
  • (dados de origem + espaço para crescer) * (1+indexação
    sobrecarga) / tamanho de fragmento desejado
  • Em casos raros, pode ser necessário limitar o número de shards por nó
  • Geralmente, você fica sem espaço em disco primeiro.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Como escolher tipo de instância?

A
  • Pelo menos 3 nós
  • Principalmente sobre requisitos de armazenamento
  • ou seja, m6g.large.search, i3.4xlarge.search,
    i3.16xlarge.search
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Amazon Opensearch Security

A
  • Resource-based policies
  • Identity-based policies
  • IP-based policies
  • Request signing
  • VPC
  • Cognito
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Securing Dashboards

A
  • Cognito
  • Getting inside a VPC from
    outside is hard…
  • Nginx reverse proxy on EC2
    forwarding to ES domain
  • SSH tunnel for port 5601
  • VPC Direct Connect
  • VPN
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Segurança dos dashboards

A
  • Cognito
  • Entrando em VPC de fora é difícil…
  • Proxy reverso Nginx no EC2
    encaminhamento para domínio ES
  • Túnel SSH para a porta 5601
  • Conexão direta VPC
  • VPN
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

Amazon Opensearch anti
-padrões

A
  • OLTP
  • Sem transações
  • RDS ou DynamoDB é melhor
  • Consulta de dados ad-hoc * Athena é melhor *
    Lembre-se de que Opensearch é principalmente
    para pesquisa e análise
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Desempenho do Amazon Opensearch - * Pode ocorrer pressão de memória na JVM se:

A
  • Você tem alocações de shards desequilibradas entre os nós
  • Você tem muitos shards em um cluster
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

Menos shards podem gerar melhor desempenho se houver erros de JVMMemoryPressure
são encontrados qual ação indicada?

A

Excluir índices antigos ou não utilizados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
49
Q

What is Athena?

A
  • Interactive query service for S3 (SQL) * No need to load data, it stays in S3
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
50
Q

Athena support formats:

A
  • CSV (human readable)
  • JSON (human readable)
  • ORC (columnar, splittable)
  • Parquet (columnar, splittable)
  • Avro (splittable)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
51
Q

Athena types data:

A
  • Unstructured, semi-structured, or structured
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
52
Q

Athena Workgroups:

A
  • Can organize users / teams / apps / workloads into Workgroups
  • Can control query access and track costs by Workgroup
  • Integrates with IAM, CloudWatch, SNS
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
53
Q

In Athena each workgroup can have its own:

A
  • Query history
  • Data limits (you can limit how much data queries may scan by workgroup)
  • IAM policies
  • Encryption settings
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
54
Q

Athena cost model Pay-as-you-go

A
  • $5 per TB scanned
  • Successful or cancelled queries count, failed queries do not.
  • No charge for DDL
    (CREATE/ALTER/DROP etc.)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
55
Q

Athena cost model - Save LOTS of money by using
columnar formats

A
  • ORC, Parquet
  • Save 30-90%, and get better
    performance
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
56
Q

Athena Security - Access control

A
  • IAM, ACLs, S3 bucket policies
  • AmazonAthenaFullAccess /
    AWSQuicksightAthenaAccess
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
57
Q

Athena Security - Encrypt results at rest in S3 staging directory

A
  • Server-side encryption with S3-managed key (SSE-S3)
  • Server-side encryption with KMS key (SSE-KMS)
  • Client-side encryption with KMS key (CSE-KMS)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
58
Q

Athena Security Cross
-account access in S3 bucket policy possible True or False

A

True

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
59
Q

Athena anti-patterns - Highly formatted reports /
visualization

A
  • That’s what QuickSight is for
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
60
Q

Athena anti-patterns - ETL

A
  • Use Glue instead
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
61
Q

Athena: Optimizing performance

A
  • Use columnar data (ORC, Parquet)
  • Small number of large files performs better than large number of small files
  • Use partitions
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
62
Q

Athena ACID transactions

A
  • Powered by Apache Iceberg
  • Just add ‘table_type’ = ‘ICEBERG’ in your CREATE
    TABLE command
  • Concurrent users can safely make row-level modifications
  • Compatible with EMR, Spark, anything that
    supports Iceberg table format.
  • Removes need for custom record locking
  • Time travel operations
  • Recover data recently deleted with a SELECT
    statement
  • Remember governed tables in Lake Formation?
    This is another way of getting ACID features in Athena.
  • Benefits from periodic compaction to preserve
    performance
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
63
Q

What is Redshift?

A
  • Fully-managed, petabyte scale data warehouse service
  • 10X better performance than other DW’s
  • Via machine learning, massively parallel query execution, columnar storage
  • Designed for OLAP, not OLTP
  • Cost effective
  • SQL, ODBC, JDBC interfaces * Scale up or down on demand
  • Built-in replication & backups
  • Monitoring via CloudWatch / CloudTrail
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
64
Q

Redshift Use-Cases

A
  • Accelerate analytics workloads
  • Unified data warehouse & data lake
  • Data warehouse modernization
  • Analyze global sales data
  • Store historical stock trade data
  • Analyze ad impressions & clicks
  • Aggregate gaming data
  • Analyze social trend
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
65
Q

Redshift Spectrum

A
  • Query exabytes of unstructured data in S3 without loading
  • Limitless concurrency
  • Horizontal scaling
  • Separate storage & compute resources
  • Wide variety of data formats
  • Support of Gzip and Snappy
    compression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
66
Q

Redshift Performance

A
  • Massively Parallel Processing (MPP)
  • Columnar Data Storage
  • Column Compression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
67
Q

Redshift Durability

A
  • Replication within cluster
  • Backup to S3
  • Asynchronously replicated to another region
  • Automated snapshots
  • Failed drives / nodes
    automatically replaced
  • However – limited to a single availability zone (AZ)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
68
Q

Scaling Redshift

A
  • Vertical and horizontal scaling on demand
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
69
Q

Scaling Redshift - During scaling:

A
  • A new cluster is created while your old one remains available for reads
  • CNAME is flipped to new cluster (a few minutes of downtime)
  • Data moved in parallel to new compute nodes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
70
Q

Redshift Distribution Styles:

A

AUTO, EVEN, KEY, ALL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
71
Q

Redshift Distribution AUTO

A

Redshift figures it out based on size of data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
72
Q

Redshift Distribution EVEN

A

Rows distributed across slices in round-robin

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
73
Q

Redshift Distribution KEY

A

Rows distributed based on one column

74
Q

Redshift Distribution ALL

A

Entire table is copied to every node

75
Q

Redshift Sort Keys

A
  • Rows are stored on disk in sorted order based on the column you designate as a sort key
  • Like an index
  • Makes for fast range queries
  • Choosing a sort key
  • Recency? Filtering? Joins?
  • Single vs. Compound vs Interleaved sort keys
76
Q

Explane Importing / Exporting data - COPY command

A
  • Parallelized; efficient
  • From S3, EMR, DynamoDB, remote hosts
  • S3 requires a manifest file and IAM role
77
Q

Explane Importing / Exporting data UNLOAD command

A

Unload from a table into files in S3

78
Q

True or False - Importing / Exporting data is not enhanced VPC Routing

A

False

79
Q

COPY command: More depth

A
  • Use COPY to load large amounts of data from
    outside of Redshift
  • If your data is already in Redshift in another table,
  • Use INSERT INTO …SELECT * Or CREATE TABLE AS
  • COPY can decrypt data as it is loaded from S3
  • Hardware-accelerated SSL used to keep it fast
  • Gzip, lzop, and bzip2 compression supported to
    speed it up further
  • Automatic compression option
  • Analyzes data being loaded and figures out optimal
    compression scheme for storing it
  • Special case: narrow tables (lots of rows, few columns)
  • Load with a single COPY transaction if possible
  • Otherwise hidden metadata columns consume too much
    space
80
Q

Redshift copy grants for cross-region snapshot copies

A
  • Let’s say you have a KMS-encrypted Redshift cluster and a snapshot of it
  • You want to copy that snapshot to another region for backup
  • In the destination AWS region:
  • Create a KMS key if you don’t have one already
  • Specify a unique name for your snapshot copy grant
  • Specify the KMS key ID for which you’re creating the copy grant
  • In the source AWS region:
  • Enable copying of snapshots to the copy grant you just created
81
Q

Redshift DBLINK solution

A
  • Connect Redshift to
    PostgreSQL (possibly in
    RDS)
  • Good way to copy and
    sync data between
    PostgreSQL and Redshift
82
Q

Redshift integration other services:

A
  • S3
  • DynamoDB
  • EMR / EC2
  • Data Pipeline
  • Database Migration Service
83
Q

Redshift Workload Management (WLM)

A
  • Prioritize short, fast queries vs. long, slow queries
  • Query queues
  • Via console, CLI, or API
84
Q

Redshift Concurrency Scaling

A
  • Automatically adds cluster capacity to handle increase in concurrent read queries
  • Support virtually unlimited concurrent users & queries
  • WLM queues manage which queries are sent to the concurrency scaling cluster
85
Q

Redsift Automatic Workload Management

A
  • Creates up to 8 queues * Default 5 queues with even memory allocation
  • Large queries (ie big hash joins) -> concurrency lowered
  • Small queries (ie inserts, scans, aggregations)
    -> concurrency raised
  • Configuring query queues
86
Q

Redshift Topics Automatic Workload Management Configuring query queues

A
  • Priority
  • Concurrency scaling mode
  • User groups
  • Query groups
  • Query monitoring rule
87
Q

Manual Workload Management

A
  • One default queue with concurrency level of 5 (5 queries at once)
  • Superuser queue with concurrency level 1
  • Define up to 8 queues, up to concurrency level 50
88
Q

Redshift Manual Workload Management topics of Define up to 8 queues, up to concurrency level 50

A
  • Each can have defined concurrency scaling mode, concurrency level, user groups, query groups, memory, timeout, query monitoring rules
  • Can also enable query queue hopping
  • Timed out queries “hop” to next queue to try again
89
Q

Short Query Acceleration (SQA)

A
  • Prioritize short-running queries over longer-running ones
  • Short queries run in a dedicated space, won’t wait in queue behind long queries
  • Can be used in place of WLM queues for short queries
  • Works with:
    • CREATE TABLE AS (CTAS)
    • Read-only queries (SELECT statements)
  • Uses machine learning to predict a query’s execution time
  • Can configure how many seconds is “short”
90
Q

Resizing Redshift Clusters - Elastic resize

A
  • Quickly add or remove nodes of same type * (It can change node types, but not without dropping connections – it creates a whole new cluster)
  • Cluster is down for a few minutes
  • Tries to keep connections open across the downtime
  • Limited to doubling or halving for some dc2 and
    ra3 node types.
91
Q

Resizing Redshift Clusters - classic resize

A
  • Change node type and/or number of nodes
  • Cluster is read-only for hours to days
92
Q

Resizing Redshift Clusters - snapshot, restore, resize

A
  • Used to keep cluster available during a classic
    resize
  • Copy cluster, resize new cluster
93
Q

Redshift VACUUM COMAND

A
  • Recovers space from deleted rows
  • VACUUM FULL * VACUUM DELETE ONLY * VACUUM SORT ONLY * VACUUM REINDEX
94
Q

Newer Redshift features - RA3 nodes with managed storage

A
  • Enable independent scaling of compute and storage
  • SSD-based
95
Q

Newer Redshift features - Redshift data lake export

A
  • Unload Redshift query to S3 in Apache Parquet format
  • Parquet is 2x faster to unload and consumes up to 6X less storage
  • Compatible with Redshift Spectrum, Athena, EMR, SageMaker
  • Automatically partitioned
96
Q

Newer Redshift features - Spatial data types

A

GEOMETRY, GEOGRAPHY

97
Q

Newer Redshift features - Cross-Region Data Sharing

A
  • Share live data across Redshift clusters without copying
  • Requires new RA3 node type
  • Secure, across regions and across account
98
Q

Redshift AQUA advantages:

A
  • Advanced Query Accelerator
  • Available on ra3.4xl, ra3.16xl
  • Pushes reduction and aggregation queries closer to the data
  • Up to 10X faster, no extra cost, no code changes.
  • Also benefits from high
    -bandwidth connection to S3
  • All you have to do is turn it on in your cluster configuration (when using the supported node types)
99
Q

Redshift anti-patterns Small data-sets

A

Use RDS instead

100
Q

Redshift anti-patterns OLTP alternative

A

Use RDS or DynamoDB instead

101
Q

Redshift anti-patterns Unstructured data

A

ETL first with EMR etc.

102
Q

Redshift anti-patterns BLOB data

A

Store references to large binary files in S3, not the files themselves.

103
Q

Redshift security concerns

A
  • Using a Hardware Security Module (HSM)
  • Defining access privileges for user or group
104
Q

Explaine Redshift security concerns
* Using a Hardware Security Module (HSM)

A
  • Must use a client and server certificate to configure a trusted connection between Redshift and the HSM
  • If migrating an unencrypted cluster to an HSM-encrypted cluster, you must create the new encrypted cluster and then move data to it.
105
Q

Explaine Redshift security concerns
* Defining access privileges for user or group

A
  • Use the GRANT or REVOKE commands in SQL
  • Example: grant select on table foo to bob;
106
Q

Redshift Serverless topics:

A
  • Automatic scaling and provisioning for your
    workload
  • Optimizes costs & performance
  • Pay only when in use
  • Uses ML to maintain performance across
    variable & sporadic workloads
  • Easy spinup of development and test environments
  • Easy ad-hoc business analysis
  • You get back a serverless endpoint, JDBC/ODBC connection, or just query via the console’s query editor.
107
Q

Redshift Serverless: Getting Started

A
  • Need an IAM role with this
    policy
  • Define your
    • Database name
    • Admin user credentials
    • VPC
    • Encryption settings
      • AWS-owned KMS by default
  • Audit logging
  • Can manage snapshots &
    recovery points after creation
108
Q

Resource Scaling in Redshift Serverless Topics

A
  • Capacity measured in Redshift Processing Units (RPU’s)
  • You pay for RPU-hours (per second) plus storage
  • Base RPU’s
  • Max RPU’s
109
Q

Resource Scaling in Redshift Serverless - Base RPU’s topics

A
  • You can adjust base capacity
  • Defaults to AUTO
  • But you can adjust from 32-512 RPU’s to improve query performance
110
Q

Resource Scaling in Redshift Serverless - Max RPU’s topics

A
  • Can set a usage limit to control costs
  • Or, increase it to improve throughput
111
Q

Redshift Serverless * Does everything Redshift can, except:

A
  • Redshift Spectrum
  • Parameter Groups
  • Workload Management
  • AWS Partner integration
  • Maintenance windows / version tracks
112
Q

Redshift Serverless - No public endpoints (yet)

A

Must access within a VPC

113
Q

Redshift Serverless: Monitoring general topics

A
  • Monitoring views
  • CloudWatch Logs
  • Cloudwatch metrics
114
Q

Redshift Serverless: Monitoring - Monitoring views:

A
  • SYS_QUERY_HISTORY
  • SYS_LOAD_HISTORY
  • SYS_SERVERLESS_USAGE
  • …and many more
115
Q

Redshift Serverless:
CloudWatch logs

A
  • Connection & user logs enabled by default
  • Optional user activity log data
  • Under /aws/redshift/serverless/
116
Q

Redshift Serverless:
CloudWatch metrics

A

*QueriesCompletedPerSecond, QueryDuration, QueriesRunning,etc.
* Dimensions: DatabaseName, latency
(short/medium/long), QueryType, stage

117
Q

What is RDS?

A
  • Hosted relational database
    • Amazon Aurora
    • MySQL
    • PostgreSQL
    • MariaDB
    • Oracle
    • SQL Server
  • Not for “big data”
    • Might appear on exam as an example of what not to use
    • Or in the context of migrating from RDS to Redshift et
118
Q

ACID * RDS databases offer full ACID compliance

A
  • Atomicity
  • Consistency
  • Isolation
  • Durability
119
Q

Amazon Aurora

A
  • MySQL and PostgreSQL – compatible
  • Up to 5X faster than MySQL, 3X faster than PostgreSQL
  • 1/10 the cost of commercial databases
  • Up to 64TB per database instance
  • Up to 15 read replicas
  • Continuous backup to S3
  • Replication across availability zones
  • Automatic scaling with Aurora Serverless
120
Q

Aurora Security

A
  • VPC network isolation
  • At-rest with KMS
  • Data, backup, snapshots, and replicas can be encrypted
  • In-transit with SSL
121
Q

O que é o Athena?

A
  • Serviço de consulta interativa para S3 (SQL)
  • Não há necessidade de carregar dados, fica em S3
  • Presto sob o capô
  • Sem servidor!
  • Suporta muitos formatos de dados
  • CSV (legível por humanos)
  • JSON (legível por humanos)
  • ORC (colunar, divisível)
  • Parquet (colunar, divisível)
  • Avro (divisível)
  • Não estruturado, semiestruturado ou estruturado
122
Q

Athena, alguns exemplos de funções:

A
  • Consultas ad hoc de logs da web
  • Consultar dados de preparação antes de carregar no Redshift
  • Analisar logs CloudTrail / CloudFront / VPC / ELB etc no S3
  • Integração com notebooks Jupyter, Zeppelin, RStudio
  • Integração com QuickSight
  • Integração via ODBC / JDBC com outras ferramentas de visualização
123
Q

Grupos de trabalho do Athena:

A
  • Pode organizar usuários/equipes/aplicativos/cargas de trabalho em grupos de trabalho
  • Pode controlar o acesso à consulta e acompanhar os custos por grupo de trabalho
  • Integra-se com IAM, CloudWatch, SNS
124
Q

O que cada grupo de trabalho pode ter no Athena?

A
  • Histórico de consultas
  • Limites de dados (você pode limitar a quantidade de dados que as consultas podem verificar por grupo de trabalho)
  • Políticas de IAM
  • Configurações de criptografia
125
Q

Tópicos de custos do Athena no modelo pague conforme o uso:

A
  • US$ 5 por TB digitalizado
  • Consultas bem-sucedidas ou canceladas contam, as consultas com falha não.
  • Sem custo para DDL
    (CRIAR/ALTER/SOLTAR etc.)
126
Q

Como economizar no Athena?

A
  • Economize MUITO dinheiro usando formatos colunares
    • ORC, Parquet
  • Economize 30-90% e obtenha melhor desempenho
  • Glue e S3 têm suas próprias cargas
127
Q

Políticas de Segurança do Athena

A
  • Controle de acesso
  • IAM, ACLs, políticas de bucket S3 * AmazonAthenaFullAccess /
    AWSQuicksightAthenaAccess
  • Criptografar resultados em repouso no diretório de preparação do S3 * Criptografia do lado do servidor com chave gerenciada pelo S3 (SSE-S3)
  • Criptografia do lado do servidor com chave KMS (SSE-KMS)
  • Criptografia do lado do cliente com chave KMS (CSE-KMS)
  • Acesso entre contas na política de bucket S3 possível
  • Transport Layer Security (TLS) criptografa em trânsito (entre Athena e S3)
128
Q

Anti-padrões no Athena para relatórios altamente formatados e visualização

A
  • É para isso que serve o QuickSight
129
Q

Anti-padrões do Athena para ETL

A

Utilize o Glue ao invés do Athena

130
Q

Como otimizar o desempenho no Athena?

A
  • Use dados colunares (ORC, Parquet)
  • Um pequeno número de arquivos grandes funciona melhor do que um grande número de arquivos pequenos
  • Usar partições
131
Q

Transações Athena ACID

A
  • Desenvolvido por Apache Iceberg
  • Basta adicionar ‘table_type’ = ‘ICEBERG’ em seu CREATE
    comando TABLE
  • Os usuários simultâneos podem fazer com segurança no nível da linha
    modificações
  • Compatível com EMR, Spark, qualquer coisa que
    suporta formato de tabela Iceberg.
  • Remove a necessidade de bloqueio de registro personalizado
  • Operações de viagem no tempo
  • Recuperar dados excluídos recentemente com uma instrução SELECT
  • Lembra das tabelas regidas em Lake Formation?
    Esta é outra maneira de obter recursos ACID em
    Atena.
  • Benefícios da compactação periódica para preservar
    desempenho
132
Q

O que é o RedShift?

A
  • Serviço de armazenamento de dados em escala de petabytes totalmente gerenciado
  • Desempenho 10 vezes melhor do que outros DWs
  • Por meio de aprendizado de máquina, execução de consultas massivamente paralelas, armazenamento colunar
  • Projetado para OLAP, não OLTP
  • Custo-beneficio
  • Interfaces SQL, ODBC, JDBC
  • Ampliar ou reduzir sob demanda
  • Replicação e backups integrados
  • Monitoramento via CloudWatch / CloudTrail
133
Q

Casos de uso do redshift

A
  • Acelere as cargas de trabalho analíticas
  • Data warehouse e data lake unificados
  • Modernização do data warehouse
  • Analisar dados de vendas globais
  • Armazenar dados históricos de negociação de ações
  • Analisar impressões e cliques de anúncios
  • Dados de jogos agregados
  • Analisar tendência social
134
Q

Qual a utilidade do Redshift Spectrum?

A
  • Consultar exabytes de dados não estruturados no S3 sem carregar
  • Simultaneidade ilimitada
  • Escala horizontal
  • Armazenamento separado e recursos de computação
  • Grande variedade de formatos de dados
  • Suporte de compactação Gzip e Snappy
135
Q

Pontos fortes de desempenho do Redshift

A
  • Processamento Massivamente Paralelo (MPP)
  • Armazenamento de dados em colunas
  • Compressão de coluna
136
Q

Durabilidade no Redshift

A
  • Replicação dentro do cluster
  • Backup para S3
    • Replicado de forma
      assíncrona para outra região
  • Instantâneos automatizados
  • Unidades/nós com falha substituídos automaticamente
  • No entanto - limitado a uma única zona de disponibilidade (AZ)
137
Q

Modo Scaling no Redshift:

A
  • Dimensionamento vertical e horizontal sob demanda
  • Durante o dimensionamento:
    * Um novo cluster é criado enquanto o antigo permanece disponível para

    * CNAME é invertido para o novo cluster (alguns minutos de inatividade)
    * Dados movidos em paralelo para novos nós de computação
138
Q

Quais os tipos de distribuição no Redshift?

A

AUTO, EVEN, KEY, ALL (AEKA)

139
Q

Explique o tipo de distribuição AUTO no Redshift

A

Redshift descobre com base no tamanho dos dados

140
Q

Explique o tipo de distribuição EVEN no Redshift

A

Linhas distribuídas em fatias em round-robin

141
Q

Explique o tipo de distribuição KEY no Redshift

A

Linhas distribuídas com base em uma coluna

142
Q

Explique o tipo de distribuição ALL no Redshift

A

A tabela inteira é copiada para cada nó

143
Q

O que são Sort Keys no Redshift?

A

Técnica de otimização que permite melhorar o desempenho de consultas em tabelas grandes.

144
Q

Tópicos sobre Sort Keys no Redshift

A
  • As linhas são armazenadas no disco em ordem de classificação com base na coluna que você designar como uma chave de classificação
  • Como um índice
  • Faz consultas de alcance rápido
  • Escolhendo uma chave de classificação
  • Recência? Filtros? Joins?
  • Chaves de classificação simples x compostas x intercaladas
145
Q

Importação/Exportação de dados no Redshift:

A
  • Comando COPY
  • Paralelizado; eficiente
  • Origem S3, EMR, DynamoDB, hosts remotos
  • S3 requer um arquivo de manifesto e uma função IAM
  • comando UNLOAD
  • Descarregar de uma tabela em arquivos no S3
  • Roteamento de VPC aprimorado
146
Q

Como utilizar o comando COPY caso seus dados estejam no Redshift em outra tabela?

A
  • Use INSERT INTO …SELECT
  • Ou CREATE TABLE AS
147
Q

Como COPY pode descriptografar dados à medida que são carregados do S3

A

Através de SSL acelerado por hardware usado para mantê-lo rápido

148
Q

O que faz Opção de compressão automática do comando COPY?

A

Analisa os dados que estão sendo carregados e descobre o esquema de compactação ideal para armazená-los.

149
Q

Como utilizar o comando COPY em tabelas estreitas (muitas linhas, poucas
colunas)

A
  • Carregue com uma única transação COPY, se possível
    • Caso contrário, as colunas de metadados ocultas consomem muito
      espaço
150
Q

Concessões de cópia do Redshift para regiões cruzadas cópias instantâneas

A
  • Digamos que você tenha um cluster Redshift criptografado por KMS e um
    instantâneo disso
  • Você deseja copiar esse instantâneo para outra região para backup
  • Na região de destino da AWS:
  • Crie uma chave KMS se ainda não tiver uma
  • Especifique um nome exclusivo para sua concessão de cópia de instantâneo
  • Especifique o ID da chave KMS para o qual você está criando a concessão de cópia
  • Na região de origem da AWS:
  • Ative a cópia de instantâneos para a concessão de cópia que você acabou de criar
151
Q

O que é DBLINK?

A

Extensão disponível no PostgreSQL usada como base para o Redshift. No caso do Redshift a extensão dblink permite que os usuários se conectem ao PostgreSQL e realizem consulta entre eles.

152
Q

Integração do Redshift com outros serviços

A
  • S3
  • DynamoDB
  • EMR / EC2
  • Pipeline de Dados
  • Serviço de migração de banco de dados
153
Q

Propriedades do Redshift Workload Management (WLM)

A
  • Priorize consultas curtas e rápidas em vez de consultas longas e lentas
  • Filas de consulta
  • Via console, CLI ou AP
154
Q

O que faz o Dimensionamento de simultaneidade no Redshift

A
  • Adiciona automaticamente a capacidade do cluster para lidar com o aumento nas consultas de leitura simultâneas
  • Oferece suporte a consultas e usuários simultâneos virtualmente ilimitados
  • Filas WLM gerenciam quais consultas são enviadas para o cluster de dimensionamento de simultaneidade
155
Q

Quais as operações do gerenciamento automático da carga de trabalho no Redshift?

A
  • Cria até 8 filas
  • 5 filas padrão com alocação de memória uniforme
  • Grandes consultas (ou seja, grandes hash joins) -> simultaneidade reduzida
  • Pequenas consultas (ou seja, inserções, verificações, agregações) -> simultaneidade levantada
  • Configuração de filas de consulta
    • Prioridade
    • Modo de escalonamento de simultaneidade
    • Grupos de usuários
    • Grupos de consulta
    • Regras de monitoramento de consultas
156
Q

Quais as operações do gerenciamento manual da carga de trabalho no Redshift?

A
  • Uma fila padrão com nível de simultaneidade de 5 (5 consultas em
    uma vez)
  • Fila de superusuário com nível de simultaneidade 1
  • Defina até 8 filas, até nível de simultaneidade 50
    • Cada um pode ter definido o modo de escalonamento de simultaneidade, nível de simultaneidade, grupos de usuários, grupos de consulta, memória, tempo limite, regras de monitoramento de consulta
    • Também pode ativar o salto na fila de consultas
    • As consultas com tempo limite “pulam” para a próxima fila para tentar novamente
157
Q

Qual a utilidade da Short Query Acceleration (SQA) no Redshift?

A
  • Priorizar consultas de execução curta sobre as de execução mais longa
  • Consultas curtas são executadas em um espaço dedicado, não esperam na fila
    por trás de consultas longas
  • Pode ser usado no lugar de filas WLM para consultas curtas
  • Funciona com:
  • CRIAR TABELA COMO (CTAS)
  • Consultas somente leitura (declarações SELECT)
  • Usa aprendizado de máquina para prever o tempo de execução de uma consulta
  • Pode configurar quantos segundos é “curto”
158
Q

Como funciona o redimensionamento elástico de clusters no Redshift?

A
  • Adicione ou remova rapidamente nós do mesmo tipo
    * (Ele pode alterar os tipos de nó, mas não sem eliminar as conexões - cria um cluster totalmente novo)
    * O cluster está inativo por alguns minutos * Tenta manter as conexões abertas durante o tempo de inatividade
    * Limitado a dobrar ou reduzir pela metade para alguns tipos de nó dc2 e ra3.
159
Q

Como funciona o redimensionamento clássico no Redshift?

A
  • Alterar tipo de nó e/ou número de nós
    * O cluster é somente leitura por horas a dias
160
Q

No redimensionamento de cluster do Redshift como funciona o snapshot, restore e resize?

A
  • Usado para manter o cluster disponível durante um redimensionamento clássico
    * Copie o cluster, redimensione o novo cluster
161
Q

O que faz o comando VACUUM no Redshift? Quais os comandos contidos no VACUUM?

A
  • Recupera espaço excluído
    de linhas
  • VACUUM FULL
  • VACUUM DELETE ONLY
  • VACUUM SORT ONLY
  • VACUUM REINDEX
162
Q

Recursos mais recentes do Redshift dos Nós RA3 com armazenamento gerenciado

A
  • Habilite o escalonamento independente de computação e armazenamento
  • baseado em SSD
163
Q

Recursos mais recentes do Redshift - Exportação de data lake do Redshift

A
  • Descarregue a consulta Redshift para S3 no formato Apache Parquet
  • Parquet é 2x mais rápido para descarregar e consome até 6X menos armazenamento
  • Compatível com Redshift Spectrum, Athena, EMR, SageMaker
  • Particionado automaticamente
164
Q

Recursos mais recentes do Redshift - Tipos de dados espaciais

A

GEOMETRY, GEOGRAPHY

165
Q

Recursos mais recentes do Redshift - compartilhamento de dados entre regiões

A
  • Compartilhe dados ao vivo em clusters Redshift sem copiar
  • Requer novo tipo de nó RA3
  • Seguro, entre regiões e entre contas
166
Q

O que é o recurso AQUA do Redshift?

A
  • Acelerador de Consulta Avançado
  • Disponível em ra3.4xl, ra3.16xl
  • Aproxima as consultas de redução e agregação dos dados
  • Até 10X mais rápido, sem custo extra, sem alterações de código.
  • Também se beneficia da conexão de alta largura de banda para S3
  • Tudo o que você precisa fazer é ativá-lo na configuração do cluster (ao usar os tipos de nó suportados)
167
Q

Cite os principais anti-padrões Redshift:

A
  • Pequenos conjuntos de dados
  • Em vez disso, use RDS
  • OLTP
  • Em vez disso, use RDS ou DynamoDB
  • Dados não estruturados
  • ETL primeiro com EMR etc.
  • Dados BLOB
  • Armazene referências a grandes arquivos binários no S3, não os próprios arquivos
168
Q

Preocupações com a segurança do Redshift

A
  • Usando um Módulo de Segurança de Hardware (HSM)
  • Deve usar um certificado de cliente e servidor para configurar um confiável
    conexão entre o Redshift e o HSM
  • Ao migrar um cluster não criptografado para um cluster criptografado por HSM, você
    deve criar o novo cluster criptografado e, em seguida, mover os dados para ele.
  • Definição de privilégios de acesso para usuário ou grupo
  • Use os comandos GRANT ou REVOKE no SQL
  • Exemplo: conceder select na tabela foo to bob;
169
Q

Vantagens do Redshift Serverless

A
  • Dimensionamento e provisionamento automáticos para sua carga de trabalho
  • Otimiza custos e desempenho
  • Pague apenas quando estiver em uso
  • Usa ML para manter o desempenho em
    cargas de trabalho variáveis e esporádicas
  • Fácil rotação de desenvolvimento e teste
    ambientes
  • Anúncio fácil
  • análise de negócios hoc
  • Você recebe de volta um endpoint sem servidor,
    conexão JDBC/ODBC, ou apenas consultar através do
    editor de consultas do console.
170
Q

Redshift Serverless Introdução:

A
  • Precisa de uma função IAM com esta política
  • Defina seu
    * Nome do banco de dados
    * Credenciais do usuário administrador
    * VPC
    * Configurações de criptografia
    * KMS de propriedade da AWS por padrão
    * Log de auditoria
  • Pode gerenciar instantâneos e
    pontos de recuperação após a criação
171
Q

Dimensionamento de recursos no Redshift Serverless

A
  • Capacidade medida em Redshift
    Unidades de processamento (RPUs)
  • Você paga por RPU-hora (por segundo)
    mais armazenamento
  • RPUs base
  • Você pode ajustar a capacidade de base
  • O padrão é AUTO
  • Mas você pode ajustar de 32-512 RPUs para
    melhorar o desempenho da consulta
  • Max RPU’s
  • Pode definir um limite de uso para controlar os custos
  • Ou aumente-o para melhorar o rendimento
172
Q

Redshift sem servidor
* Faz tudo que o Redshift pode, exceto:

A
  • Redshift Spectrum
  • Grupos de Parâmetros
  • Gerenciamento de carga de trabalho
  • Integração de parceiros da AWS
  • Janelas de manutenção / faixas de versão
173
Q

Redshift Serverless sobre endpoints

A
  • Sem endpoints públicos (ainda)
    • Deve acessar dentro de uma VPC
174
Q

Redshift sem servidor: monitoramento *
Visualizações de monitoramento

A

SYS_QUERY_HISTORY
SYS_LOAD_HISTORY
SYS_SERVERLESS_USAGE
…e muito mais

175
Q

Redshift sem servidor - * Registros do CloudWatch

A
  • Registros de conexão e usuário ativados por padrão
  • Dados opcionais de log de atividades do usuário
  • Em /aws/redshift/sem servidor/
176
Q

Redshift sem servidor Métricas do Cloudwatch

A

QueriesCompletedPerSecond, QueryDuration, QueriesRunning, etc.
* Dimensões: DatabaseName, latência (curta/média/longa), QueryType, stage

177
Q

O que é RDS?

A
  • Banco de dados relacional hospedado
  • Aurora Amazônica
  • MySQL * PostgreSQL
  • MariaDB
  • Oráculo
  • Servidor SQL
  • Não para “big data”
  • Pode aparecer no exame como um exemplo do que não usar
  • Ou no contexto da migração de RDS para Redshift, etc.
178
Q

ACID e RDS

A
  • Os bancos de dados RDS oferecem total
    Conformidade ACID
  • Atomicidade * Consistência * Isolamento * Durabilidade
179
Q

Amazon Aurora

A
  • MySQL e PostgreSQL – compatível
  • Até 5 vezes mais rápido que o MySQL, 3 vezes mais rápido que o PostgreSQL
  • 1/10 do custo de bancos de dados comerciais
  • Até 64 TB por instância de banco de dados
  • Até 15 réplicas de leitura
  • Backup contínuo para S3
  • Replicação entre zonas de disponibilidade
  • Dimensionamento automático com Aurora Serverless
180
Q

Segurança no Aurora

A
  • Isolamento de rede VPC
  • Em repouso com KMS
    • Dados, backup, snapshots e réplicas podem ser criptografados
  • Em trânsito com SSL