Analytics Flashcards

Question 1

Q

O que é AQUA e o que ele faz?

Answer

A

É um Cache que permite que Redshift rode até 10x mais rápido que seus concorrentes de Cloud Data Warehouse.

Question 2

Q

Que feature do Redshift podemos usar para compartilhar tabelas em qualquer cluster do Redshift sem ter que copiar os dados?

Answer

A

Data Sharing

Question 3

Q

Que 3 features o Redshift se vale para fornecer o maior I/O possível?

Answer

A

Columnar storage, Data Compression e Zone Mapping

Question 4

Q

Por Default Redshift Clusters são configurado como Multi-AZ: V ou F?

Answer

A

FALSO. Para fazer multi AZ, é preciso criar um espelho do cluster e entao ativer auto replicação e failover

Question 5

Q

Qual o mínimo de Storage que pode ser provisionado em um Cluster Redshift de 1 nó?

Question 6

Q

Caso uma aplicação esteja exigindo o Redshift a mudar de tamalho (numero de nós e tipo de instancia), ele faz isso automáticamente? Como é esse processo?

Answer

A

Não. É necessário alguns cliques ou uma call de API. Caso seja feito, ele coloca o Cluster antigo em READ-ONLY e levanta e copia dos dados para o novo cluster. Quando acabar ele desliga o cluster antigo.

Question 7

Q

Quais são os 4 exemplos de Anti-Patterns de Redshift do WP?

Answer

A

1) Small Dataset - Dataset menor que 100GB, um RDS provavelmente será o mais indicado
2) OLTP:
3) Unstructured
4) BLOB Data

Question 8

Q

OpenSearch geralmente se conecta com o que da AWS?

Answer

A

KD Firehose, Lambda e CloudWatch

Question 9

Q

Quais os 2 anti-Paterns no WP da AWS?

Answer

A

1) Higly formated Reports: QS is for ad-hoc query and analises
2) ETL: QS tem capacidade de ETL, mas se for para fazer alguns pesados, melhor fazer em outro lugar antes.

Question 10

Q

O que são os serviços EKS, ECS e Fargates?

Answer

A

São gerenciadores de container. Elastic Kubernet Services, Elastic Container Services, e AWS Fargates

Question 11

Q

Quais os formatos de dados em que o Athena opera?

Answer

A

CSV, ORC, Parquet, Avro e JSON

Question 12

Q

Qual o modelo de precificação do Athen? Quanto ele cobra por quantos TB?

Answer

A

$5 por TB de dado escaneado

Question 13

Q

No Athena você é cobrado mesmo quando a Quey da Fail. V ou F?

Answer

A

FALSO. Você é cobrado quando a Query é cancelada, mas não quando ela da Fail.

Question 14

Q

Quais métodos de segurança são usados no Athena?

Answer

A

ACLs, AWS IAM policies,S3 Bucket policy. Pode fazer query (Desde que tenha autorização) em dados criptografados por SSE-KMS, SSE-S3, SSE-C.

Question 15

Q

Queries usando o Athena fora da interface gráfica dele são suportados por CLI, API via SDK e JDBC. V ou F?

Answer

A

Verdadeiro

Question 16

Q

Para conectar o Athena em dados fora do S3 como RDS, DynamoDB, CloudWatch Logs, qual serviço podemos usar?

Answer

A

Athena Federated Query - usa Lambda para criar conectores com outras fontes de dados

Question 17

Q

O Que é Redshift WLM e para que ele serve?

Answer

A

Amazon Work Load Management possibilita priorizar queries para garantir que queries RÁPIDAS, não ficarão presas atrás de queries LONGAS.

Question 18

Q

O que é o modulo dblink no PostgreSQL e para que ele serve?

Answer

A

Serve para acessar um outro banco de dados em um localização remota

Question 19

Q

Existem 4 componentes no Kinesis Data Analytics, quais são?

Answer

A

Input Data, Output Data, Reference Tables e Error Stream

Question 20

Q

Se um dado chegar atrasado no KD Analytics, o que acontece com ele?

Answer

A

É transferido para o Error Stream Bucket

Question 21

Q

Quando o exame se referir a encontrar “outliers e anomalias no dado”, no contexto KD Analytics, ao que ele possivelmente está se referindo?

Answer

A

RANDOM_CUT_FOREST

Question 22

Q

Para que serve o Opensearch Elasticsearch?

Answer

A

É um search engine para análise e reporting de Petabyte scale data com front-end em Kibana.
1) Full-text search
2) log Analises
3) App Monitoring
4) Security Analytics
5) Clickstream Analytics

Question 23

Q

Qual os componentes das estrutura do Opensearch/Elasticsearch?

Answer

A

documents, types(sumindo) e indices

Question 24

Q

Quais são os tipos de STORAGE para o cluster de Opensearch guardar os indeces?? Quais caracteristicas de cada um?

Answer

A

1) Hot: EBS
2) Ultra Warm: S3
3) Cold: Precisa ter Ultra Warm ativado, S3 , mais barato, usado para dados antigos que não são buscados com frequencia

Question 25

Q

O que faz Index State management?

Answer

A

do Opensearch, automatiza politicas de indice como por exempo:
deletar indices velhos
mover para “read-only”
reduzir numero de réplicas etc…
as politicas do ISM rodam a cada 30-48min para evitar não rodar muita coisa de uma só vez

Question 26

Q

Sobre Index Management, o que é Index Rollup?

Answer

A

Periodicamente resume os indices para poupar espaço

Question 27

Q

Em Cross-Cluster replication como index management, o que é um Follower index?

Answer

A

Um indice que pega o dado do Leader index

Question 28

Q

Como melhor prática do Opensearch, quantos Master Nodes devemos ter?

Answer

A

3 master nodes. 1, se cair fica fora. 2 Se eles entrarem em conflito um com o outro (Split Brain), para. 3 é o ideal

Question 29

Q

Em Opensearch, caso um erro JVMMemoryPressure ocorra, o que provavelmente está acontecendo?

Answer

A

Temos muitos Shards provisionados e o gerenciamento deles está gargalando o sistema. Também é possivel deletar indices velhos para melhorar isso

Question 30

Q

O que a função Time Travel no Athena ACID Transactions faz?

Answer

A

Permite fazer SELECT em um dado deletado

Question 31

Q

O que fazer se suas ACID Transactions no Athena estão ficando lentas com o tempo?

Answer

A

Compactar periodicamente usando BIN_PACK

Question 32

Q

Que compressões são suportadas pelo Redshift Spectrum?

Answer

A

GZIP e SNAPY

Question 33

Q

Qual o periodo máximo de retenção de um Snapshot do Redshift?

Question 34

Q

Redshift realiza Backup para o S3 continuamente. V ou F?

Answer

A

VERDADEIRO

Question 35

Q

Quando dados são inputados no Redshift, eles são distribuidos nas tabelas de acordo com um dos 4 Distribution Style possiveis. Quais são eles? Quais são suas particularidades?

Answer

A

1) AUTO: Redshift decide baseado no tamanho do dado
2) EVEN: Distribui entre slices um seguido do outro. Melhor se não houver um motivo pra dados ficarem juntos
3) KEY: Distribuido baseado em uma coluna. Melhor se as queries forem feitas por key
4) ALL: Tabela inteira é copiada para todos os nós

Question 36

Q

Quais são os tipos de Sort Key no Redshift?

Answer

A

1) Single Sort Key: Apenas 1 coluna é usada como Sort Key. Ex: Date
2) Compound Sort Key(Default): É composta de multiplas colunas na ordem em que são dispostas. Util com condições de filtro.
3) Interleaved Sort Key:

Question 37

Q

Que comandos são usados para Importar e Exportar dados para dentro/fora do Redshift?

Answer

A

COPY: S3 requires Manifest File and IAM Role
UNLOAD: Unload a table to S3
Enhanced VPC rounting: Manda os dados de dentro da sua VPC sem passar pela internet

Question 38

Q

Querendo copiar dados de uma tabela dentro do Redshift para outra tabela também dentro do Redshift, qual comando uso?

Answer

A

INSERT INTO ou CREATE TABLE AS (criar uma view)
O COPY command é apenas para dados externos

Question 39

Q

Dados enviados para o Redshift via COPY não usam compressão. V ou F?

Answer

A

FALSO. O Redshift avalia a melhor compressão e a usa

Question 40

Q

Para que serve DBLINK?

Answer

A

Connecta Redshift a um PostgreSQL. Pode ser usado para copiar e sincronizar dados entre Redshift e PostgreSQL

Question 41

Q

Quais os modes de Redshift WLM? Quais as diferenças entre eles?

Answer

A

Automatic: Cria até 8 filas. Filas podem ser ordenadas para receber atividades baseadas em Prioridade, User Groups, Query Groups e Query monitoring rules

Manual: Por default, 1 Queue com concurrency level 5. Superuser queue lv1. Configura até 8 filas com 50 Levels de concurrency

Question 42

Q

O que é Short Query Acceleration (SQA) e quando usa-lo?

Answer

A

Uma forma de acelerar queries pequenas provisionando uma fila excllusive para rodar queries pequenas. Ideal quando o interesse é apenas em evitar atraso nas queries pequenas

Question 43

Q

O que é o comando VACUUM e para que serve? E quais tipos dele?

Answer

A

Limpa tabela e recupera espaço de itens deletados.
VACUUM FULL, VACUUM DELETE ONLY, VACUUM SORT ONLY, VACUUM REINDEX