Analytics Flashcards
O que é AQUA e o que ele faz?
É um Cache que permite que Redshift rode até 10x mais rápido que seus concorrentes de Cloud Data Warehouse.
Que feature do Redshift podemos usar para compartilhar tabelas em qualquer cluster do Redshift sem ter que copiar os dados?
Data Sharing
Que 3 features o Redshift se vale para fornecer o maior I/O possível?
Columnar storage, Data Compression e Zone Mapping
Por Default Redshift Clusters são configurado como Multi-AZ: V ou F?
FALSO. Para fazer multi AZ, é preciso criar um espelho do cluster e entao ativer auto replicação e failover
Qual o mínimo de Storage que pode ser provisionado em um Cluster Redshift de 1 nó?
160GB
Caso uma aplicação esteja exigindo o Redshift a mudar de tamalho (numero de nós e tipo de instancia), ele faz isso automáticamente? Como é esse processo?
Não. É necessário alguns cliques ou uma call de API. Caso seja feito, ele coloca o Cluster antigo em READ-ONLY e levanta e copia dos dados para o novo cluster. Quando acabar ele desliga o cluster antigo.
Quais são os 4 exemplos de Anti-Patterns de Redshift do WP?
1) Small Dataset - Dataset menor que 100GB, um RDS provavelmente será o mais indicado
2) OLTP:
3) Unstructured
4) BLOB Data
OpenSearch geralmente se conecta com o que da AWS?
KD Firehose, Lambda e CloudWatch
Quais os 2 anti-Paterns no WP da AWS?
1) Higly formated Reports: QS is for ad-hoc query and analises
2) ETL: QS tem capacidade de ETL, mas se for para fazer alguns pesados, melhor fazer em outro lugar antes.
O que são os serviços EKS, ECS e Fargates?
São gerenciadores de container. Elastic Kubernet Services, Elastic Container Services, e AWS Fargates
Quais os formatos de dados em que o Athena opera?
CSV, ORC, Parquet, Avro e JSON
Qual o modelo de precificação do Athen? Quanto ele cobra por quantos TB?
$5 por TB de dado escaneado
No Athena você é cobrado mesmo quando a Quey da Fail. V ou F?
FALSO. Você é cobrado quando a Query é cancelada, mas não quando ela da Fail.
Quais métodos de segurança são usados no Athena?
ACLs, AWS IAM policies,S3 Bucket policy. Pode fazer query (Desde que tenha autorização) em dados criptografados por SSE-KMS, SSE-S3, SSE-C.
Queries usando o Athena fora da interface gráfica dele são suportados por CLI, API via SDK e JDBC. V ou F?
Verdadeiro
Para conectar o Athena em dados fora do S3 como RDS, DynamoDB, CloudWatch Logs, qual serviço podemos usar?
Athena Federated Query - usa Lambda para criar conectores com outras fontes de dados
O Que é Redshift WLM e para que ele serve?
Amazon Work Load Management possibilita priorizar queries para garantir que queries RÁPIDAS, não ficarão presas atrás de queries LONGAS.
O que é o modulo dblink no PostgreSQL e para que ele serve?
Serve para acessar um outro banco de dados em um localização remota
Existem 4 componentes no Kinesis Data Analytics, quais são?
Input Data, Output Data, Reference Tables e Error Stream
Se um dado chegar atrasado no KD Analytics, o que acontece com ele?
É transferido para o Error Stream Bucket
Quando o exame se referir a encontrar “outliers e anomalias no dado”, no contexto KD Analytics, ao que ele possivelmente está se referindo?
RANDOM_CUT_FOREST
Para que serve o Opensearch Elasticsearch?
É um search engine para análise e reporting de Petabyte scale data com front-end em Kibana.
1) Full-text search
2) log Analises
3) App Monitoring
4) Security Analytics
5) Clickstream Analytics
Qual os componentes das estrutura do Opensearch/Elasticsearch?
documents, types(sumindo) e indices
Quais são os tipos de STORAGE para o cluster de Opensearch guardar os indeces?? Quais caracteristicas de cada um?
1) Hot: EBS
2) Ultra Warm: S3
3) Cold: Precisa ter Ultra Warm ativado, S3 , mais barato, usado para dados antigos que não são buscados com frequencia
O que faz Index State management?
do Opensearch, automatiza politicas de indice como por exempo:
deletar indices velhos
mover para “read-only”
reduzir numero de réplicas etc…
as politicas do ISM rodam a cada 30-48min para evitar não rodar muita coisa de uma só vez
Sobre Index Management, o que é Index Rollup?
Periodicamente resume os indices para poupar espaço
Em Cross-Cluster replication como index management, o que é um Follower index?
Um indice que pega o dado do Leader index
Como melhor prática do Opensearch, quantos Master Nodes devemos ter?
3 master nodes. 1, se cair fica fora. 2 Se eles entrarem em conflito um com o outro (Split Brain), para. 3 é o ideal
Em Opensearch, caso um erro JVMMemoryPressure ocorra, o que provavelmente está acontecendo?
Temos muitos Shards provisionados e o gerenciamento deles está gargalando o sistema. Também é possivel deletar indices velhos para melhorar isso
O que a função Time Travel no Athena ACID Transactions faz?
Permite fazer SELECT em um dado deletado
O que fazer se suas ACID Transactions no Athena estão ficando lentas com o tempo?
Compactar periodicamente usando BIN_PACK
Que compressões são suportadas pelo Redshift Spectrum?
GZIP e SNAPY
Qual o periodo máximo de retenção de um Snapshot do Redshift?
35 dias
Redshift realiza Backup para o S3 continuamente. V ou F?
VERDADEIRO
Quando dados são inputados no Redshift, eles são distribuidos nas tabelas de acordo com um dos 4 Distribution Style possiveis. Quais são eles? Quais são suas particularidades?
1) AUTO: Redshift decide baseado no tamanho do dado
2) EVEN: Distribui entre slices um seguido do outro. Melhor se não houver um motivo pra dados ficarem juntos
3) KEY: Distribuido baseado em uma coluna. Melhor se as queries forem feitas por key
4) ALL: Tabela inteira é copiada para todos os nós
Quais são os tipos de Sort Key no Redshift?
1) Single Sort Key: Apenas 1 coluna é usada como Sort Key. Ex: Date
2) Compound Sort Key(Default): É composta de multiplas colunas na ordem em que são dispostas. Util com condições de filtro.
3) Interleaved Sort Key:
Que comandos são usados para Importar e Exportar dados para dentro/fora do Redshift?
COPY: S3 requires Manifest File and IAM Role
UNLOAD: Unload a table to S3
Enhanced VPC rounting: Manda os dados de dentro da sua VPC sem passar pela internet
Querendo copiar dados de uma tabela dentro do Redshift para outra tabela também dentro do Redshift, qual comando uso?
INSERT INTO ou CREATE TABLE AS (criar uma view)
O COPY command é apenas para dados externos
Dados enviados para o Redshift via COPY não usam compressão. V ou F?
FALSO. O Redshift avalia a melhor compressão e a usa
Para que serve DBLINK?
Connecta Redshift a um PostgreSQL. Pode ser usado para copiar e sincronizar dados entre Redshift e PostgreSQL
Quais os modes de Redshift WLM? Quais as diferenças entre eles?
Automatic: Cria até 8 filas. Filas podem ser ordenadas para receber atividades baseadas em Prioridade, User Groups, Query Groups e Query monitoring rules
Manual: Por default, 1 Queue com concurrency level 5. Superuser queue lv1. Configura até 8 filas com 50 Levels de concurrency
O que é Short Query Acceleration (SQA) e quando usa-lo?
Uma forma de acelerar queries pequenas provisionando uma fila excllusive para rodar queries pequenas. Ideal quando o interesse é apenas em evitar atraso nas queries pequenas
O que é o comando VACUUM e para que serve? E quais tipos dele?
Limpa tabela e recupera espaço de itens deletados.
VACUUM FULL, VACUUM DELETE ONLY, VACUUM SORT ONLY, VACUUM REINDEX