Processing Flashcards
Qual o tempo máximo de execução de uma função Lambda até que ele gere um erro de TIMEOUT?
900s (15min)
Qual a capacidade máxima de registros que uma função Lambda consegue processar vindo do Kinesis?
10000 registros
Qual o limite máximo de tamanho de um Batch para processamento no Lambda vindo do Kinesis?
O que acontecerá se esse limite for excedido?
O que fazer para evitar isso?
6Mb
Pode dar Timeout na função ou STALL no SHARD
Dar Split no Payload e/ou aumentar o numero de SHARDS pra evitar stall
Existe um default para o numero de Lambdas rodando simultaneamente?
Sim, 1000 execuções concorrentes, mas pode ser solicitado a AWS para levantar esse limite
Para manipular Lambda, é possivel usar AWS CLI, AWS SDK, ambos ou nenhum dos 2?
AWS CLI e AWS SDK
Sobre Lambda, quais os 3 Anti-Pattern mencionados no WP da AWS?
1) Long- Running Applications : Limite de 900s
2) Dynamic Website: Sites pesados podem ter problemas graves de performance rodando am Lambda, mas Static Web é bom
3) Stateful Applications: Lamda não roda em um OS com subprocessos e não estoca informação nele.
Quais as são as 7 implementações de interface Hadoop mais comuns para o cluster Amazon EMR?
Spark, Hive, HBase, Pig, Hudi, Presto e Kinesis Connector.
Diga 4 usos recomendadas para cluster AWS EMR?
1) Peta-byte Analytics
2) Large ETL Movement
3) Predictive Analytics
4) Ad-hoc data mining and analytics
Quais os tipos de node no AWS EMR e para que servem?
1) Primary Node: Gerencia as tasks e todo e qualquer aspecto do cluster, incluindo monitorando saude. O Cluster pode ser composto somenta de um PRIMARY NODE
2) Core Node: Roda Tasks e grava dados no systema Hadoop (HDFS). Clusters multi-node tem ao menos 1 Core Node
3) Task Node: Apenas roda Tasks, não guarda dados.
O que é a interface Hive para o Amazon EMR e quais suas particularidades?
Hive é um Open source DataWarehouse. Capaz de rodar dados não estruturados como JSON e textos. Usa linguagem Hive QL que tem como base o SQL. É possivel salvar tabelas e scripts diretamente no S3 com a nova implementação do Hive
O que é a interface Spark no Amazon EMR e quais suas particularidades?
É um open-source data-analytics engine que roda em cima do Hadoop com os fundamentais para in-memory map reduce.
O que é a interface Hbase no Amazon EMR e quais suas particularidades?
É um open-source non-relational, distributed database. Fault tolerant efficient way of storing large quantities of sparse data. Can backup to S3. Muito eficiente para Batch Insert, Updates and deletes,
O que é a interface Presto no Amazon EMR e quais suas particularidades?
É um Open-source distributed SQL query engine otimizado para analise de dados ad-hoc de baixa latência. Presto pode processar diferentes fontes de dados incluindo HDFS e S3
Se o cluster Amazon EMR for desligado, todo o dado contido no HDFS é perdido. V ou F?
VERDADEIRO. Dado em HDFS é efêmero. Ele se perde se o cluster for desligado. Usar EMRFS ou S3 são a solução para isso.
Pra que serve o Hive Metastore?
Faz a função do Glue Data Catalog e fica no Primary Node. É possivel guarda-lo externamento por questões de resiliencia.
Se no exame surgir uma pergunta falando sobre “Interactive Queries across Petabyte-scale consuming from a variaty of sources” qual é a resposta mais provável?
Presto
No tocante a Amazon EMR cluster, o que fazem cada um das aplicações abaixo:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) Hcatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger
1) Ganglia: Monitoring
2) Mahout: Machine Learning
3) Accumulo: NoSQL DB
4) Sqoop: Relational DB Connector
5) Hcatalog: table and storage mngmnt for Hive Metastore
6) Kinesis Connector: direct access kinesis stream
7) Tachyon: accelerator for Spark
8) Derby: open source relational DB in Java
9) Ranger: Data security mngr for Hadoop