Processing Flashcards
Qual o tempo máximo de execução de uma função Lambda até que ele gere um erro de TIMEOUT?
900s (15min)
Qual a capacidade máxima de registros que uma função Lambda consegue processar vindo do Kinesis?
10000 registros
Qual o limite máximo de tamanho de um Batch para processamento no Lambda vindo do Kinesis?
O que acontecerá se esse limite for excedido?
O que fazer para evitar isso?
6Mb
Pode dar Timeout na função ou STALL no SHARD
Dar Split no Payload e/ou aumentar o numero de SHARDS pra evitar stall
Existe um default para o numero de Lambdas rodando simultaneamente?
Sim, 1000 execuções concorrentes, mas pode ser solicitado a AWS para levantar esse limite
Para manipular Lambda, é possivel usar AWS CLI, AWS SDK, ambos ou nenhum dos 2?
AWS CLI e AWS SDK
Sobre Lambda, quais os 3 Anti-Pattern mencionados no WP da AWS?
1) Long- Running Applications : Limite de 900s
2) Dynamic Website: Sites pesados podem ter problemas graves de performance rodando am Lambda, mas Static Web é bom
3) Stateful Applications: Lamda não roda em um OS com subprocessos e não estoca informação nele.
Quais as são as 7 implementações de interface Hadoop mais comuns para o cluster Amazon EMR?
Spark, Hive, HBase, Pig, Hudi, Presto e Kinesis Connector.
Diga 4 usos recomendadas para cluster AWS EMR?
1) Peta-byte Analytics
2) Large ETL Movement
3) Predictive Analytics
4) Ad-hoc data mining and analytics
Quais os tipos de node no AWS EMR e para que servem?
1) Primary Node: Gerencia as tasks e todo e qualquer aspecto do cluster, incluindo monitorando saude. O Cluster pode ser composto somenta de um PRIMARY NODE
2) Core Node: Roda Tasks e grava dados no systema Hadoop (HDFS). Clusters multi-node tem ao menos 1 Core Node
3) Task Node: Apenas roda Tasks, não guarda dados.
O que é a interface Hive para o Amazon EMR e quais suas particularidades?
Hive é um Open source DataWarehouse. Capaz de rodar dados não estruturados como JSON e textos. Usa linguagem Hive QL que tem como base o SQL. É possivel salvar tabelas e scripts diretamente no S3 com a nova implementação do Hive
O que é a interface Spark no Amazon EMR e quais suas particularidades?
É um open-source data-analytics engine que roda em cima do Hadoop com os fundamentais para in-memory map reduce.
O que é a interface Hbase no Amazon EMR e quais suas particularidades?
É um open-source non-relational, distributed database. Fault tolerant efficient way of storing large quantities of sparse data. Can backup to S3. Muito eficiente para Batch Insert, Updates and deletes,
O que é a interface Presto no Amazon EMR e quais suas particularidades?
É um Open-source distributed SQL query engine otimizado para analise de dados ad-hoc de baixa latência. Presto pode processar diferentes fontes de dados incluindo HDFS e S3
Se o cluster Amazon EMR for desligado, todo o dado contido no HDFS é perdido. V ou F?
VERDADEIRO. Dado em HDFS é efêmero. Ele se perde se o cluster for desligado. Usar EMRFS ou S3 são a solução para isso.
Pra que serve o Hive Metastore?
Faz a função do Glue Data Catalog e fica no Primary Node. É possivel guarda-lo externamento por questões de resiliencia.
Se no exame surgir uma pergunta falando sobre “Interactive Queries across Petabyte-scale consuming from a variaty of sources” qual é a resposta mais provável?
Presto
No tocante a Amazon EMR cluster, o que fazem cada um das aplicações abaixo:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) Hcatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger
1) Ganglia: Monitoring
2) Mahout: Machine Learning
3) Accumulo: NoSQL DB
4) Sqoop: Relational DB Connector
5) Hcatalog: table and storage mngmnt for Hive Metastore
6) Kinesis Connector: direct access kinesis stream
7) Tachyon: accelerator for Spark
8) Derby: open source relational DB in Java
9) Ranger: Data security mngr for Hadoop
Pra que serve o S3DistCp?
Um software implementado em cima do Amazon EMR para aumentar a velocidade de quantidades grandes de daod se movendo do HDFS para o S3, do S3 para o HDFS e dentro do S3 ou do HDFS.
Que feature do Glue podemos usar para reforçar schema em streaming de dados?
AWS Glue Schema Registry
Em quais sistemas KD Firehose pode entregar dados?
S3, Elasticsearch, Redshift e Splunk
Quais são os 4 formas de resolver ambiguidade no Glue ETL?
1) make_col: cria uma coluna para o novo valor
2) cast: coloca todos os valores para o tipo de dado especificado
3) make_struct:cria uma estrutura que contem cada tipo de dado.
4) project: projeta cada tipo para um tipo de dado
O que é o Apache Zeppelin e para que ele serve?
Uma interface que pode acessar Endpoint de desenvolvimento Glue ETL dentro da VPC da AWS. Estilo notebook igual ao jupyter
No Glue, quais são as formas de rodar os Jobs automaticamente?
1) Time-Based Cron job
2) Job Bookmark
3) CloudWatch Event Trigger
O que é o Job Bookmark no Glue e quais suas caracteristicas?
1) usado para não processar o mesmo dado 2 vezes
2) Funciona com S3 e várias bases em JDBC (Se as PK estiverem em ordem sequencial). E SOMENTE lida com NOVAS Linhas, não linhas que tiveram UPDATE
O que é o Glue Studio e para que ele é usado?
Um codeless code interface
O que faz o Glue DataBrew?
Faz transformações em dados usando várias pre-made scripts.
Para que serve o Apache Flink?
É um Streaming dataflow engine pra rodar real-time stream processing
Qual a diferença entre um TRANSIENTE Cluster e um LONG RUNNING Cluster em EMR?
Transient Cluster desliga todo o cluster quando o job acabar.
Long Running Cluster fica ligado. Basicamente um Data Warehouse
Podemos levantar um cluster EMR como parte da execução de um Data Pipeline. V ou F?
VERDADEIRO
No Framework HDFS, qual o tamanho padrão de um bloco?
128Mb
Qual a vantagem de rodar o processamento em HDFS em relação ao EMRFS?
1) Hadoop processa bem mais rápido o dado que estão em suas instâncias do que no S3.
2) pode ser vantajoso para manter dados intermediários enquanto o processo ocorre completo
RESUMINDO: EMRFS não é tão rápido quanto HDFS, mas é bem rápido ainda assim
Quais os 5 componentes do Apache Spark e o que cada um deles faz?
1) Spark Core: Gerencia a porra toda, schedule, monitor etc…
2) Spark Streaming: Real-Time Streaming
3) Spark SQL: 100x Faster than MapReduce introduz o Dataframe permitindo tratar o dado no Spark como tabelas e fazer Queries
4) MLLib: Fazer ML em muito dado
5) GraphX: Computação iterativa de grafos, processamento de ETL e analytics (Não é usado quase mais)
O que é o Hive Metastore? Onde ele fica guardado por default? Para onde mais ele pode transferido?
É um CSV que guarda o formato estruturado que definimos para consumir o dado não estruturado estocado no HDFS. Muito próximo do raciocinio de um metadado.
Por default, fica guardado no MySQL no Primary Node.
Mas deveria ser transferido para fora do cluster, ou no AWS Glue Data Catalog ou num outro RDS
Que outros pontos de integração o EMR hive tem com AWS?
1) Load tables and partitions in S3
2) Load Scripts FROM S3. Salva os scripts em uma pasta e o cluster vai até lá pra ler esses scripts
3) Possivel usar DynamoDB tables como se fossem external Hive Tables
Quais caracteristicas do HBase implementation tornam ele muito atrativo?
1) NoSQL, Petabyte-scale DB
2) In-Memory - Super rápido de fazer query
3) Integra com o Hive
4) Faz backup no S3
Quando usar HBase e quando usar Dynamo DB com Hive?
HBase é adequado para high write & Update Throuput. Melhor quando a ideia é integrar com Hadoop
DynamoDB é autoscale e fully managed service integrado com o Glue. Melhor quando a ideia é integrar com AWS
Qual a melhor utilidade do Presto?
Interactive Queries at petabyte scale, familiar SQL syntax. Tem ótimas conectores para varios DW e RDS
O que é e para que serve o Hue?
É um front-end para todo o EMR cluster com integração com IAM
O que é e para que serve o SPLUNK?
É uma ferramenta de monitoramente de dados no cluster EMR
O que é e para que serve o FLUME?
É um serviço distribuido para streamar dados para dentro do cluster, tipo Kafka ou Kinesis.
Originalmente criado para logs
O que é e para que serve o MXNet?
Biblioteca tipo Tensorflow para neural Network. Só ligar no nome “NET”. Incluida no EMR
O que é e o que faz o S3DispCP?
Ferramenta para copiar Dados do S3 para o HDFS e ao contrário. Ideal para copiar em paralelo
Enumere o que cada uma dessas ferramentas faz:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) HCatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger
1) Ganglia: Monitora - pra o caso de ter gangrena
2) Mahout: ML
3) Accumulo: NoSQL DB - acumula dado não estruturado
4) Sqoop: Connector Relational DB
5) HCatalog: Data Catalog
6) Kinesis Connector: Access to Kinesis stream on script
7) Tachyon: Accelerator for Spark - tão rápido que quebra a barreira do tempo
8) Derby: Open-source Relational DB in java - Dados organizados como cigarros no pacote
9) Ranger: Security mngr for Hadoop