Processing Flashcards by Guilherme D.

Qual o tempo máximo de execução de uma função Lambda até que ele gere um erro de TIMEOUT?

900s (15min)

How well did you know this?

Not at all

Perfectly

Qual a capacidade máxima de registros que uma função Lambda consegue processar vindo do Kinesis?

10000 registros

How well did you know this?

Not at all

Perfectly

Qual o limite máximo de tamanho de um Batch para processamento no Lambda vindo do Kinesis?
O que acontecerá se esse limite for excedido?
O que fazer para evitar isso?

6Mb
Pode dar Timeout na função ou STALL no SHARD
Dar Split no Payload e/ou aumentar o numero de SHARDS pra evitar stall

How well did you know this?

Not at all

Perfectly

Existe um default para o numero de Lambdas rodando simultaneamente?

Sim, 1000 execuções concorrentes, mas pode ser solicitado a AWS para levantar esse limite

How well did you know this?

Not at all

Perfectly

Para manipular Lambda, é possivel usar AWS CLI, AWS SDK, ambos ou nenhum dos 2?

AWS CLI e AWS SDK

How well did you know this?

Not at all

Perfectly

Sobre Lambda, quais os 3 Anti-Pattern mencionados no WP da AWS?

1) Long- Running Applications : Limite de 900s
2) Dynamic Website: Sites pesados podem ter problemas graves de performance rodando am Lambda, mas Static Web é bom
3) Stateful Applications: Lamda não roda em um OS com subprocessos e não estoca informação nele.

How well did you know this?

Not at all

Perfectly

Quais as são as 7 implementações de interface Hadoop mais comuns para o cluster Amazon EMR?

Spark, Hive, HBase, Pig, Hudi, Presto e Kinesis Connector.

How well did you know this?

Not at all

Perfectly

Diga 4 usos recomendadas para cluster AWS EMR?

1) Peta-byte Analytics
2) Large ETL Movement
3) Predictive Analytics
4) Ad-hoc data mining and analytics

How well did you know this?

Not at all

Perfectly

Quais os tipos de node no AWS EMR e para que servem?

1) Primary Node: Gerencia as tasks e todo e qualquer aspecto do cluster, incluindo monitorando saude. O Cluster pode ser composto somenta de um PRIMARY NODE
2) Core Node: Roda Tasks e grava dados no systema Hadoop (HDFS). Clusters multi-node tem ao menos 1 Core Node
3) Task Node: Apenas roda Tasks, não guarda dados.

How well did you know this?

Not at all

Perfectly

O que é a interface Hive para o Amazon EMR e quais suas particularidades?

Hive é um Open source DataWarehouse. Capaz de rodar dados não estruturados como JSON e textos. Usa linguagem Hive QL que tem como base o SQL. É possivel salvar tabelas e scripts diretamente no S3 com a nova implementação do Hive

How well did you know this?

Not at all

Perfectly

O que é a interface Spark no Amazon EMR e quais suas particularidades?

É um open-source data-analytics engine que roda em cima do Hadoop com os fundamentais para in-memory map reduce.

How well did you know this?

Not at all

Perfectly

O que é a interface Hbase no Amazon EMR e quais suas particularidades?

É um open-source non-relational, distributed database. Fault tolerant efficient way of storing large quantities of sparse data. Can backup to S3. Muito eficiente para Batch Insert, Updates and deletes,

How well did you know this?

Not at all

Perfectly

O que é a interface Presto no Amazon EMR e quais suas particularidades?

É um Open-source distributed SQL query engine otimizado para analise de dados ad-hoc de baixa latência. Presto pode processar diferentes fontes de dados incluindo HDFS e S3

How well did you know this?

Not at all

Perfectly

Se o cluster Amazon EMR for desligado, todo o dado contido no HDFS é perdido. V ou F?

VERDADEIRO. Dado em HDFS é efêmero. Ele se perde se o cluster for desligado. Usar EMRFS ou S3 são a solução para isso.

How well did you know this?

Not at all

Perfectly

Pra que serve o Hive Metastore?

Faz a função do Glue Data Catalog e fica no Primary Node. É possivel guarda-lo externamento por questões de resiliencia.

How well did you know this?

Not at all

Perfectly

Se no exame surgir uma pergunta falando sobre “Interactive Queries across Petabyte-scale consuming from a variaty of sources” qual é a resposta mais provável?

Presto

How well did you know this?

Not at all

Perfectly

No tocante a Amazon EMR cluster, o que fazem cada um das aplicações abaixo:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) Hcatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger

1) Ganglia: Monitoring
2) Mahout: Machine Learning
3) Accumulo: NoSQL DB
4) Sqoop: Relational DB Connector
5) Hcatalog: table and storage mngmnt for Hive Metastore
6) Kinesis Connector: direct access kinesis stream
7) Tachyon: accelerator for Spark
8) Derby: open source relational DB in Java
9) Ranger: Data security mngr for Hadoop

How well did you know this?

Not at all

Perfectly

Pra que serve o S3DistCp?

Study These Flashcards

Um software implementado em cima do Amazon EMR para aumentar a velocidade de quantidades grandes de daod se movendo do HDFS para o S3, do S3 para o HDFS e dentro do S3 ou do HDFS.

Que feature do Glue podemos usar para reforçar schema em streaming de dados?

Study These Flashcards

AWS Glue Schema Registry

Em quais sistemas KD Firehose pode entregar dados?

Study These Flashcards

S3, Elasticsearch, Redshift e Splunk

Quais são os 4 formas de resolver ambiguidade no Glue ETL?

Study These Flashcards

1) make_col: cria uma coluna para o novo valor
2) cast: coloca todos os valores para o tipo de dado especificado
3) make_struct:cria uma estrutura que contem cada tipo de dado.
4) project: projeta cada tipo para um tipo de dado

O que é o Apache Zeppelin e para que ele serve?

Study These Flashcards

Uma interface que pode acessar Endpoint de desenvolvimento Glue ETL dentro da VPC da AWS. Estilo notebook igual ao jupyter

No Glue, quais são as formas de rodar os Jobs automaticamente?

Study These Flashcards

1) Time-Based Cron job
2) Job Bookmark
3) CloudWatch Event Trigger

O que é o Job Bookmark no Glue e quais suas caracteristicas?

Study These Flashcards

1) usado para não processar o mesmo dado 2 vezes
2) Funciona com S3 e várias bases em JDBC (Se as PK estiverem em ordem sequencial). E SOMENTE lida com NOVAS Linhas, não linhas que tiveram UPDATE

O que é o Glue Studio e para que ele é usado?

Um codeless code interface

O que faz o Glue DataBrew?

Faz transformações em dados usando várias pre-made scripts.

Para que serve o Apache Flink?

É um Streaming dataflow engine pra rodar real-time stream processing

Qual a diferença entre um TRANSIENTE Cluster e um LONG RUNNING Cluster em EMR?

Transient Cluster desliga todo o cluster quando o job acabar. Long Running Cluster fica ligado. Basicamente um Data Warehouse

Podemos levantar um cluster EMR como parte da execução de um Data Pipeline. V ou F?

VERDADEIRO

No Framework HDFS, qual o tamanho padrão de um bloco?

128Mb

Qual a vantagem de rodar o processamento em HDFS em relação ao EMRFS?

1) Hadoop processa bem mais rápido o dado que estão em suas instâncias do que no S3. 2) pode ser vantajoso para manter dados intermediários enquanto o processo ocorre completo RESUMINDO: EMRFS não é tão rápido quanto HDFS, mas é bem rápido ainda assim

Quais os 5 componentes do Apache Spark e o que cada um deles faz?

1) Spark Core: Gerencia a porra toda, schedule, monitor etc... 2) Spark Streaming: Real-Time Streaming 3) Spark SQL: 100x Faster than MapReduce introduz o Dataframe permitindo tratar o dado no Spark como tabelas e fazer Queries 4) MLLib: Fazer ML em muito dado 5) GraphX: Computação iterativa de grafos, processamento de ETL e analytics (Não é usado quase mais)

O que é o Hive Metastore? Onde ele fica guardado por default? Para onde mais ele pode transferido?

É um CSV que guarda o formato estruturado que definimos para consumir o dado não estruturado estocado no HDFS. Muito próximo do raciocinio de um metadado. Por default, fica guardado no MySQL no Primary Node. Mas deveria ser transferido para fora do cluster, ou no AWS Glue Data Catalog ou num outro RDS

Que outros pontos de integração o EMR hive tem com AWS?

1) Load tables and partitions in S3 2) Load Scripts FROM S3. Salva os scripts em uma pasta e o cluster vai até lá pra ler esses scripts 3) Possivel usar DynamoDB tables como se fossem external Hive Tables

Quais caracteristicas do HBase implementation tornam ele muito atrativo?

1) NoSQL, Petabyte-scale DB 2) In-Memory - Super rápido de fazer query 3) Integra com o Hive 4) Faz backup no S3

Quando usar HBase e quando usar Dynamo DB com Hive?

HBase é adequado para high write & Update Throuput. Melhor quando a ideia é integrar com Hadoop DynamoDB é autoscale e fully managed service integrado com o Glue. Melhor quando a ideia é integrar com AWS

Qual a melhor utilidade do Presto?

Interactive Queries at petabyte scale, familiar SQL syntax. Tem ótimas conectores para varios DW e RDS

O que é e para que serve o Hue?

É um front-end para todo o EMR cluster com integração com IAM

O que é e para que serve o SPLUNK?

É uma ferramenta de monitoramente de dados no cluster EMR

O que é e para que serve o FLUME?

É um serviço distribuido para streamar dados para dentro do cluster, tipo Kafka ou Kinesis. Originalmente criado para logs

O que é e para que serve o MXNet?

Biblioteca tipo Tensorflow para neural Network. Só ligar no nome "NET". Incluida no EMR

O que é e o que faz o S3DispCP?

Ferramenta para copiar Dados do S3 para o HDFS e ao contrário. Ideal para copiar em paralelo

Enumere o que cada uma dessas ferramentas faz: 1) Ganglia 2) Mahout 3) Accumulo 4) Sqoop 5) HCatalog 6) Kinesis Connector 7) Tachyon 8) Derby 9) Ranger

1) Ganglia: Monitora - pra o caso de ter gangrena 2) Mahout: ML 3) Accumulo: NoSQL DB - acumula dado não estruturado 4) Sqoop: Connector Relational DB 5) HCatalog: Data Catalog 6) Kinesis Connector: Access to Kinesis stream on script 7) Tachyon: Accelerator for Spark - tão rápido que quebra a barreira do tempo 8) Derby: Open-source Relational DB in java - Dados organizados como cigarros no pacote 9) Ranger: Security mngr for Hadoop

Processing Flashcards

(43 cards)