Processing Flashcards

1
Q

Qual o tempo máximo de execução de uma função Lambda até que ele gere um erro de TIMEOUT?

A

900s (15min)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual a capacidade máxima de registros que uma função Lambda consegue processar vindo do Kinesis?

A

10000 registros

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual o limite máximo de tamanho de um Batch para processamento no Lambda vindo do Kinesis?
O que acontecerá se esse limite for excedido?
O que fazer para evitar isso?

A

6Mb
Pode dar Timeout na função ou STALL no SHARD
Dar Split no Payload e/ou aumentar o numero de SHARDS pra evitar stall

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Existe um default para o numero de Lambdas rodando simultaneamente?

A

Sim, 1000 execuções concorrentes, mas pode ser solicitado a AWS para levantar esse limite

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Para manipular Lambda, é possivel usar AWS CLI, AWS SDK, ambos ou nenhum dos 2?

A

AWS CLI e AWS SDK

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Sobre Lambda, quais os 3 Anti-Pattern mencionados no WP da AWS?

A

1) Long- Running Applications : Limite de 900s
2) Dynamic Website: Sites pesados podem ter problemas graves de performance rodando am Lambda, mas Static Web é bom
3) Stateful Applications: Lamda não roda em um OS com subprocessos e não estoca informação nele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais as são as 7 implementações de interface Hadoop mais comuns para o cluster Amazon EMR?

A

Spark, Hive, HBase, Pig, Hudi, Presto e Kinesis Connector.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Diga 4 usos recomendadas para cluster AWS EMR?

A

1) Peta-byte Analytics
2) Large ETL Movement
3) Predictive Analytics
4) Ad-hoc data mining and analytics

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais os tipos de node no AWS EMR e para que servem?

A

1) Primary Node: Gerencia as tasks e todo e qualquer aspecto do cluster, incluindo monitorando saude. O Cluster pode ser composto somenta de um PRIMARY NODE
2) Core Node: Roda Tasks e grava dados no systema Hadoop (HDFS). Clusters multi-node tem ao menos 1 Core Node
3) Task Node: Apenas roda Tasks, não guarda dados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é a interface Hive para o Amazon EMR e quais suas particularidades?

A

Hive é um Open source DataWarehouse. Capaz de rodar dados não estruturados como JSON e textos. Usa linguagem Hive QL que tem como base o SQL. É possivel salvar tabelas e scripts diretamente no S3 com a nova implementação do Hive

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é a interface Spark no Amazon EMR e quais suas particularidades?

A

É um open-source data-analytics engine que roda em cima do Hadoop com os fundamentais para in-memory map reduce.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

O que é a interface Hbase no Amazon EMR e quais suas particularidades?

A

É um open-source non-relational, distributed database. Fault tolerant efficient way of storing large quantities of sparse data. Can backup to S3. Muito eficiente para Batch Insert, Updates and deletes,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

O que é a interface Presto no Amazon EMR e quais suas particularidades?

A

É um Open-source distributed SQL query engine otimizado para analise de dados ad-hoc de baixa latência. Presto pode processar diferentes fontes de dados incluindo HDFS e S3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Se o cluster Amazon EMR for desligado, todo o dado contido no HDFS é perdido. V ou F?

A

VERDADEIRO. Dado em HDFS é efêmero. Ele se perde se o cluster for desligado. Usar EMRFS ou S3 são a solução para isso.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pra que serve o Hive Metastore?

A

Faz a função do Glue Data Catalog e fica no Primary Node. É possivel guarda-lo externamento por questões de resiliencia.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Se no exame surgir uma pergunta falando sobre “Interactive Queries across Petabyte-scale consuming from a variaty of sources” qual é a resposta mais provável?

A

Presto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

No tocante a Amazon EMR cluster, o que fazem cada um das aplicações abaixo:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) Hcatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger

A

1) Ganglia: Monitoring
2) Mahout: Machine Learning
3) Accumulo: NoSQL DB
4) Sqoop: Relational DB Connector
5) Hcatalog: table and storage mngmnt for Hive Metastore
6) Kinesis Connector: direct access kinesis stream
7) Tachyon: accelerator for Spark
8) Derby: open source relational DB in Java
9) Ranger: Data security mngr for Hadoop

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Pra que serve o S3DistCp?

A

Um software implementado em cima do Amazon EMR para aumentar a velocidade de quantidades grandes de daod se movendo do HDFS para o S3, do S3 para o HDFS e dentro do S3 ou do HDFS.

19
Q

Que feature do Glue podemos usar para reforçar schema em streaming de dados?

A

AWS Glue Schema Registry

20
Q

Em quais sistemas KD Firehose pode entregar dados?

A

S3, Elasticsearch, Redshift e Splunk

21
Q

Quais são os 4 formas de resolver ambiguidade no Glue ETL?

A

1) make_col: cria uma coluna para o novo valor
2) cast: coloca todos os valores para o tipo de dado especificado
3) make_struct:cria uma estrutura que contem cada tipo de dado.
4) project: projeta cada tipo para um tipo de dado

22
Q

O que é o Apache Zeppelin e para que ele serve?

A

Uma interface que pode acessar Endpoint de desenvolvimento Glue ETL dentro da VPC da AWS. Estilo notebook igual ao jupyter

23
Q

No Glue, quais são as formas de rodar os Jobs automaticamente?

A

1) Time-Based Cron job
2) Job Bookmark
3) CloudWatch Event Trigger

24
Q

O que é o Job Bookmark no Glue e quais suas caracteristicas?

A

1) usado para não processar o mesmo dado 2 vezes
2) Funciona com S3 e várias bases em JDBC (Se as PK estiverem em ordem sequencial). E SOMENTE lida com NOVAS Linhas, não linhas que tiveram UPDATE

25
Q

O que é o Glue Studio e para que ele é usado?

A

Um codeless code interface

26
Q

O que faz o Glue DataBrew?

A

Faz transformações em dados usando várias pre-made scripts.

27
Q

Para que serve o Apache Flink?

A

É um Streaming dataflow engine pra rodar real-time stream processing

28
Q

Qual a diferença entre um TRANSIENTE Cluster e um LONG RUNNING Cluster em EMR?

A

Transient Cluster desliga todo o cluster quando o job acabar.
Long Running Cluster fica ligado. Basicamente um Data Warehouse

29
Q

Podemos levantar um cluster EMR como parte da execução de um Data Pipeline. V ou F?

A

VERDADEIRO

30
Q

No Framework HDFS, qual o tamanho padrão de um bloco?

A

128Mb

31
Q

Qual a vantagem de rodar o processamento em HDFS em relação ao EMRFS?

A

1) Hadoop processa bem mais rápido o dado que estão em suas instâncias do que no S3.
2) pode ser vantajoso para manter dados intermediários enquanto o processo ocorre completo

RESUMINDO: EMRFS não é tão rápido quanto HDFS, mas é bem rápido ainda assim

32
Q

Quais os 5 componentes do Apache Spark e o que cada um deles faz?

A

1) Spark Core: Gerencia a porra toda, schedule, monitor etc…
2) Spark Streaming: Real-Time Streaming
3) Spark SQL: 100x Faster than MapReduce introduz o Dataframe permitindo tratar o dado no Spark como tabelas e fazer Queries
4) MLLib: Fazer ML em muito dado
5) GraphX: Computação iterativa de grafos, processamento de ETL e analytics (Não é usado quase mais)

33
Q

O que é o Hive Metastore? Onde ele fica guardado por default? Para onde mais ele pode transferido?

A

É um CSV que guarda o formato estruturado que definimos para consumir o dado não estruturado estocado no HDFS. Muito próximo do raciocinio de um metadado.
Por default, fica guardado no MySQL no Primary Node.
Mas deveria ser transferido para fora do cluster, ou no AWS Glue Data Catalog ou num outro RDS

34
Q

Que outros pontos de integração o EMR hive tem com AWS?

A

1) Load tables and partitions in S3
2) Load Scripts FROM S3. Salva os scripts em uma pasta e o cluster vai até lá pra ler esses scripts
3) Possivel usar DynamoDB tables como se fossem external Hive Tables

35
Q

Quais caracteristicas do HBase implementation tornam ele muito atrativo?

A

1) NoSQL, Petabyte-scale DB
2) In-Memory - Super rápido de fazer query
3) Integra com o Hive
4) Faz backup no S3

36
Q

Quando usar HBase e quando usar Dynamo DB com Hive?

A

HBase é adequado para high write & Update Throuput. Melhor quando a ideia é integrar com Hadoop
DynamoDB é autoscale e fully managed service integrado com o Glue. Melhor quando a ideia é integrar com AWS

37
Q

Qual a melhor utilidade do Presto?

A

Interactive Queries at petabyte scale, familiar SQL syntax. Tem ótimas conectores para varios DW e RDS

38
Q

O que é e para que serve o Hue?

A

É um front-end para todo o EMR cluster com integração com IAM

39
Q

O que é e para que serve o SPLUNK?

A

É uma ferramenta de monitoramente de dados no cluster EMR

40
Q

O que é e para que serve o FLUME?

A

É um serviço distribuido para streamar dados para dentro do cluster, tipo Kafka ou Kinesis.
Originalmente criado para logs

41
Q

O que é e para que serve o MXNet?

A

Biblioteca tipo Tensorflow para neural Network. Só ligar no nome “NET”. Incluida no EMR

42
Q

O que é e o que faz o S3DispCP?

A

Ferramenta para copiar Dados do S3 para o HDFS e ao contrário. Ideal para copiar em paralelo

43
Q

Enumere o que cada uma dessas ferramentas faz:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) HCatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger

A

1) Ganglia: Monitora - pra o caso de ter gangrena
2) Mahout: ML
3) Accumulo: NoSQL DB - acumula dado não estruturado
4) Sqoop: Connector Relational DB
5) HCatalog: Data Catalog
6) Kinesis Connector: Access to Kinesis stream on script
7) Tachyon: Accelerator for Spark - tão rápido que quebra a barreira do tempo
8) Derby: Open-source Relational DB in java - Dados organizados como cigarros no pacote
9) Ranger: Security mngr for Hadoop