examen Flashcards

1
Q

¿Que comando se utiliza para extraer datos de una tabla?

A

SELECT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Que comando se utiliza para actualizar registros en una tabla?

A

UPDATE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Que comando se usa para borrar registros en una tabla?

A

DELETE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Cual de las siguientes sentencias selecciona todas las columnas de la tabla clientes?

A

SELECT * FROM clientes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cual selecciona todos los registros de la tabla clientes donde el valor de la columna nombre empieza por a?

A

SELECT * FROM clientes WHERE nombres like ‘a%’

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Que comando devuelve valores distintos?

A

SELECT DISTINCT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Que comandos se usa para ordenar los resultados?

A

ORDER BY

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Que operador selecciona valores en un rango?

A

BETWEEN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Que devuelve SELECT sum(a),b from table GROUP BY b?

A

Un registro con la suma de a para cada valor de b

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Sqoop puede tener como origen de datos:

A

“MySQL, HDFS o Hive”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que tipo de proceso es Sqoop?

A

Sqoop es un proceso BATCH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Si ejecutamos un import a HDFS con un target-dir que ya existe previamente:

A

Da un error y no se lanza el job

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

El número de map por defecto que se lanzan en un job es:

A

4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Al hacer un import a HDFS de un JOIN de tablas si no especifico –split-by entonces el valor de –m tiene que ser:

A

1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Sqoop es un proceso de la comunidad de

A

APACHE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

En el caso de lanzar un job de sqoop con 10 mappers se generarán:

A

Un número de ficheros dependiendo de los valores distintos de la columna del split-by

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Para poder usar la opción de incrementar append en sqoop la tabla origen tiene que tener:

A

Una columna incremental que se actualice en cada insert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Donde se procesa cada split dedatos que genera Sqoop?

A

los procesa en HADOOP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

En el caso de ejecutar un job de Sqoop con 4 tareas map el numero de reducers será:

A

0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hive es una herramienta de procesamiento,

A

BATCH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

El lenguaje que se utiliza en Hive es:

A

HQL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Una managed table de Hive se almacena por defecto

A

EN EL WAREHOUSE DE HIVE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Al borrar una managed table se borran los metadatos de la tabla

A

EN EL METASTORE DE HIVE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Un regexSerde se puede aplicar al siguiente tipo de formato de almacenamiento:

A

TEXTFILE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
El formato PARQUET:
Es un formato orientado a COLUMNAS
26
Un nivel de partición es:
Un directorio de HDFS
27
Si quiero añadir una librería a Hive externa a Hive, tengo que ejecutar el comando
ADD JAR
28
Si añadimos compresión a una tabla de Hive:,
"En general, empeora el rendimiento para formatos "no splittable, El tamaño de los ficheros en HDFS se reduce ,La compresión estará alineada con la forma en la que explotemos los datos."
29
Un proceso de Flume es un proceso,
real time
30
¿Es coherente tener en un canal una capacity de 1000 y una transactionCapacity de 1000?
No
31
¿Qué ocurre si conectas un sink a dos canales distintos?
Da un error de configuración y el agente no se lanza
32
¿Flume usa YARN para la asignación de recursos?
No
33
¿Cual es la propiedad que siempre tengo que configurar para los elementos de mi agente?
Type
34
Un interceptor permite
"Filtrar eventos; Modificar el cuerpo de un evento; Enriquecer la cabecera de un evento"
35
Si una fuente recibe 1000 eventos/s y cada evento es de 1Kb, ¿es correcto cerrar ficheros en HDFS cada 5 segundos?
"No, porque esto daría lugar a ficheros pequeños"
36
Un canal en memoria respecto al que escribe en disco;
"Es más rápido; Si el agente se cae se pierden los eventos en el buffer; Es un elemento pasivo"
37
Si en un sink de tipo HDFS configuro rollInterval=0, entonces:
Deshabilito el cierre de ficheros por tiempo
38
Un elemento source puede estar conectada
A UNO O MAS CANALES
39
El siguiente comando "kafka-consumer-offset-checker.sh --group consumer --zookeeper zktel":
Chequea los offset de todos los topics a los que se ha conectado "consumer"
40
En un cluster con 5 nodos de zookeeper, el máximo de nodos que se pueden caer para que pueda haber consenso es:
2
41
En un cluster con 5 broker el máximo número de particiones por topic es de:
NO HAY LÍMITE
42
En un cluster con 5 broker el máximo númeor de réplicas de un topic es de
5
43
El topic tweets tiene 2 particiones y 3 réplicas:
Sólo se garantiza el orden de lectura a nivel de partición
44
Tengo un cluster con 3 brokers. El topic tweets tiene 3 particiones y 2 réplicas. ¿Cuántas particiones hay en el cluster?
6
45
Los offset de los consumidores se almacenan en las versiones nuevas de kafka en:
Los broker; Un topic llamado _consumer_offset; Fuera del zookeeper
46
Que es kafka
Un bus de datos
47
Spark permite un procesamiento
BATCH; STREAMING; CON MODELOS ANALÍTICOS
48
Es spark lazy?
Spark es lazy porque eso le permite hacer optimizaciones
49
El shuffling es un concepto de Spark:
- Que se aplican a operaciones que se ejecutan para una misma key - Que genera movimiento de datos entre los nodos del cluster - Que se aplica en una operación de JOIN
50
¿Cuál de estas operaciones es una acción?
TAKE (MAP, FLATMAP, FILTER)
51
Cada base de datos en Hive se almacena como
UN DIRECTORIO
52
]Los identificadores en HQL son:
Case Insensitive
53
Si el esquema de la tabla no coincide con los tipos de datos presentes en los ficheros que contienen la tabla:
Da un error al lanzar cualquier query
54
Si tenemos 7 nodos de zookeeper el número máximo de nodos que se pueden caer para que siga habiendo quorum es:
3
55
Por defecto, ¿qué parte del mensaje se usa para determinar la partición en la que escribe un producer?
La key
56
¿Cuál de las siguientes afirmaciones sobre el periodo de vida de un mensaje es correcta?
Un mensaje persiste hasta el periodo de retención definido
57
¿Qué bases de datos relacionales soporta Sqoop?
SQL Server, MySQL, Oracle
58
¿Qué dos tipos de import existen para importar datos?
Append y Last Modified
59
Cuales son las dos funcionalidades de Sqoop
Import y Export
60
Que es un import de Sqoop
Importa cada tabla desde un RDBMS a Hadoop (Cada fila es un registro en HDFS)
61
Que es un export de Sqoop
Exporta los ficheros de Hadoop a tablas de un RDBMS (Cada registro de un fichero de HDFS sera una fila de la tabla en RDBMS)
62
En sqoop por defecto que se escoge para hacer el split-by
La clave primaria
63
Que utilizas en sqoop cuando te quieres traer datos de 2 tablas distintas
query
64
En el caso de free-form query que calcula sqoop
el max(primaryKey) y el min(PrimaryKey)
65
Que se puede hacer como alternativa del free-form query
Dar un boundary-query
66
Almacena Sqoop el ultimo registro que copiamos a HDFS
Si
67
Comando para listar jobs programados en sqoop
sqoop job --list
68
Como vemos los detalles de un job programado en sqoop
sqoop job --show myjob
69
Como ejecutas los jobs en sqoop
sqoop job --exec myjob