examen Flashcards

1
Q

¿Que comando se utiliza para extraer datos de una tabla?

A

SELECT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Que comando se utiliza para actualizar registros en una tabla?

A

UPDATE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Que comando se usa para borrar registros en una tabla?

A

DELETE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Cual de las siguientes sentencias selecciona todas las columnas de la tabla clientes?

A

SELECT * FROM clientes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cual selecciona todos los registros de la tabla clientes donde el valor de la columna nombre empieza por a?

A

SELECT * FROM clientes WHERE nombres like ‘a%’

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Que comando devuelve valores distintos?

A

SELECT DISTINCT

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Que comandos se usa para ordenar los resultados?

A

ORDER BY

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Que operador selecciona valores en un rango?

A

BETWEEN

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Que devuelve SELECT sum(a),b from table GROUP BY b?

A

Un registro con la suma de a para cada valor de b

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Sqoop puede tener como origen de datos:

A

“MySQL, HDFS o Hive”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Que tipo de proceso es Sqoop?

A

Sqoop es un proceso BATCH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Si ejecutamos un import a HDFS con un target-dir que ya existe previamente:

A

Da un error y no se lanza el job

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

El número de map por defecto que se lanzan en un job es:

A

4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Al hacer un import a HDFS de un JOIN de tablas si no especifico –split-by entonces el valor de –m tiene que ser:

A

1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Sqoop es un proceso de la comunidad de

A

APACHE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

En el caso de lanzar un job de sqoop con 10 mappers se generarán:

A

Un número de ficheros dependiendo de los valores distintos de la columna del split-by

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Para poder usar la opción de incrementar append en sqoop la tabla origen tiene que tener:

A

Una columna incremental que se actualice en cada insert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Donde se procesa cada split dedatos que genera Sqoop?

A

los procesa en HADOOP

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

En el caso de ejecutar un job de Sqoop con 4 tareas map el numero de reducers será:

A

0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hive es una herramienta de procesamiento,

A

BATCH

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

El lenguaje que se utiliza en Hive es:

A

HQL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Una managed table de Hive se almacena por defecto

A

EN EL WAREHOUSE DE HIVE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Al borrar una managed table se borran los metadatos de la tabla

A

EN EL METASTORE DE HIVE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Un regexSerde se puede aplicar al siguiente tipo de formato de almacenamiento:

A

TEXTFILE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

El formato PARQUET:

A

Es un formato orientado a COLUMNAS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Un nivel de partición es:

A

Un directorio de HDFS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Si quiero añadir una librería a Hive externa a Hive, tengo que ejecutar el comando

A

ADD JAR

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Si añadimos compresión a una tabla de Hive:,

A

“En general, empeora el rendimiento para formatos “no splittable, El tamaño de los ficheros en HDFS se reduce ,La compresión estará alineada con la forma en la que explotemos los datos.”

29
Q

Un proceso de Flume es un proceso,

A

real time

30
Q

¿Es coherente tener en un canal una capacity de 1000 y una transactionCapacity de 1000?

A

No

31
Q

¿Qué ocurre si conectas un sink a dos canales distintos?

A

Da un error de configuración y el agente no se lanza

32
Q

¿Flume usa YARN para la asignación de recursos?

A

No

33
Q

¿Cual es la propiedad que siempre tengo que configurar para los elementos de mi agente?

A

Type

34
Q

Un interceptor permite

A

“Filtrar eventos; Modificar el cuerpo de un evento; Enriquecer la cabecera de un evento”

35
Q

Si una fuente recibe 1000 eventos/s y cada evento es de 1Kb, ¿es correcto cerrar ficheros en HDFS cada 5 segundos?

A

“No, porque esto daría lugar a ficheros pequeños”

36
Q

Un canal en memoria respecto al que escribe en disco;

A

“Es más rápido; Si el agente se cae se pierden los eventos en el buffer; Es un elemento pasivo”

37
Q

Si en un sink de tipo HDFS configuro rollInterval=0, entonces:

A

Deshabilito el cierre de ficheros por tiempo

38
Q

Un elemento source puede estar conectada

A

A UNO O MAS CANALES

39
Q

El siguiente comando “kafka-consumer-offset-checker.sh –group consumer –zookeeper zktel”:

A

Chequea los offset de todos los topics a los que se ha conectado “consumer”

40
Q

En un cluster con 5 nodos de zookeeper, el máximo de nodos que se pueden caer para que pueda haber consenso es:

A

2

41
Q

En un cluster con 5 broker el máximo número de particiones por topic es de:

A

NO HAY LÍMITE

42
Q

En un cluster con 5 broker el máximo númeor de réplicas de un topic es de

A

5

43
Q

El topic tweets tiene 2 particiones y 3 réplicas:

A

Sólo se garantiza el orden de lectura a nivel de partición

44
Q

Tengo un cluster con 3 brokers. El topic tweets tiene 3 particiones y 2 réplicas. ¿Cuántas particiones hay en el cluster?

A

6

45
Q

Los offset de los consumidores se almacenan en las versiones nuevas de kafka en:

A

Los broker; Un topic llamado _consumer_offset; Fuera del zookeeper

46
Q

Que es kafka

A

Un bus de datos

47
Q

Spark permite un procesamiento

A

BATCH; STREAMING; CON MODELOS ANALÍTICOS

48
Q

Es spark lazy?

A

Spark es lazy porque eso le permite hacer optimizaciones

49
Q

El shuffling es un concepto de Spark:

A
  • Que se aplican a operaciones que se ejecutan para una misma key
  • Que genera movimiento de datos entre los nodos del cluster
  • Que se aplica en una operación de JOIN
50
Q

¿Cuál de estas operaciones es una acción?

A

TAKE (MAP, FLATMAP, FILTER)

51
Q

Cada base de datos en Hive se almacena como

A

UN DIRECTORIO

52
Q

]Los identificadores en HQL son:

A

Case Insensitive

53
Q

Si el esquema de la tabla no coincide con los tipos de datos presentes en los ficheros que contienen la tabla:

A

Da un error al lanzar cualquier query

54
Q

Si tenemos 7 nodos de zookeeper el número máximo de nodos que se pueden caer para que siga habiendo quorum es:

A

3

55
Q

Por defecto, ¿qué parte del mensaje se usa para determinar la partición en la que escribe un producer?

A

La key

56
Q

¿Cuál de las siguientes afirmaciones sobre el periodo de vida de un mensaje es correcta?

A

Un mensaje persiste hasta el periodo de retención definido

57
Q

¿Qué bases de datos relacionales soporta Sqoop?

A

SQL Server, MySQL, Oracle

58
Q

¿Qué dos tipos de import existen para importar datos?

A

Append y Last Modified

59
Q

Cuales son las dos funcionalidades de Sqoop

A

Import y Export

60
Q

Que es un import de Sqoop

A

Importa cada tabla desde un RDBMS a Hadoop (Cada fila es un registro en HDFS)

61
Q

Que es un export de Sqoop

A

Exporta los ficheros de Hadoop a tablas de un RDBMS (Cada registro de un fichero de HDFS sera una fila de la tabla en RDBMS)

62
Q

En sqoop por defecto que se escoge para hacer el split-by

A

La clave primaria

63
Q

Que utilizas en sqoop cuando te quieres traer datos de 2 tablas distintas

A

query

64
Q

En el caso de free-form query que calcula sqoop

A

el max(primaryKey) y el min(PrimaryKey)

65
Q

Que se puede hacer como alternativa del free-form query

A

Dar un boundary-query

66
Q

Almacena Sqoop el ultimo registro que copiamos a HDFS

A

Si

67
Q

Comando para listar jobs programados en sqoop

A

sqoop job –list

68
Q

Como vemos los detalles de un job programado en sqoop

A

sqoop job –show myjob

69
Q

Como ejecutas los jobs en sqoop

A

sqoop job –exec myjob