examen Flashcards by Raul Unknown

¿Que comando se utiliza para extraer datos de una tabla?

SELECT

How well did you know this?

Not at all

Perfectly

¿Que comando se utiliza para actualizar registros en una tabla?

UPDATE

How well did you know this?

Not at all

Perfectly

¿Que comando se usa para borrar registros en una tabla?

DELETE

How well did you know this?

Not at all

Perfectly

¿Cual de las siguientes sentencias selecciona todas las columnas de la tabla clientes?

SELECT * FROM clientes

How well did you know this?

Not at all

Perfectly

¿Cual selecciona todos los registros de la tabla clientes donde el valor de la columna nombre empieza por a?

SELECT * FROM clientes WHERE nombres like ‘a%’

How well did you know this?

Not at all

Perfectly

¿Que comando devuelve valores distintos?

SELECT DISTINCT

How well did you know this?

Not at all

Perfectly

¿Que comandos se usa para ordenar los resultados?

ORDER BY

How well did you know this?

Not at all

Perfectly

¿Que operador selecciona valores en un rango?

BETWEEN

How well did you know this?

Not at all

Perfectly

¿Que devuelve SELECT sum(a),b from table GROUP BY b?

Un registro con la suma de a para cada valor de b

How well did you know this?

Not at all

Perfectly

Sqoop puede tener como origen de datos:

“MySQL, HDFS o Hive”

How well did you know this?

Not at all

Perfectly

Que tipo de proceso es Sqoop?

Sqoop es un proceso BATCH

How well did you know this?

Not at all

Perfectly

Si ejecutamos un import a HDFS con un target-dir que ya existe previamente:

Da un error y no se lanza el job

How well did you know this?

Not at all

Perfectly

El número de map por defecto que se lanzan en un job es:

How well did you know this?

Not at all

Perfectly

Al hacer un import a HDFS de un JOIN de tablas si no especifico –split-by entonces el valor de –m tiene que ser:

How well did you know this?

Not at all

Perfectly

Sqoop es un proceso de la comunidad de

APACHE

How well did you know this?

Not at all

Perfectly

En el caso de lanzar un job de sqoop con 10 mappers se generarán:

Un número de ficheros dependiendo de los valores distintos de la columna del split-by

How well did you know this?

Not at all

Perfectly

Para poder usar la opción de incrementar append en sqoop la tabla origen tiene que tener:

Una columna incremental que se actualice en cada insert

How well did you know this?

Not at all

Perfectly

Donde se procesa cada split dedatos que genera Sqoop?

los procesa en HADOOP

How well did you know this?

Not at all

Perfectly

En el caso de ejecutar un job de Sqoop con 4 tareas map el numero de reducers será:

How well did you know this?

Not at all

Perfectly

Hive es una herramienta de procesamiento,

BATCH

How well did you know this?

Not at all

Perfectly

El lenguaje que se utiliza en Hive es:

HQL

How well did you know this?

Not at all

Perfectly

Una managed table de Hive se almacena por defecto

EN EL WAREHOUSE DE HIVE

How well did you know this?

Not at all

Perfectly

Al borrar una managed table se borran los metadatos de la tabla

EN EL METASTORE DE HIVE

How well did you know this?

Not at all

Perfectly

Un regexSerde se puede aplicar al siguiente tipo de formato de almacenamiento:

TEXTFILE

How well did you know this?

Not at all

Perfectly

El formato PARQUET:

Es un formato orientado a COLUMNAS

Un nivel de partición es:

Un directorio de HDFS

Si quiero añadir una librería a Hive externa a Hive, tengo que ejecutar el comando

ADD JAR

Si añadimos compresión a una tabla de Hive:,

"En general, empeora el rendimiento para formatos "no splittable, El tamaño de los ficheros en HDFS se reduce ,La compresión estará alineada con la forma en la que explotemos los datos."

Un proceso de Flume es un proceso,

real time

¿Es coherente tener en un canal una capacity de 1000 y una transactionCapacity de 1000?

¿Qué ocurre si conectas un sink a dos canales distintos?

Da un error de configuración y el agente no se lanza

¿Flume usa YARN para la asignación de recursos?

¿Cual es la propiedad que siempre tengo que configurar para los elementos de mi agente?

Type

Un interceptor permite

"Filtrar eventos; Modificar el cuerpo de un evento; Enriquecer la cabecera de un evento"

Si una fuente recibe 1000 eventos/s y cada evento es de 1Kb, ¿es correcto cerrar ficheros en HDFS cada 5 segundos?

"No, porque esto daría lugar a ficheros pequeños"

Un canal en memoria respecto al que escribe en disco;

"Es más rápido; Si el agente se cae se pierden los eventos en el buffer; Es un elemento pasivo"

Si en un sink de tipo HDFS configuro rollInterval=0, entonces:

Deshabilito el cierre de ficheros por tiempo

Un elemento source puede estar conectada

A UNO O MAS CANALES

El siguiente comando "kafka-consumer-offset-checker.sh --group consumer --zookeeper zktel":

Chequea los offset de todos los topics a los que se ha conectado "consumer"

En un cluster con 5 nodos de zookeeper, el máximo de nodos que se pueden caer para que pueda haber consenso es:

En un cluster con 5 broker el máximo número de particiones por topic es de:

NO HAY LÍMITE

En un cluster con 5 broker el máximo númeor de réplicas de un topic es de

El topic tweets tiene 2 particiones y 3 réplicas:

Sólo se garantiza el orden de lectura a nivel de partición

Tengo un cluster con 3 brokers. El topic tweets tiene 3 particiones y 2 réplicas. ¿Cuántas particiones hay en el cluster?

Los offset de los consumidores se almacenan en las versiones nuevas de kafka en:

Los broker; Un topic llamado _consumer_offset; Fuera del zookeeper

Que es kafka

Un bus de datos

Spark permite un procesamiento

BATCH; STREAMING; CON MODELOS ANALÍTICOS

Es spark lazy?

Spark es lazy porque eso le permite hacer optimizaciones

El shuffling es un concepto de Spark:

- Que se aplican a operaciones que se ejecutan para una misma key - Que genera movimiento de datos entre los nodos del cluster - Que se aplica en una operación de JOIN

¿Cuál de estas operaciones es una acción?

TAKE (MAP, FLATMAP, FILTER)

Cada base de datos en Hive se almacena como

UN DIRECTORIO

]Los identificadores en HQL son:

Case Insensitive

Si el esquema de la tabla no coincide con los tipos de datos presentes en los ficheros que contienen la tabla:

Da un error al lanzar cualquier query

Si tenemos 7 nodos de zookeeper el número máximo de nodos que se pueden caer para que siga habiendo quorum es:

Por defecto, ¿qué parte del mensaje se usa para determinar la partición en la que escribe un producer?

La key

¿Cuál de las siguientes afirmaciones sobre el periodo de vida de un mensaje es correcta?

Un mensaje persiste hasta el periodo de retención definido

¿Qué bases de datos relacionales soporta Sqoop?

SQL Server, MySQL, Oracle

¿Qué dos tipos de import existen para importar datos?

Append y Last Modified

Cuales son las dos funcionalidades de Sqoop

Import y Export

Que es un import de Sqoop

Importa cada tabla desde un RDBMS a Hadoop (Cada fila es un registro en HDFS)

Que es un export de Sqoop

Exporta los ficheros de Hadoop a tablas de un RDBMS (Cada registro de un fichero de HDFS sera una fila de la tabla en RDBMS)

En sqoop por defecto que se escoge para hacer el split-by

La clave primaria

Que utilizas en sqoop cuando te quieres traer datos de 2 tablas distintas

query

En el caso de free-form query que calcula sqoop

el max(primaryKey) y el min(PrimaryKey)

Que se puede hacer como alternativa del free-form query

Dar un boundary-query

Almacena Sqoop el ultimo registro que copiamos a HDFS

Comando para listar jobs programados en sqoop

sqoop job --list

Como vemos los detalles de un job programado en sqoop

sqoop job --show myjob

Como ejecutas los jobs en sqoop

sqoop job --exec myjob