examen Flashcards
¿Que comando se utiliza para extraer datos de una tabla?
SELECT
¿Que comando se utiliza para actualizar registros en una tabla?
UPDATE
¿Que comando se usa para borrar registros en una tabla?
DELETE
¿Cual de las siguientes sentencias selecciona todas las columnas de la tabla clientes?
SELECT * FROM clientes
¿Cual selecciona todos los registros de la tabla clientes donde el valor de la columna nombre empieza por a?
SELECT * FROM clientes WHERE nombres like ‘a%’
¿Que comando devuelve valores distintos?
SELECT DISTINCT
¿Que comandos se usa para ordenar los resultados?
ORDER BY
¿Que operador selecciona valores en un rango?
BETWEEN
¿Que devuelve SELECT sum(a),b from table GROUP BY b?
Un registro con la suma de a para cada valor de b
Sqoop puede tener como origen de datos:
“MySQL, HDFS o Hive”
Que tipo de proceso es Sqoop?
Sqoop es un proceso BATCH
Si ejecutamos un import a HDFS con un target-dir que ya existe previamente:
Da un error y no se lanza el job
El número de map por defecto que se lanzan en un job es:
4
Al hacer un import a HDFS de un JOIN de tablas si no especifico –split-by entonces el valor de –m tiene que ser:
1
Sqoop es un proceso de la comunidad de
APACHE
En el caso de lanzar un job de sqoop con 10 mappers se generarán:
Un número de ficheros dependiendo de los valores distintos de la columna del split-by
Para poder usar la opción de incrementar append en sqoop la tabla origen tiene que tener:
Una columna incremental que se actualice en cada insert
Donde se procesa cada split dedatos que genera Sqoop?
los procesa en HADOOP
En el caso de ejecutar un job de Sqoop con 4 tareas map el numero de reducers será:
0
Hive es una herramienta de procesamiento,
BATCH
El lenguaje que se utiliza en Hive es:
HQL
Una managed table de Hive se almacena por defecto
EN EL WAREHOUSE DE HIVE
Al borrar una managed table se borran los metadatos de la tabla
EN EL METASTORE DE HIVE
Un regexSerde se puede aplicar al siguiente tipo de formato de almacenamiento:
TEXTFILE
El formato PARQUET:
Es un formato orientado a COLUMNAS
Un nivel de partición es:
Un directorio de HDFS
Si quiero añadir una librería a Hive externa a Hive, tengo que ejecutar el comando
ADD JAR
Si añadimos compresión a una tabla de Hive:,
“En general, empeora el rendimiento para formatos “no splittable, El tamaño de los ficheros en HDFS se reduce ,La compresión estará alineada con la forma en la que explotemos los datos.”
Un proceso de Flume es un proceso,
real time
¿Es coherente tener en un canal una capacity de 1000 y una transactionCapacity de 1000?
No
¿Qué ocurre si conectas un sink a dos canales distintos?
Da un error de configuración y el agente no se lanza
¿Flume usa YARN para la asignación de recursos?
No
¿Cual es la propiedad que siempre tengo que configurar para los elementos de mi agente?
Type
Un interceptor permite
“Filtrar eventos; Modificar el cuerpo de un evento; Enriquecer la cabecera de un evento”
Si una fuente recibe 1000 eventos/s y cada evento es de 1Kb, ¿es correcto cerrar ficheros en HDFS cada 5 segundos?
“No, porque esto daría lugar a ficheros pequeños”
Un canal en memoria respecto al que escribe en disco;
“Es más rápido; Si el agente se cae se pierden los eventos en el buffer; Es un elemento pasivo”
Si en un sink de tipo HDFS configuro rollInterval=0, entonces:
Deshabilito el cierre de ficheros por tiempo
Un elemento source puede estar conectada
A UNO O MAS CANALES
El siguiente comando “kafka-consumer-offset-checker.sh –group consumer –zookeeper zktel”:
Chequea los offset de todos los topics a los que se ha conectado “consumer”
En un cluster con 5 nodos de zookeeper, el máximo de nodos que se pueden caer para que pueda haber consenso es:
2
En un cluster con 5 broker el máximo número de particiones por topic es de:
NO HAY LÍMITE
En un cluster con 5 broker el máximo númeor de réplicas de un topic es de
5
El topic tweets tiene 2 particiones y 3 réplicas:
Sólo se garantiza el orden de lectura a nivel de partición
Tengo un cluster con 3 brokers. El topic tweets tiene 3 particiones y 2 réplicas. ¿Cuántas particiones hay en el cluster?
6
Los offset de los consumidores se almacenan en las versiones nuevas de kafka en:
Los broker; Un topic llamado _consumer_offset; Fuera del zookeeper
Que es kafka
Un bus de datos
Spark permite un procesamiento
BATCH; STREAMING; CON MODELOS ANALÍTICOS
Es spark lazy?
Spark es lazy porque eso le permite hacer optimizaciones
El shuffling es un concepto de Spark:
- Que se aplican a operaciones que se ejecutan para una misma key
- Que genera movimiento de datos entre los nodos del cluster
- Que se aplica en una operación de JOIN
¿Cuál de estas operaciones es una acción?
TAKE (MAP, FLATMAP, FILTER)
Cada base de datos en Hive se almacena como
UN DIRECTORIO
]Los identificadores en HQL son:
Case Insensitive
Si el esquema de la tabla no coincide con los tipos de datos presentes en los ficheros que contienen la tabla:
Da un error al lanzar cualquier query
Si tenemos 7 nodos de zookeeper el número máximo de nodos que se pueden caer para que siga habiendo quorum es:
3
Por defecto, ¿qué parte del mensaje se usa para determinar la partición en la que escribe un producer?
La key
¿Cuál de las siguientes afirmaciones sobre el periodo de vida de un mensaje es correcta?
Un mensaje persiste hasta el periodo de retención definido
¿Qué bases de datos relacionales soporta Sqoop?
SQL Server, MySQL, Oracle
¿Qué dos tipos de import existen para importar datos?
Append y Last Modified
Cuales son las dos funcionalidades de Sqoop
Import y Export
Que es un import de Sqoop
Importa cada tabla desde un RDBMS a Hadoop (Cada fila es un registro en HDFS)
Que es un export de Sqoop
Exporta los ficheros de Hadoop a tablas de un RDBMS (Cada registro de un fichero de HDFS sera una fila de la tabla en RDBMS)
En sqoop por defecto que se escoge para hacer el split-by
La clave primaria
Que utilizas en sqoop cuando te quieres traer datos de 2 tablas distintas
query
En el caso de free-form query que calcula sqoop
el max(primaryKey) y el min(PrimaryKey)
Que se puede hacer como alternativa del free-form query
Dar un boundary-query
Almacena Sqoop el ultimo registro que copiamos a HDFS
Si
Comando para listar jobs programados en sqoop
sqoop job –list
Como vemos los detalles de un job programado en sqoop
sqoop job –show myjob
Como ejecutas los jobs en sqoop
sqoop job –exec myjob