AI, ML y Analítica Flashcards
¿Qué es Redshift?
Servicio de AWS para almacén de datos, es básicamente el servicio que permite almacenar una gran cantidad de datos con los que luego poder realizar operaciones de negocio para reportes y análisis.
Beneficios de Redshift
- Es una solución de almacén de datos totalmente gestionable
- Permite MPP (Massive Parallel Processing) - permite realizar queries complejas de forma paralela.
- Gestión de datos automática - Backup, replicación y escalado sin downtime.
- Diseñado para OLAP (Online Analytical Processing) - Buena solución para análisis y reporte
¿Qué es Redshift Serverless?
Versión de Redshift serverless, de forma que no se tiene que gestionar la infraestructura que hay por debajo para la solución.
¿Qué es Kinesis?
Familia se servicios de AWS para recolectar, procesar y analizar datos en streaming. Como puede ser reportes de IoT, información de finanzas o acciones.
¿Que tipos hay de Kinesis Streams?
- Data streams - Para el streaming de datos.
- Video streams - Para el streaming de video.
¿Que es Kinesis Firehose?
Servicio de AWS de la familia Kinesis que permite recolectar, transformar y almacenar datos en streaming (realizar ETL) .
Beneficios de usar Kinesis Firehose
- Se ajusta de forma dinámica según el volumen de datos.
- Procesa y envía la información antes de 60 segundos para mantener el tiempo real.
- Se puede transformar los datos con Lambda.
- Monitorización integrada con Cloudwatch y reintentos por error.
¿En qué se diferencia Kinesis Firehose y Kinesis streams?
- Firehose no tiene retención de ningún tipo mientras que Streams tiene los shards para almacenar la información 24 horas.
- Firehose se usa cuando se requiere una transformación de los datos que se recolecta.
¿Qué es Amazon Athena?
Servicio de AWS que permite lanzar queries SQL contra información que se encuentra en S3. Es un servicio serverless por lo que no hay que configurar nada, únicamente se paga por query y TB de datos obtenidos. Casos de uso serían analizar logs que estén en S3, analizar el uso y coste de la infra o generar reportes.
¿Qué es Amazon Glue?
Servicio de AWS que sirve para realizar operaciones de ETL usando varios puntos de origen de datos para tareas de análisis y ML. Genera un catálogo de datos donde registra metadatos de los datos (tipo, formato, etc) para luego poder extraer información de un origen, transformarla (enriquecerla, eliminar duplicados, anonimizarlo) y guardarlo en una solución de almacén de datos como S3, Redshift, RDS o Athena.
¿Qué es Amazon Data exchange?
Servicio de AWS que permite intercambiar y hacer uso de datasets de terceros usando un modelo de subscripción, de forma que se puede obtener información de campos como finanzas, medicina, GPS de forma anómima para usarlo en ML, análisis y toma de decisiones.
¿Qué es Amazon Elastic Map Reduce (EMR) ?
Servicio de AWS de Big Data gestionado que permite realizar operaciones de análisis complejo y paralelo sobre PB de datos ya sean estructurados, semiestructurados o no estructurados. Además soporta soluciones OpenSource como Hadoop, Apache Spark y Hive y Presto.
¿Qué es Amazon Open search?
Servicio de AWS que ofrece un Elastic Search gestionado que permite analizar gran cantidad de datos para toma de decisiones, normalmente para análisis de logs generados. Se puede conectar a soluciones de inserto de logs como Logstash y de visualización de estos como Kibana, pero también se puede generar logs desde Cloudwatch, Firehose o Lambda (generando logs sobre otros servicios).
¿Qué es Amazon Quicksight?
Servicio de AWS que ofrece un analizador de mercado como SaaS permitiendo cargar datos tanto de AWS como On premise y generar todo tipo de diagramas en los dashboard que se creen.
Posibles casos de uso para Quicksight
- Análisis del mercado sobre qué productos se consumen más o qué modas existen.
- Análisis de la aplicación para comprobar cuántas peticiones llegan en qué horario o cuántos usuarios máximos se registran.
- Análisis de marketing para posibles campañas.