Bloque 1. ¿Ciencia en los datos? Flashcards
¿Cuáles son los materiales de estudio del bloque 1?
- Los roles, ámbitos y nombres de la ciencia de datos de Marcal Mora.
- Fundamentos de data science de Julia Minguillon
- Organizaciones orientadas al dato de Josep Curto
Indica el índice del tema Roles, ámbitos y nombres de la ciencia de datos
- Origen y evolución de la ciencia de datos
- El rol del científico de datos
- Ámbitos de la ciencia de datos
- Conceptos de ciencia de datos
Indica el contenido del apartado 1. Origen y evolución de la ciencia de datos
- 1.1 Modelos estadísticos y minería de datos
- 1.2 Inteligencia de negocio
- 1.3 Internet y la web 2.0
- 1.4 Ciencia de datos
Indica el contenido del apartado 2. El rol del científico de datos
- 1 ¿Qué es un científico de datos?
- 2¿Qué hace un científico de datos?
- 3 La caja de herramientas del científico de datos.
Indica el contenido del apartado 3. Ámbitos de la ciencia de datos
- 1 Marketing
- 2 Finanzas
- 3 Salud
- 4 Educación
- 5 IoT
- 6 Seguridad
- 7 Otros
Indica el contenido del apartado 4. Conceptos de la ciencia de datos
- 1 Términos fundamentales
- 2 Campos de interés
- 3 Conceptos estadísticos
- 4 Procesos
- 5 Técnicas de aprendizaje automático
- 6 Software
- 7 Otros conceptos
Definición de Business Intelligence de Marcal Mora
Las técnicas, sistemas, tecnologías, prácticas, aplicaciones y metodologías que sirven para extraer valor de los datos que, a su vez, consigan que el negocio (o la organización) tome decisiones más informadas y que, por lo tanto, tengan un retorno positivo.
Indica la famosa cita de John Turkey en 1962 sobre la intersección entre la estadística y la computación
A medida que he visto evolucionar la estadística, he tenido motivos para reflexionar y dudar […] creo que he descubierto que mi interés principal es el análisis de datos.
¿Qué libro publicó Peter Nauer en 1974?
Concise Survey of Computer Methods, que es un compendio de procesamiento de datos en múltiples aplicaciones.
Definición de Peter Nauer de Ciencia de Datos
La ciencia de trabajar con datos, una vez establecidos, mientras la relación de los datos con lo que representan se deja a otros campos y ciencias
¿En qué año se fundó la Asociación Internacional para la Estadística Computacional (IASC)?
1977
¿Con qué objetivo se fundó la IASC?
Con el objetivo de enlazar las metodologías estadísticas tradicionales y la tecnología moderna que aportaban los ordenadores.
¿Qué explicaba Paul Tukey en 1977 en su libro Exploratory Data Analysis?
Destaca la importancia de aprovechar los datos para seleccionar las hipótesis en cualquier experimento, y hace también un llamamiento a combinar los enfoques exploratorios y confirmatorios en el análisis de datos para obtener mejores resultados.
¿Cómo se denominada despectivamente en los 70 a la minería de datos?
Dragado de datos o pesca de datos.
¿Cómo denominó Gregory Piatetsky-Shapiro la búsqueda de conocimiento en las bases de datos?
Knowledge discovery in Databases (KDD)
¿Como se llama la conferencia que organizada por primera vez en 1989 sobre KDD?
ACM SIGKDD Conference of Knowledge Discovery and Data Mining (KDD)
¿Cuáles son las principales diferencias según Fayad y otros entre la simple minería de datos y la obtención de información a partir de de base de datos?
La obtención de información a partir de base de datos implica pasos adicionales a la simple aplicación de una algoritmo, como la preparación de los datos, selección,
limpieza, incorporación de información otras fuentes e interpretación de los resultados de la minería de datos
¿Qué propuso Jeff Wu en 1997 en su discurso de inicio de curso en la Univesidad de Michigan?
Cambiar el nombre de estadística por ciencia de datos, y el de estadístico por científico de datos.
¿De quién es la frase que mejor refleja el paso al nuevo milenio en cuanto a los retos de la ciencia de datos?
Es de Jacob Zahavi en 1999, indica como principales retos la escalabilidad de los algoritmos en grandes conjuntos de datos, la necesidad de desarrollar algoritmos que puedan detectar relaciones no lineales e interacciones entre elementos, y la importancia de poder acceder a información en la web.
¿A quién se suele atribuir la popularización del término ciencia de datos?
A DJ Patil y Jeff Hammerbacher de Linkedin y Facebook
Resumen del punto 1.3 Internet y la web 2.0
A partir del año 2000 se produce la explosión de datos provocada por internet y las empresas se vuelcan en analizar esa información sobre la web y las interacciones de los usuarios, a finales de la década reaparecen las BBDD NoSQL.
¿En qué año se considera el nacimiento de la actual ciencia de datos?
Principios de los 2010
¿Cuáles son los principales factores que llevaron al auge de la ciencia de datos a principios de los 2010?
- La existencia de datos masivos.
- La aparición de arquitecturas de procesamiento distribuido como Hadoop y HDFS.
- El llamado ataque de las exponenciales
¿Qué es el ataque de los exponenciales?
Es la bajada exponencial de algunos parámetros críticos para el procesamiento masivo de información:
- Bajada del coste de almacenamiento
- Bajada del coste de CPU
- Aumento del ancho de banda
- Aumento de personas con acceso a internet
¿Cómo definió Josh Wills de Slack a los científicos de datos?
Persona que es mejor en estadística que cualquier ingeniero de datos, y mejor ingeniero de datos que cualquier estadístico.
¿Cuáles fueron los principales motivos para el aumento de la demanda de los científicos de datos?
Debido a la disponibilidad de grandes volúmenes de datos aparece la necesidad utilizarlos para ganar ventaja competitiva en el mundo de la empresa, con lo que surge la necesidad de contar con profesionales con un conjunto de habilidades y aptitudes que no existían
¿Qué disciplinas debe dominar en profundidad un científico de datos?
- Matemáticas y estadística
- Ciencias de la computación y programación
- Conocimientos de negocio
- Comunicación
¿Cuál es pues la diferencia entre un científico de datos y un analista de datos?
El analista de datos busca conclusiones y alertas sobre métricas que la compañía considera críticas, el científico de datos construye nuevos modelos y busca conocimiento sobre indicadores que la compañía todavía no sabe que son importantes.
Indica los puntos en los que resumen el trabajo diario de un cinetíficos de datos
- Hacerse buenas preguntas
- Definir y poner a prueba hipótesis
- Extraer datos relevantes para el negocio
- Adaptar los datos
- Descubrir nuevos datos
- Modelar datos y algoritmos.
- Entender relaciones entre datos
- Aplicar aprendizaje automático
- Crear programas y productos que proporcionen conocimiento a la empresa.
- Explicar historias a partir de los datos.
Indica los principales bloques de herramientas de un científico de datos según el Big Data Landscape
- Herramientas de infraestructura
- Herramientas de analítica
- Open Source
- Origenes de datos y APIS
- Aplicaciones empresariales
Indica ámbitos de aplicación de la ciencia de datos en Marketing
- Optimización de presupuestos.
- Segmentación.
- Retención
- Priorizar
- Redes sociales
Indica ámbitos de aplicación de la ciencia de datos en Finanzas
- Riesgos
- Gestión de Datos
- Predicción
- Detección de fraude
- Análisis de clientes
- Inversión algorítmica
Indica ámbitos de aplicación de la ciencia de datos en Salud
- Wearables
- Mejora de diagnósticos
- Tratamientos personalizados
- Investigación farmacéutica
- Control de prescripciones
- Reducción de costes
Indica ámbitos de aplicación de la ciencia de datos en Educación
- Predicción de rendimiento
- Experiencia personalizada
- Motivación
- Iteración
- Reducción del coste
Indica ámbitos de aplicación de la ciencia de datos en IoT
- Análisis de video
- Móviles
- Uso de productos
- Datos de redes sociales
Indica ámbitos de aplicación de la ciencia de datos en Seguridad
- Entender forma de comunicarse de grupos terroristas para prevenir atentados.
- Predicción de crímenes para enfocar recursos en zonas con más posibilidades.
Indica Otros ámbitos de aplicación de la ciencia de datos
- Búsquedas en internet
- Anuncios
- Sistemas de recomendación
- Reconocimiento de imagen
- Reconocimiento de voz
- Videojuegos
- Comparación de precios
- Rutas aéreas
- Logística
¿Qué es un algoritmo?
Un algoritmo es un conjunto de instrucciones que se dan a un ordenador para que las ejecute
¿Qué es lógica difusa?
Es una abstracción de la lógica booleana que asigna valores intermedios y que, por lo tanto, permite que una afirmación no tan solo sea cierta o falsa, sino que pueda ser un poco cierta o prácticamente falsa, por ejemplo.
¿Qué es la regresión?
Es un problema de aprendizaje automático supervisado que se centra en explicar cómo cambia una variable numérica en función del resto.
¿Qué es sobreentrenamiento?
En inglés overfitting, es lo que pasa cuando se proporciona información excesiva al modelo, que memoriza y no aprende. Memorizar implica que el modelo obtendrá resultados excelentes con los datos de entrenamiento, pero cuando se utilicen los datos de prueba (o una predicción real) se obtendrán resultados indeseados.
¿Cuáles son los principales campos de interés de la ciencia de datos?
- Análisis de datos
- Business Intelligence
- Data Engineering
- Data journalism
- Inteligencia artificial
- Visualización de datos