Bloque 1. ¿Ciencia en los datos? Flashcards

1
Q

¿Cuáles son los materiales de estudio del bloque 1?

A
  • Los roles, ámbitos y nombres de la ciencia de datos de Marcal Mora.
  • Fundamentos de data science de Julia Minguillon
  • Organizaciones orientadas al dato de Josep Curto
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Indica el índice del tema Roles, ámbitos y nombres de la ciencia de datos

A
    1. Origen y evolución de la ciencia de datos
    1. El rol del científico de datos
    1. Ámbitos de la ciencia de datos
    1. Conceptos de ciencia de datos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Indica el contenido del apartado 1. Origen y evolución de la ciencia de datos

A
  • 1.1 Modelos estadísticos y minería de datos
  • 1.2 Inteligencia de negocio
  • 1.3 Internet y la web 2.0
  • 1.4 Ciencia de datos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Indica el contenido del apartado 2. El rol del científico de datos

A
  1. 1 ¿Qué es un científico de datos?
  2. 2¿Qué hace un científico de datos?
  3. 3 La caja de herramientas del científico de datos.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Indica el contenido del apartado 3. Ámbitos de la ciencia de datos

A
  1. 1 Marketing
  2. 2 Finanzas
  3. 3 Salud
  4. 4 Educación
  5. 5 IoT
  6. 6 Seguridad
  7. 7 Otros
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Indica el contenido del apartado 4. Conceptos de la ciencia de datos

A
  1. 1 Términos fundamentales
  2. 2 Campos de interés
  3. 3 Conceptos estadísticos
  4. 4 Procesos
  5. 5 Técnicas de aprendizaje automático
  6. 6 Software
  7. 7 Otros conceptos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definición de Business Intelligence de Marcal Mora

A

Las técnicas, sistemas, tecnologías, prácticas, aplicaciones y metodologías que sirven para extraer valor de los datos que, a su vez, consigan que el negocio (o la organización) tome decisiones más informadas y que, por lo tanto, tengan un retorno positivo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Indica la famosa cita de John Turkey en 1962 sobre la intersección entre la estadística y la computación

A

A medida que he visto evolucionar la estadística, he tenido motivos para reflexionar y dudar […] creo que he descubierto que mi interés principal es el análisis de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué libro publicó Peter Nauer en 1974?

A

Concise Survey of Computer Methods, que es un compendio de procesamiento de datos en múltiples aplicaciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Definición de Peter Nauer de Ciencia de Datos

A

La ciencia de trabajar con datos, una vez establecidos, mientras la relación de los datos con lo que representan se deja a otros campos y ciencias

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿En qué año se fundó la Asociación Internacional para la Estadística Computacional (IASC)?

A

1977

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Con qué objetivo se fundó la IASC?

A

Con el objetivo de enlazar las metodologías estadísticas tradicionales y la tecnología moderna que aportaban los ordenadores.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué explicaba Paul Tukey en 1977 en su libro Exploratory Data Analysis?

A

Destaca la importancia de aprovechar los datos para seleccionar las hipótesis en cualquier experimento, y hace también un llamamiento a combinar los enfoques exploratorios y confirmatorios en el análisis de datos para obtener mejores resultados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Cómo se denominada despectivamente en los 70 a la minería de datos?

A

Dragado de datos o pesca de datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cómo denominó Gregory Piatetsky-Shapiro la búsqueda de conocimiento en las bases de datos?

A

Knowledge discovery in Databases (KDD)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Como se llama la conferencia que organizada por primera vez en 1989 sobre KDD?

A

ACM SIGKDD Conference of Knowledge Discovery and Data Mining (KDD)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Cuáles son las principales diferencias según Fayad y otros entre la simple minería de datos y la obtención de información a partir de de base de datos?

A

La obtención de información a partir de base de datos implica pasos adicionales a la simple aplicación de una algoritmo, como la preparación de los datos, selección,
limpieza, incorporación de información otras fuentes e interpretación de los resultados de la minería de datos

18
Q

¿Qué propuso Jeff Wu en 1997 en su discurso de inicio de curso en la Univesidad de Michigan?

A

Cambiar el nombre de estadística por ciencia de datos, y el de estadístico por científico de datos.

19
Q

¿De quién es la frase que mejor refleja el paso al nuevo milenio en cuanto a los retos de la ciencia de datos?

A

Es de Jacob Zahavi en 1999, indica como principales retos la escalabilidad de los algoritmos en grandes conjuntos de datos, la necesidad de desarrollar algoritmos que puedan detectar relaciones no lineales e interacciones entre elementos, y la importancia de poder acceder a información en la web.

20
Q

¿A quién se suele atribuir la popularización del término ciencia de datos?

A

A DJ Patil y Jeff Hammerbacher de Linkedin y Facebook

21
Q

Resumen del punto 1.3 Internet y la web 2.0

A

A partir del año 2000 se produce la explosión de datos provocada por internet y las empresas se vuelcan en analizar esa información sobre la web y las interacciones de los usuarios, a finales de la década reaparecen las BBDD NoSQL.

22
Q

¿En qué año se considera el nacimiento de la actual ciencia de datos?

A

Principios de los 2010

23
Q

¿Cuáles son los principales factores que llevaron al auge de la ciencia de datos a principios de los 2010?

A
  • La existencia de datos masivos.
  • La aparición de arquitecturas de procesamiento distribuido como Hadoop y HDFS.
  • El llamado ataque de las exponenciales
24
Q

¿Qué es el ataque de los exponenciales?

A

Es la bajada exponencial de algunos parámetros críticos para el procesamiento masivo de información:

  • Bajada del coste de almacenamiento
  • Bajada del coste de CPU
  • Aumento del ancho de banda
  • Aumento de personas con acceso a internet
25
Q

¿Cómo definió Josh Wills de Slack a los científicos de datos?

A

Persona que es mejor en estadística que cualquier ingeniero de datos, y mejor ingeniero de datos que cualquier estadístico.

26
Q

¿Cuáles fueron los principales motivos para el aumento de la demanda de los científicos de datos?

A

Debido a la disponibilidad de grandes volúmenes de datos aparece la necesidad utilizarlos para ganar ventaja competitiva en el mundo de la empresa, con lo que surge la necesidad de contar con profesionales con un conjunto de habilidades y aptitudes que no existían

27
Q

¿Qué disciplinas debe dominar en profundidad un científico de datos?

A
  • Matemáticas y estadística
  • Ciencias de la computación y programación
  • Conocimientos de negocio
  • Comunicación
28
Q

¿Cuál es pues la diferencia entre un científico de datos y un analista de datos?

A

El analista de datos busca conclusiones y alertas sobre métricas que la compañía considera críticas, el científico de datos construye nuevos modelos y busca conocimiento sobre indicadores que la compañía todavía no sabe que son importantes.

29
Q

Indica los puntos en los que resumen el trabajo diario de un cinetíficos de datos

A
  1. Hacerse buenas preguntas
  2. Definir y poner a prueba hipótesis
  3. Extraer datos relevantes para el negocio
  4. Adaptar los datos
  5. Descubrir nuevos datos
  6. Modelar datos y algoritmos.
  7. Entender relaciones entre datos
  8. Aplicar aprendizaje automático
  9. Crear programas y productos que proporcionen conocimiento a la empresa.
  10. Explicar historias a partir de los datos.
30
Q

Indica los principales bloques de herramientas de un científico de datos según el Big Data Landscape

A
  • Herramientas de infraestructura
  • Herramientas de analítica
  • Open Source
  • Origenes de datos y APIS
  • Aplicaciones empresariales
31
Q

Indica ámbitos de aplicación de la ciencia de datos en Marketing

A
  1. Optimización de presupuestos.
  2. Segmentación.
  3. Retención
  4. Priorizar
  5. Redes sociales
32
Q

Indica ámbitos de aplicación de la ciencia de datos en Finanzas

A
  1. Riesgos
  2. Gestión de Datos
  3. Predicción
  4. Detección de fraude
  5. Análisis de clientes
  6. Inversión algorítmica
33
Q

Indica ámbitos de aplicación de la ciencia de datos en Salud

A
  • Wearables
  • Mejora de diagnósticos
  • Tratamientos personalizados
  • Investigación farmacéutica
  • Control de prescripciones
  • Reducción de costes
34
Q

Indica ámbitos de aplicación de la ciencia de datos en Educación

A
  • Predicción de rendimiento
  • Experiencia personalizada
  • Motivación
  • Iteración
  • Reducción del coste
35
Q

Indica ámbitos de aplicación de la ciencia de datos en IoT

A
  • Análisis de video
  • Móviles
  • Uso de productos
  • Datos de redes sociales
36
Q

Indica ámbitos de aplicación de la ciencia de datos en Seguridad

A
  • Entender forma de comunicarse de grupos terroristas para prevenir atentados.
  • Predicción de crímenes para enfocar recursos en zonas con más posibilidades.
37
Q

Indica Otros ámbitos de aplicación de la ciencia de datos

A
  • Búsquedas en internet
  • Anuncios
  • Sistemas de recomendación
  • Reconocimiento de imagen
  • Reconocimiento de voz
  • Videojuegos
  • Comparación de precios
  • Rutas aéreas
  • Logística
38
Q

¿Qué es un algoritmo?

A

Un algoritmo es un conjunto de instrucciones que se dan a un ordenador para que las ejecute

39
Q

¿Qué es lógica difusa?

A

Es una abstracción de la lógica booleana que asigna valores intermedios y que, por lo tanto, permite que una afirmación no tan solo sea cierta o falsa, sino que pueda ser un poco cierta o prácticamente falsa, por ejemplo.

40
Q

¿Qué es la regresión?

A

Es un problema de aprendizaje automático supervisado que se centra en explicar cómo cambia una variable numérica en función del resto.

41
Q

¿Qué es sobreentrenamiento?

A

En inglés overfitting, es lo que pasa cuando se proporciona información excesiva al modelo, que memoriza y no aprende. Memorizar implica que el modelo obtendrá resultados excelentes con los datos de entrenamiento, pero cuando se utilicen los datos de prueba (o una predicción real) se obtendrán resultados indeseados.

42
Q

¿Cuáles son los principales campos de interés de la ciencia de datos?

A
  • Análisis de datos
  • Business Intelligence
  • Data Engineering
  • Data journalism
  • Inteligencia artificial
  • Visualización de datos