Extended_Flashcards_Data_Science
Pregunta
Respuesta
¿Qué es la covarianza?
La covarianza es una medida que indica la dirección de la relación lineal entre dos variables. Valores positivos indican una relación directa; valores negativos, una inversa.
Diferencia entre Machine Learning y Deep Learning
Machine Learning es un campo de AI que permite a los sistemas aprender de la experiencia sin programación explícita. Deep Learning es un subcampo que utiliza redes neuronales profundas para aprender de grandes volúmenes de datos.
¿Qué implica la adquisición de datos en la ciencia de datos?
La adquisición de datos en la ciencia de datos implica recopilar información de múltiples fuentes para su análisis, y varía según la fuente y el tipo de datos.
Explique qué son los datos abiertos y su importancia
Los datos abiertos son datos públicos disponibles para ser utilizados, reutilizados y redistribuidos por cualquiera, ayudando a promover la transparencia y el desarrollo de soluciones innovadoras.
Mencione algunos tipos de bases de datos y sus características
Tipos de bases de datos incluyen Relacionales (almacenan datos en tablas interconectadas), No Relacionales (almacenamiento más flexible), y Bases de Datos de Grafos (útiles para analizar relaciones complejas).
¿Qué es la varianza y cómo se relaciona con la desviación estándar?
La varianza es el promedio de los cuadrados de las diferencias entre cada observación y la media. La desviación estándar es la raíz cuadrada de la varianza, proporcionando una medida de dispersión.
Describa la regla empírica en estadística
La regla empírica, o regla 68-95-99.7, establece que aproximadamente 68% de los datos caen dentro de 1 desviación estándar de la media, 95% dentro de 2, y 99.7% dentro de 3.
¿Qué es un Boxplot y qué representa?
Un Boxplot o diagrama de caja muestra la distribución de datos numéricos a través de cuartiles, resaltando medianas y valores atípicos.
Describa el proceso de Web Scraping
Web Scraping es el proceso de extracción de datos específicos de sitios web, transformando datos no estructurados en estructurados.
¿Cómo se utiliza la visualización de datos en la fase de comprensión?
La visualización de datos convierte conjuntos de datos complejos en gráficos que facilitan la observación de tendencias y patrones, crucial en la comprensión de los datos.
¿Qué es un histograma y para qué se usa?
Un histograma es un gráfico que muestra la distribución de frecuencias de datos numéricos, útil para entender la dispersión y centralidad de los datos.
Explique el uso de mapas de calor en la visualización de datos
Los mapas de calor utilizan colores para representar magnitudes de datos en matrices, útiles para visualizar complejidades como la actividad de usuarios por tiempo y día.
¿Qué es la normalización de datos y por qué es importante?
La normalización ajusta la escala de los datos para asegurar que las variables se midan a escalas comparables, crucial para muchos algoritmos de análisis.
Mencione las fases de la metodología CRISP-DM
Las fases de CRISP-DM incluyen entendimiento del negocio, de los datos, preparación de los datos, modelado, evaluación y despliegue.