Extended_Flashcards_Data_Science
Pregunta
Respuesta
¿Qué es la covarianza?
La covarianza es una medida que indica la dirección de la relación lineal entre dos variables. Valores positivos indican una relación directa; valores negativos, una inversa.
Diferencia entre Machine Learning y Deep Learning
Machine Learning es un campo de AI que permite a los sistemas aprender de la experiencia sin programación explícita. Deep Learning es un subcampo que utiliza redes neuronales profundas para aprender de grandes volúmenes de datos.
¿Qué implica la adquisición de datos en la ciencia de datos?
La adquisición de datos en la ciencia de datos implica recopilar información de múltiples fuentes para su análisis, y varía según la fuente y el tipo de datos.
Explique qué son los datos abiertos y su importancia
Los datos abiertos son datos públicos disponibles para ser utilizados, reutilizados y redistribuidos por cualquiera, ayudando a promover la transparencia y el desarrollo de soluciones innovadoras.
Mencione algunos tipos de bases de datos y sus características
Tipos de bases de datos incluyen Relacionales (almacenan datos en tablas interconectadas), No Relacionales (almacenamiento más flexible), y Bases de Datos de Grafos (útiles para analizar relaciones complejas).
¿Qué es la varianza y cómo se relaciona con la desviación estándar?
La varianza es el promedio de los cuadrados de las diferencias entre cada observación y la media. La desviación estándar es la raíz cuadrada de la varianza, proporcionando una medida de dispersión.
Describa la regla empírica en estadística
La regla empírica, o regla 68-95-99.7, establece que aproximadamente 68% de los datos caen dentro de 1 desviación estándar de la media, 95% dentro de 2, y 99.7% dentro de 3.
¿Qué es un Boxplot y qué representa?
Un Boxplot o diagrama de caja muestra la distribución de datos numéricos a través de cuartiles, resaltando medianas y valores atípicos.
Describa el proceso de Web Scraping
Web Scraping es el proceso de extracción de datos específicos de sitios web, transformando datos no estructurados en estructurados.
¿Cómo se utiliza la visualización de datos en la fase de comprensión?
La visualización de datos convierte conjuntos de datos complejos en gráficos que facilitan la observación de tendencias y patrones, crucial en la comprensión de los datos.
¿Qué es un histograma y para qué se usa?
Un histograma es un gráfico que muestra la distribución de frecuencias de datos numéricos, útil para entender la dispersión y centralidad de los datos.
Explique el uso de mapas de calor en la visualización de datos
Los mapas de calor utilizan colores para representar magnitudes de datos en matrices, útiles para visualizar complejidades como la actividad de usuarios por tiempo y día.
¿Qué es la normalización de datos y por qué es importante?
La normalización ajusta la escala de los datos para asegurar que las variables se midan a escalas comparables, crucial para muchos algoritmos de análisis.
Mencione las fases de la metodología CRISP-DM
Las fases de CRISP-DM incluyen entendimiento del negocio, de los datos, preparación de los datos, modelado, evaluación y despliegue.
¿Qué desafíos se enfrentan en la adquisición de datos?
Los desafíos en la adquisición de datos incluyen acceso restringido a datos, problemas de formato, y garantizar que los datos recopilados sean reutilizables.
¿Qué es un gráfico de control y cómo se utiliza?
Un gráfico de control es utilizado en el control de procesos para monitorear datos y detectar variaciones que indican problemas.
Importancia de la calidad de los datos en análisis
La calidad de los datos asegura análisis precisos y confiables, afectando directamente la validez de los resultados de análisis.
¿Qué es el Data Profiling y qué problemas ayuda a resolver?
Data Profiling examina y resume estadísticamente los datos, identificando problemas como valores duplicados o faltantes, crucial para la calidad del análisis.
Explicar el concepto y uso del Data Mining
Data Mining es el proceso de descubrir patrones y conocimientos en grandes conjuntos de datos utilizando técnicas de estadísticas y machine learning.
Definir el término ‘Big Data’ y su relevancia
Big Data se refiere a conjuntos de datos tan grandes o complejos que requieren tecnologías avanzadas para su procesamiento eficaz.
Características de los datos estructurados
Datos estructurados están organizados en un formato definido, lo que facilita su almacenamiento, búsqueda y análisis.
Diferencias entre datos transaccionales y operativos
Los datos transaccionales registran transacciones, mientras que los operativos incluyen datos que son necesarios para el funcionamiento diario de una empresa.
¿Cómo afectan los metadatos erróneos el análisis de datos?
Metadatos erróneos pueden llevar a interpretaciones equivocadas de los datos, afectando la calidad y eficacia del análisis.
Importancia del entendimiento del negocio en la ciencia de datos
Comprender el negocio es crucial en la ciencia de datos para formular correctamente problemas y traducirlos en análisis.
¿Qué es un gráfico radar y cuándo se utiliza?
Un gráfico radar compara múltiples variables cuantitativas para mostrar fortalezas y debilidades en varios campos simultáneamente.
¿Cómo se calcula la media ponderada?
La media ponderada se calcula multiplicando cada valor por su peso o importancia y dividiendo la suma de estos productos por la suma de los pesos.
Describir el método de muestra aleatoria
Una muestra aleatoria se selecciona de manera que cada elemento tiene la misma probabilidad de ser elegido, asegurando que la muestra sea representativa.
¿Qué son las variables categóricas y numéricas?
Variables categóricas representan grupos o categorías, mientras que las numéricas representan valores que pueden ser contados o medidos.
Mencione herramientas utilizadas en la preparación de datos
Herramientas como Pandas en Python son utilizadas para manipular datos y prepararlos para análisis, facilitando tareas como la visualización y el manejo de datos.
¿Qué es un gráfico de dispersión y qué muestra?
Un gráfico de dispersión muestra la relación entre dos variables cuantitativas, útil para identificar correlaciones y tendencias.
Explique qué es un API y su uso en la ciencia de datos
Un API es una interfaz que permite la recuperación automatizada de datos de servicios en línea, facilitando la integración de datos en aplicaciones.
¿Cuáles son las ventajas de utilizar gráficos de barras?
Gráficos de barras son utilizados para comparar cantidades en diferentes categorías, proporcionando una visualización clara de las diferencias.
Describa el impacto de la inteligencia artificial en la ciencia de datos
La inteligencia artificial impacta la ciencia de datos al proporcionar métodos avanzados para análisis y modelado de datos, mejorando la automatización y la precisión.
Ejemplos de cómo la ciencia de datos se aplica en el marketing
En marketing, la ciencia de datos se aplica para optimizar campañas y personalizar ofertas, analizando comportamientos y preferencias de consumidores.
¿Qué información proporciona un gráfico de torta?
Un gráfico de torta muestra proporciones de categorías dentro de un total, utilizado para representar distribuciones porcentuales.