Extended_Flashcards_Data_Science Flashcards by Facundo Suarez

Pregunta

Respuesta

How well did you know this?

Not at all

Perfectly

¿Qué es la covarianza?

La covarianza es una medida que indica la dirección de la relación lineal entre dos variables. Valores positivos indican una relación directa; valores negativos, una inversa.

How well did you know this?

Not at all

Perfectly

Diferencia entre Machine Learning y Deep Learning

Machine Learning es un campo de AI que permite a los sistemas aprender de la experiencia sin programación explícita. Deep Learning es un subcampo que utiliza redes neuronales profundas para aprender de grandes volúmenes de datos.

How well did you know this?

Not at all

Perfectly

¿Qué implica la adquisición de datos en la ciencia de datos?

La adquisición de datos en la ciencia de datos implica recopilar información de múltiples fuentes para su análisis, y varía según la fuente y el tipo de datos.

How well did you know this?

Not at all

Perfectly

Explique qué son los datos abiertos y su importancia

Los datos abiertos son datos públicos disponibles para ser utilizados, reutilizados y redistribuidos por cualquiera, ayudando a promover la transparencia y el desarrollo de soluciones innovadoras.

How well did you know this?

Not at all

Perfectly

Mencione algunos tipos de bases de datos y sus características

Tipos de bases de datos incluyen Relacionales (almacenan datos en tablas interconectadas), No Relacionales (almacenamiento más flexible), y Bases de Datos de Grafos (útiles para analizar relaciones complejas).

How well did you know this?

Not at all

Perfectly

¿Qué es la varianza y cómo se relaciona con la desviación estándar?

La varianza es el promedio de los cuadrados de las diferencias entre cada observación y la media. La desviación estándar es la raíz cuadrada de la varianza, proporcionando una medida de dispersión.

How well did you know this?

Not at all

Perfectly

Describa la regla empírica en estadística

La regla empírica, o regla 68-95-99.7, establece que aproximadamente 68% de los datos caen dentro de 1 desviación estándar de la media, 95% dentro de 2, y 99.7% dentro de 3.

How well did you know this?

Not at all

Perfectly

¿Qué es un Boxplot y qué representa?

Un Boxplot o diagrama de caja muestra la distribución de datos numéricos a través de cuartiles, resaltando medianas y valores atípicos.

How well did you know this?

Not at all

Perfectly

Describa el proceso de Web Scraping

Web Scraping es el proceso de extracción de datos específicos de sitios web, transformando datos no estructurados en estructurados.

How well did you know this?

Not at all

Perfectly

¿Cómo se utiliza la visualización de datos en la fase de comprensión?

La visualización de datos convierte conjuntos de datos complejos en gráficos que facilitan la observación de tendencias y patrones, crucial en la comprensión de los datos.

How well did you know this?

Not at all

Perfectly

¿Qué es un histograma y para qué se usa?

Un histograma es un gráfico que muestra la distribución de frecuencias de datos numéricos, útil para entender la dispersión y centralidad de los datos.

How well did you know this?

Not at all

Perfectly

Explique el uso de mapas de calor en la visualización de datos

Los mapas de calor utilizan colores para representar magnitudes de datos en matrices, útiles para visualizar complejidades como la actividad de usuarios por tiempo y día.

How well did you know this?

Not at all

Perfectly

¿Qué es la normalización de datos y por qué es importante?

La normalización ajusta la escala de los datos para asegurar que las variables se midan a escalas comparables, crucial para muchos algoritmos de análisis.

How well did you know this?

Not at all

Perfectly

Mencione las fases de la metodología CRISP-DM

Las fases de CRISP-DM incluyen entendimiento del negocio, de los datos, preparación de los datos, modelado, evaluación y despliegue.

How well did you know this?

Not at all

Perfectly

¿Qué desafíos se enfrentan en la adquisición de datos?

Study These Flashcards

Los desafíos en la adquisición de datos incluyen acceso restringido a datos, problemas de formato, y garantizar que los datos recopilados sean reutilizables.

¿Qué es un gráfico de control y cómo se utiliza?

Study These Flashcards

Un gráfico de control es utilizado en el control de procesos para monitorear datos y detectar variaciones que indican problemas.

Importancia de la calidad de los datos en análisis

Study These Flashcards

La calidad de los datos asegura análisis precisos y confiables, afectando directamente la validez de los resultados de análisis.

¿Qué es el Data Profiling y qué problemas ayuda a resolver?

Study These Flashcards

Data Profiling examina y resume estadísticamente los datos, identificando problemas como valores duplicados o faltantes, crucial para la calidad del análisis.

Explicar el concepto y uso del Data Mining

Study These Flashcards

Data Mining es el proceso de descubrir patrones y conocimientos en grandes conjuntos de datos utilizando técnicas de estadísticas y machine learning.

Definir el término ‘Big Data’ y su relevancia

Study These Flashcards

Big Data se refiere a conjuntos de datos tan grandes o complejos que requieren tecnologías avanzadas para su procesamiento eficaz.

Características de los datos estructurados

Study These Flashcards

Datos estructurados están organizados en un formato definido, lo que facilita su almacenamiento, búsqueda y análisis.

Diferencias entre datos transaccionales y operativos

Study These Flashcards

Los datos transaccionales registran transacciones, mientras que los operativos incluyen datos que son necesarios para el funcionamiento diario de una empresa.

¿Cómo afectan los metadatos erróneos el análisis de datos?

Study These Flashcards

Metadatos erróneos pueden llevar a interpretaciones equivocadas de los datos, afectando la calidad y eficacia del análisis.

Importancia del entendimiento del negocio en la ciencia de datos

Comprender el negocio es crucial en la ciencia de datos para formular correctamente problemas y traducirlos en análisis.

¿Qué es un gráfico radar y cuándo se utiliza?

Un gráfico radar compara múltiples variables cuantitativas para mostrar fortalezas y debilidades en varios campos simultáneamente.

¿Cómo se calcula la media ponderada?

La media ponderada se calcula multiplicando cada valor por su peso o importancia y dividiendo la suma de estos productos por la suma de los pesos.

Describir el método de muestra aleatoria

Una muestra aleatoria se selecciona de manera que cada elemento tiene la misma probabilidad de ser elegido, asegurando que la muestra sea representativa.

¿Qué son las variables categóricas y numéricas?

Variables categóricas representan grupos o categorías, mientras que las numéricas representan valores que pueden ser contados o medidos.

Mencione herramientas utilizadas en la preparación de datos

Herramientas como Pandas en Python son utilizadas para manipular datos y prepararlos para análisis, facilitando tareas como la visualización y el manejo de datos.

¿Qué es un gráfico de dispersión y qué muestra?

Un gráfico de dispersión muestra la relación entre dos variables cuantitativas, útil para identificar correlaciones y tendencias.

Explique qué es un API y su uso en la ciencia de datos

Un API es una interfaz que permite la recuperación automatizada de datos de servicios en línea, facilitando la integración de datos en aplicaciones.

¿Cuáles son las ventajas de utilizar gráficos de barras?

Gráficos de barras son utilizados para comparar cantidades en diferentes categorías, proporcionando una visualización clara de las diferencias.

Describa el impacto de la inteligencia artificial en la ciencia de datos

La inteligencia artificial impacta la ciencia de datos al proporcionar métodos avanzados para análisis y modelado de datos, mejorando la automatización y la precisión.

Ejemplos de cómo la ciencia de datos se aplica en el marketing

En marketing, la ciencia de datos se aplica para optimizar campañas y personalizar ofertas, analizando comportamientos y preferencias de consumidores.

¿Qué información proporciona un gráfico de torta?

Un gráfico de torta muestra proporciones de categorías dentro de un total, utilizado para representar distribuciones porcentuales.

Extended_Flashcards_Data_Science

(36 cards)