Preparación de datos Flashcards
Aplicar técnicas de preparación de datos para manejar valores faltantes y subconjuntos de datos
¿Cuál es el proceso que precede a la preparación de los datos?
Inspección de datos
¿Cuáles suelen ser las estrategias para dar manejo a los datos faltantes?
Omisión e imputación de datos
¿Con qué otro nombre se le conoce a la estrategia de omisión de datos?
Análisis de caso completo
¿En que consiste la estrategia de omisión de datos?
esta recomienda que las observaciones con valores perdidos se excluyan del análisis
¿Cuáles son las tareas más relevantes que se realizan en la preparación de los datos?
Manejo de valores faltantes.
Manejo de valores atípicos
Subconjuntos de datos.
¿Cuáles son los efectos indeseables que pueden producir los datos faltantes?
- Pérdida de potencia estadística en el análisis a realizar con esos datos.
- Puede introducir sesgos en el estudio.
¿De acuerdo al material estudiado. Cuántas pueden ser la posibles causas de datos faltantes?
Jaggia, S., Kelly, A., Lertwachara, K., Chen, L.(2023). Analítica de Negocios. McGraw-Hill Interamericana. https://recursosdigitales.usb.edu.co:2168/?il=26249
Pueden ser cinco (5) causas
De acuerdo con el material estudiado ¿Cuáles son las causas de datos faltantes en un conjunto de datos?
Jaggia, S., Kelly, A., Lertwachara, K., Chen, L.(2023). Analítica de Negocios. McGraw-Hill Interamericana.
- Encuestados que se niegan a proporcionar la información debido a su naturaleza confidencial.
- Algunos elementos de una encuesta no aplican a todos los encuestados.
- Errores humanos en recopilación o tabulación de los datos.
- Fallas en el equipo de medición.
- Fallas en el procedimiento de recopilación.
¿Qué son datos atípicos?
Son valores extremadamente pequeños o grandes, en relación al dominio de la variable respecto a los valores de las demás observaciones.
¿A qué se le denomina creación de subconjuntos en la preparación de datos?
Al proceso de extraer porciones de un conjunto de datos que son relevantes para el análisis.
La creación de subconjuntos es el proceso de extraer partes de un conjunto de datos que son de interés para el profesional de la analítica
¿En que consiste la imputación de datos?
La estrategia de imputación reemplaza los valores faltantes con algunos valores imputados razonables.
¿Cuál es la estrategia de imputación más utilizada para variables numéricas?
Imputación por medias simple
¿Cuál es la estrategia de imputación más utilizada para variables categóricas?
a menudo se utiliza la categoría más frecuente como valor imputado
A la hora de excluir variables de un conjunto de datos ¿Cuántos factores podría tenerse en cuenta?
Cuatro factores
¿Cuáles son los factores para decidir quitar una variable de un Dataset?
- Variables Irrelevantes para el problema.
- Variables con información redundante.
- Variables que sean una combinación lineal de otra variable.
- Variables con cantidades excesivas de valores faltantes.