Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)
DOI:
https://doi.org/10.35305/s.v9i1.132Palabras clave:
Regularización, LASSO, No respuestaResumen
El presente documento se propone exponer los avances realizados en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentará la propuesta metodológica general y los resultados de las pruebas realizadas. Se evalúan dos tipos de modelos de imputación de datos perdidos: 1) el método hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadístico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresión LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generación de múltiples modelos de regresión LASSO a través del algoritmo bagging y de su agregación para la generación de la imputación final. En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputación. En el tercer apartado se reseñan los métodos de imputación más habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teóricos y metodológicos de las dos técnicas de imputación propuestas. Finalmente, en la quinta sección, se presentan algunos resultados de la aplicación de los métodos propuestos a datos de la Encuesta Permanente de Hogares.Descargas
Archivos adicionales
- Esquema 1. Secuencias en el modelo de imputación basado en un ensamble de regresiones LASSO
- Gráfico 1. Boxplots de casos imputados con LASSO y Hot-Deck (casos imputados por INDEC) en escala $ y logarÃtmica
- Gráfico 1. Boxplots de casos imputados con LASSO y Hot-Deck (casos imputados por INDEC) en escala $ y logarÃtmica
- Gráfico 2. Density plot de distribución de casos imputados con LASSO y Hot-Deck (aplicado por INDEC) escala log y escala $
- Gráfico 2. Density plot de distribución de casos imputados con LASSO y Hot-Deck (aplicado por INDEC) escala log y escala $
- Gráfico 3. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) escala log y escala $
- Gráfico 3. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) escala log y escala $
- Gráfico 4. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) trabajadores asalariados escala log y escala $
- Gráfico 4. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) trabajadores asalariados escala log y escala $
- Gráfico 5. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) trabajadores independientes escala log y escala $
- Gráfico 5. Density plot de distribución completa (respuesta + imputados) con LASSO y Hot-Deck (aplicado por INDEC) trabajadores independientes escala log y escala $
- Gráfico 6. Density plot de distribución de casos imputados con LASSO y Hot-Deck (perdidos generados aleatoriamente) escala log y escala $
- Gráfico 6. Density plot de distribución de casos imputados con LASSO y Hot-Deck (perdidos generados aleatoriamente) escala log y escala $
- Gráfico 7. Density plot de distribución de casos completos (perdidos generados aleatoriamente + completos) con LASSO y Hot-Deck escala log y escala $
- Gráfico 7. Density plot de distribución de casos completos (perdidos generados aleatoriamente + completos) con LASSO y Hot-Deck escala log y escala $
Publicado
2017-06-30
Cómo citar
Rosati, G. F. (2017). Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH). SaberEs, 9(1). https://doi.org/10.35305/s.v9i1.132
Número
Sección
Artículos