Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH)

Authors

  • Germán Federico Rosati Subsecretaría de Políticas, Estudios y Estadísticas Laborales - MTEySS Universidad Nacional de Tres de Febrero Universidad Nacional de San Martín http://orcid.org/0000-0002-9775-0435

DOI:

https://doi.org/10.35305/s.v9i1.132

Keywords:

Regularización, LASSO, No respuesta

Abstract

El presente documento se propone exponer los avances realizados en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentará la propuesta metodológica general y los resultados de las pruebas realizadas. Se evalúan dos tipos de modelos de imputación de datos perdidos: 1) el método hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadístico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresión LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generación de múltiples modelos de regresión LASSO a través del algoritmo bagging y de su agregación para la generación de la imputación final. En la primera y segunda parte del documento plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputación. En el tercer apartado se reseñan los métodos de imputación más habitualmente utilizados, enfatizando sus ventajas y limitaciones. En la cuarta parte, se desarrollan los fundamentos teóricos y metodológicos de las dos técnicas de imputación propuestas. Finalmente, en la quinta sección, se presentan algunos resultados de la aplicación de los métodos propuestos a datos de la Encuesta Permanente de Hogares.

Author Biography

Germán Federico Rosati, Subsecretaría de Políticas, Estudios y Estadísticas Laborales - MTEySS Universidad Nacional de Tres de Febrero Universidad Nacional de San Martín

Analista Experto de Datos (MTEySS) Dr. en Ciencias Sociales (UBA). Mg. en Generación y Análisis de Información Estadística (UNTREF). Lic. en Sociología (UBA).

Additional Files

Published

2017-06-30

How to Cite

Rosati, G. F. (2017). Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación en la Encuesta Permanente de Hogares (EPH). SaberEs, 9(1). https://doi.org/10.35305/s.v9i1.132

Issue

Section

Artículos