Consideraciones a la imputación múltiple. Un caso de estudio con datos panel

  • Diana Del Callejo Canal Instituto de Investigación de Estudios Superiores Económicos y Sociales de la Universidad Veracruzana https://orcid.org/0000-0003-4753-6577
  • Margarita Edith Canal-Martínez Instituto de Investigación de Estudios Superiores Económicos y Sociales de la Universidad Veracruzana https://orcid.org/0000-0002-1258-5902
  • Elena Vernazza Instituto de Estadística de la Facultad de Ciencias Económicas y de Administración, Universidad de la República https://orcid.org/0000-0003-3123-2165
  • Alar Urruticoechea Departamento de Neurocognición, Universidad Católica del Uruguay https://orcid.org/0000-0001-6229-2633
  • Ramón Álvarez-Vaz Instituto de Estadística de la Facultad de Ciencias Económicas y de Administración, Universidad de la República https://orcid.org/0000-0002-2505-4238
Palabras clave: IMPUTACIÓN, DATOS FALTANTES, SERIES DE TIEMPO, DATOS PANEL, IMPUTACIÓN MÚLTIPLE.

Resumen

Los datos faltantes son todo un reto en los análisis estadísticos. La imputación, entendida como el proceso de reemplazar los datos faltantes con un valor estimado, es un problema regular en los proyectos de investigación. Existen muchos modelos y subrutinas de diversos

software destinadas para este proceso, sin embargo, la selección del modelo de imputación adecuado al tipo de datos disponibles es trascendental para la fiabilidad del resultado. En este estudio se trabaja con una tabla de datos cruzada que involucran series de tiempo (datos panel) con un 24% de datos faltantes. Con el objetivo de imputar estos datos, se utilizó un modelo de imputación múltiple y se agregaron algunas restricciones al sistema. El principal aporte de este ejercicio es mostrar que un buen proceso de imputación requiere del diagnóstico del problema, de la configuración del modelo de imputación y, finalmente, de la verificación de la calidad de los datos imputados.

Descargas

La descarga de datos todavía no está disponible.

Citas

Abayomi, K., Gelman, A., & Levy, M. (2008). Diagnostics for Multivariate Imputations. Royal Statistical Society, 57(3), 273-291.� https://doi.org/10.1111/j.1467-9876.2007.00613.x

Arellano, M. y Bover, O. (1990). La econometr�a de datos panel. Investigaciones Econ�micas, XIV (1), 3-45.

Baraldi, A. N., & Enders, C. K. (2010). An introduction to modern missing data analyses. Journal of School Psychology, 48(1), 5-37. https://doi.org/10.1016/j.jsp.2009.10.001

Bell, M. L., Fiero, M., Horton, N. J., & Hsu, C.-H. (2014). Handling missing data in RCTs; a review of the top medical journals. BMC Med Res Methodol 14, 118, 2-8. https://doi.org/10.1186/1471-2288-14-118

Clavel, J., Merceron, G., & Escarguel., G. (2014). Missing data estimation in morphometrics: how much is too much? Systematic biology; 63(2), 203�18. doi: 10.1093/sysbio/syt100 PMID: 24335428

Cheema, J. R. (2014). A Review of Missing Data Handling Methods in Education Research. Review of Educational Research, 84(4), 487-508. https://doi.org/10.3102/0034654314532697

Harrell, F. (2020). Nonparametric Missing Value Imputation using Random Forest: missForest. R package version 1.4.

Honaker, J., & King, G. (2010). What to Do about Missing Values in Time‐Series Cross‐Section Data. America Journal of political science, 54(2), 561-581. https://doi.org/10.1111/j.1540-5907.2010.00447.x

Honaker, J., King, G., and Blackwell, M. (2018). AMELIA II: A Program for Missing Data. R package version 1.7.5.

Kowarik, A., & Templ, M. (2016). Imputation with the R Package VIM. Journal of Statistical Software, 74(1), 1-16. https://doi.org/10.18637/jss.v074.i07

Kossen, T., Livne, M., Madai, V. I., Galinovic, I., Frey, D., & Fiebach, J. B. (2019). A framework for testing different imputation methods for tabular datasets. bioRxiv, 773762. https://doi.org/10.1101/773762

Leite, W., & Beretvas, S. (2010). The Performance of Multiple Imputation for Likert-type Items with Missing Data. Journal of Modern Applied Statistical Methods, 9(1),64-74 https://doi.org/10.22237/jmasm/1272686820

Medina, F. y Galv�n, M. (2007). Imputaci�n de datos: Teor�a y pr�ctica. Naciones Unidas, CEPAL, Div. de Estad�stica y Proyecciones Econ�micas. Recuperado de �http://www.cepal.org/publicaciones/xml/9/29949/LCL2772e.pdf

Madley-Down, P., Hughes, R., Tilling, K., & Heron, J. (2019). The proportion of missing data should not be used to guide decisions on multiple imputation. Journal of clinical epidemiology, 110,63-73. https://doi.org/10.1016/j.jclinepi.2019.02.016

Mu�oz-Rosas, J. F. y �lvarez-Verdejo, E. (2009). M�todos de imputaci�n para el tratamiento de datos faltantes: Aplicaci�n mediante R/Splus. Revista de M�todos Cuantitativos para la Econom�a y la Empresa, 3-30.

Murray, J. (2018). Multiple Imputation: A Review of Practical and Theoretical Findings. https://arxiv.org/pdf/1801.04058.pdf

R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Recuperado de https://www.R-project.org.

Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. John Wiley & Sons, New York.

Shafer, J., & Grahams, J. (2002). Missing data: our view of the state of the art. Psychol Methods. 7(2),147-77. PMID: 12090408.

Stekhoven, D.J. and B�hlmann, P. (2012), 'MissForest - nonparametric missing value imputation for mixed-type data', Bioinformatics, 28(1), 112-118, https://doi.org/10.1093/bioinformatics/btr597

Takahashi, M. (2017). Multiple ratio imputation by the EMB algorithm: theory and simulation. Journal of Modern Applied Statistical Methods, 16(1), 630-656. doi: 10.22237/jmasm/1493598840

Van Buuren, S. (2018). Flexible Imputation of Missing Data (Segunda). Taylor & Francis. Recuperado de https://stefvanbuuren.name/fimd/

Van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, 45(1), 1-67. https://doi.org/10.18637/jss.v045.i03

Wood, A. M., White, I. R., & Thompson, S. G. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials: Journal of the Society for Clinical Trials, 1(4), 368-376. https://doi.org/10.1191/1740774504cn032oa

Yusuke Y., Mai U., Kazushi M. & Masahiko G. (2020). Multiple imputation for longitudinal data in the presence of heteroscedasticity between treatment groups, Journal of Biopharmaceutical Statistics, 30:1, 178-196, DOI: 10.1080/10543406.2019.1632878

Zhang, Z. (2015). Missing data imputation: Focusing on single imputation. Annals of Translational Medicine, 1-8. https://doi.org/10.3978/j.issn.2305-5839.2015.12.38

Publicado
2022-06-09
Cómo citar
Del Callejo Canal, D., Canal-Martínez, M., Vernazza, E., Urruticoechea, A., & Álvarez-Vaz, R. (2022). Consideraciones a la imputación múltiple. Un caso de estudio con datos panel. Cuadernos Del CIMBAGE, 1(24), 33-47. https://doi.org/10.56503/CIMBAGE/Vol.1/Nro.24(2022)p.33-47