Consideraciones a la imputación múltiple. Un caso de estudio con datos panel
Resumen
Los datos faltantes son todo un reto en los análisis estadísticos. La imputación, entendida como el proceso de reemplazar los datos faltantes con un valor estimado, es un problema regular en los proyectos de investigación. Existen muchos modelos y subrutinas de diversos
software destinadas para este proceso, sin embargo, la selección del modelo de imputación adecuado al tipo de datos disponibles es trascendental para la fiabilidad del resultado. En este estudio se trabaja con una tabla de datos cruzada que involucran series de tiempo (datos panel) con un 24% de datos faltantes. Con el objetivo de imputar estos datos, se utilizó un modelo de imputación múltiple y se agregaron algunas restricciones al sistema. El principal aporte de este ejercicio es mostrar que un buen proceso de imputación requiere del diagnóstico del problema, de la configuración del modelo de imputación y, finalmente, de la verificación de la calidad de los datos imputados.
Descargas
Citas
Abayomi, K., Gelman, A., & Levy, M. (2008). Diagnostics for Multivariate Imputations. Royal Statistical Society, 57(3), 273-291.� https://doi.org/10.1111/j.1467-9876.2007.00613.x
Arellano, M. y Bover, O. (1990). La econometr�a de datos panel. Investigaciones Econ�micas, XIV (1), 3-45.
Baraldi, A. N., & Enders, C. K. (2010). An introduction to modern missing data analyses. Journal of School Psychology, 48(1), 5-37. https://doi.org/10.1016/j.jsp.2009.10.001
Bell, M. L., Fiero, M., Horton, N. J., & Hsu, C.-H. (2014). Handling missing data in RCTs; a review of the top medical journals. BMC Med Res Methodol 14, 118, 2-8. https://doi.org/10.1186/1471-2288-14-118
Clavel, J., Merceron, G., & Escarguel., G. (2014). Missing data estimation in morphometrics: how much is too much? Systematic biology; 63(2), 203�18. doi: 10.1093/sysbio/syt100 PMID: 24335428
Cheema, J. R. (2014). A Review of Missing Data Handling Methods in Education Research. Review of Educational Research, 84(4), 487-508. https://doi.org/10.3102/0034654314532697
Harrell, F. (2020). Nonparametric Missing Value Imputation using Random Forest: missForest. R package version 1.4.
Honaker, J., & King, G. (2010). What to Do about Missing Values in Time‐Series Cross‐Section Data. America Journal of political science, 54(2), 561-581. https://doi.org/10.1111/j.1540-5907.2010.00447.x
Honaker, J., King, G., and Blackwell, M. (2018). AMELIA II: A Program for Missing Data. R package version 1.7.5.
Kowarik, A., & Templ, M. (2016). Imputation with the R Package VIM. Journal of Statistical Software, 74(1), 1-16. https://doi.org/10.18637/jss.v074.i07
Kossen, T., Livne, M., Madai, V. I., Galinovic, I., Frey, D., & Fiebach, J. B. (2019). A framework for testing different imputation methods for tabular datasets. bioRxiv, 773762. https://doi.org/10.1101/773762
Leite, W., & Beretvas, S. (2010). The Performance of Multiple Imputation for Likert-type Items with Missing Data. Journal of Modern Applied Statistical Methods, 9(1),64-74 https://doi.org/10.22237/jmasm/1272686820
Medina, F. y Galv�n, M. (2007). Imputaci�n de datos: Teor�a y pr�ctica. Naciones Unidas, CEPAL, Div. de Estad�stica y Proyecciones Econ�micas. Recuperado de �http://www.cepal.org/publicaciones/xml/9/29949/LCL2772e.pdf
Madley-Down, P., Hughes, R., Tilling, K., & Heron, J. (2019). The proportion of missing data should not be used to guide decisions on multiple imputation. Journal of clinical epidemiology, 110,63-73. https://doi.org/10.1016/j.jclinepi.2019.02.016
Mu�oz-Rosas, J. F. y �lvarez-Verdejo, E. (2009). M�todos de imputaci�n para el tratamiento de datos faltantes: Aplicaci�n mediante R/Splus. Revista de M�todos Cuantitativos para la Econom�a y la Empresa, 3-30.
Murray, J. (2018). Multiple Imputation: A Review of Practical and Theoretical Findings. https://arxiv.org/pdf/1801.04058.pdf
R Core Team (2019). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. Recuperado de https://www.R-project.org.
Rubin, D. B. (1987). Multiple imputation for nonresponse in surveys. John Wiley & Sons, New York.
Shafer, J., & Grahams, J. (2002). Missing data: our view of the state of the art. Psychol Methods. 7(2),147-77. PMID: 12090408.
Stekhoven, D.J. and B�hlmann, P. (2012), 'MissForest - nonparametric missing value imputation for mixed-type data', Bioinformatics, 28(1), 112-118, https://doi.org/10.1093/bioinformatics/btr597
Takahashi, M. (2017). Multiple ratio imputation by the EMB algorithm: theory and simulation. Journal of Modern Applied Statistical Methods, 16(1), 630-656. doi: 10.22237/jmasm/1493598840
Van Buuren, S. (2018). Flexible Imputation of Missing Data (Segunda). Taylor & Francis. Recuperado de https://stefvanbuuren.name/fimd/
Van Buuren, S., & Groothuis-Oudshoorn, K. (2011). mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software, 45(1), 1-67. https://doi.org/10.18637/jss.v045.i03
Wood, A. M., White, I. R., & Thompson, S. G. (2004). Are missing outcome data adequately handled? A review of published randomized controlled trials in major medical journals. Clinical Trials: Journal of the Society for Clinical Trials, 1(4), 368-376. https://doi.org/10.1191/1740774504cn032oa
Yusuke Y., Mai U., Kazushi M. & Masahiko G. (2020). Multiple imputation for longitudinal data in the presence of heteroscedasticity between treatment groups, Journal of Biopharmaceutical Statistics, 30:1, 178-196, DOI: 10.1080/10543406.2019.1632878
Zhang, Z. (2015). Missing data imputation: Focusing on single imputation. Annals of Translational Medicine, 1-8. https://doi.org/10.3978/j.issn.2305-5839.2015.12.38
Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) que permite a terceros copiar y redistribuir el material en cualquier medio o formato y adaptar — remezclar, transformar y construir a partir del material bajo la la misma licencia del original. En todos los casos, debe dar crédito de manera adecuada.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.