Discursos presidenciales en Uruguay enfoque desde el análisis estadístico de texto

Elena Vernazza Mañana; José Luis Vicente Villardón

doi:10.56503/CIMBAGE/Vol.1/Nro.23(2021)p.21-46

Elena Vernazza Mañana Instituto de Estadística, Facultad de Ciencias Económicas y de Administración, Universidad de la República
José Luis Vicente Villardón Departamento de Estadística, Universidad de Salamanca

DOI: https://doi.org/10.56503/CIMBAGE/Vol.1/Nro.23(2021)p.21-46

Palabras clave: ANÁLISIS ESTADÍSTICO DE DATOS TEXTUALES, DISCURSOS PRESIDENCIALES

Resumen

El origen del análisis de datos textuales se remonta a los análisis realizados sobre obras literarias, destacándose un recuento de las palabras de la Biblia y el primer catálogo de clasificación de libros de una biblioteca. A principios de 1900 estas ideas se extienden dando lugar a la generación de resúmenes de largos textos, mediante análisis de frecuencias y medidas de significación relativa de cada término dentro de un texto. Desde una perspectiva estadística, el tratamiento de datos textuales se afianza cuando surge el Análisis Factorial de Correspondencias, desarrollado para el trato de datos lingüísticos. Actualmente, el análisis estadístico de textos se ha expendido y ha ido incrementando su implementación, dejando de lado las aplicaciones únicamente a obras literarias. Los principales ámbitos de aplicación son: análisis de mercado, búsquedas web, periodismo, psicología y educación, sociología y politología. Los textos analizados se estructuran de forma conjunta en un único elemento. Así, el análisis estadístico de datos textuales se define como el proceso de extraer información de dicho elemento. En este trabajo se realiza un análisis, desde esta perspectiva, de cuatro discursos presidenciales de Uruguay, correspondientes a Julio María Sanguinetti y Tabaré Vázquez. Ambos provienen de sectores ideológicos/políticos distintos, tradicionalmente opuestos/rivales y cada uno ha formado parte del gobierno como oposición, durante el mandato del otro. Los resultados son de carácter descriptivo multidimensional y se complementan con elementos de visualización. Los principales resultados obtenidos ponen de manifiesto la diferencia que existe en los discursos, a nivel tanto de candidato como de período.

Descargas

La descarga de datos todavía no está disponible.

Citas

Aggarwal, C. (2018). Machine Learning for Text. Springer International Publishing AG. https://doi.org/10.1007/978-3-319-73531-3.

Benzécri, J.P. (1973). L’Analyse Des Dones. II L’Analyse Des Correspondances. Paris. Dunod.

Fellows, I. (2018). wordcloud: Word Clouds. R package version 2.6. https://CRAN.R-project.org/package=wordcloud.

Feinerer, I. y Hornik (2018). tm: Text Mining Package. R package version 0.7-6. https://CRAN.R-project.org/package=tm

Feinerer, I. Hornik, K. y David Meyer (2008). Text Mining Infrastructure in R. Journal of Statistical. Software 25(5): 1-54. URL: http://www.jstatsoft.org/v25/i05/.

Kwartler, T. (2017). Text Mining in Practice with R. John Wiley & Sons Ltd.

Leek, J. (2015). The Elements of Data Analytic Style, Leanpub, 2015-03-02.

R Core Team (2018). R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Viena, Austria. (https://www.R-project.org/).

Rinker, T. W. (2018). textclean: Text Cleaning Tools version 0.9.3. Buffalo, New York. https://github.com/trinker/textclean.

Silge, J. y Robinson, D. (2016). tidytext: Text Mining and Analysis Using Tidy Data Principles in R. JOSS, 1(3). doi: 10.21105/joss.00037 (URL: https://doi.org/10.21105/joss.00037) URL: http://dx.doi.org/10.21105/joss.00037.

Silge, J. y Robinson, D. (2017). Text mining with R: A tidy approach. O’Reilly Media, Inc.

Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1 - 23. doi:http://dx.doi.org/10.18637/jss.v059.i10.

Wickham, H. (2016) ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.

Wickham, H. (2017). tidyverse: Easily Install and Load the Tidyverse. R package version 1.2.1. https://CRAN.R-project.org/package=tidyverse.

Wickham, H. (2019). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.4.0. https://CRAN.R-project.org/package=stringr.

Zhai, C. y Massung, S. (2016). Text data management and analysis: a practical introduction to information retrieval and text mining (First Edition). New York: ACM Books.

Zipf, G.K. (1936). The Psycho-Biology of Language: An Introduction to Dynamic Philology. A statistical study of vocabulary, The Modern Language Journal, Vol. 21, No. 2, pp. 125-127.