Discursos presidenciales en Uruguay enfoque desde el análisis estadístico de texto
Resumen
El origen del análisis de datos textuales se remonta a los análisis realizados sobre obras literarias, destacándose un recuento de las palabras de la Biblia y el primer catálogo de clasificación de libros de una biblioteca. A principios de 1900 estas ideas se extienden dando lugar a la generación de resúmenes de largos textos, mediante análisis de frecuencias y medidas de significación relativa de cada término dentro de un texto. Desde una perspectiva estadística, el tratamiento de datos textuales se afianza cuando surge el Análisis Factorial de Correspondencias, desarrollado para el trato de datos lingüísticos. Actualmente, el análisis estadístico de textos se ha expendido y ha ido incrementando su implementación, dejando de lado las aplicaciones únicamente a obras literarias. Los principales ámbitos de aplicación son: análisis de mercado, búsquedas web, periodismo, psicología y educación, sociología y politología. Los textos analizados se estructuran de forma conjunta en un único elemento. Así, el análisis estadístico de datos textuales se define como el proceso de extraer información de dicho elemento. En este trabajo se realiza un análisis, desde esta perspectiva, de cuatro discursos presidenciales de Uruguay, correspondientes a Julio María Sanguinetti y Tabaré Vázquez. Ambos provienen de sectores ideológicos/políticos distintos, tradicionalmente opuestos/rivales y cada uno ha formado parte del gobierno como oposición, durante el mandato del otro. Los resultados son de carácter descriptivo multidimensional y se complementan con elementos de visualización. Los principales resultados obtenidos ponen de manifiesto la diferencia que existe en los discursos, a nivel tanto de candidato como de período.
Descargas
Citas
Aggarwal, C. (2018). Machine Learning for Text. Springer International Publishing AG. https://doi.org/10.1007/978-3-319-73531-3.
Benzécri, J.P. (1973). L’Analyse Des Dones. II L’Analyse Des Correspondances. Paris. Dunod.
Fellows, I. (2018). wordcloud: Word Clouds. R package version 2.6. https://CRAN.R-project.org/package=wordcloud.
Feinerer, I. y Hornik (2018). tm: Text Mining Package. R package version 0.7-6. https://CRAN.R-project.org/package=tm
Feinerer, I. Hornik, K. y David Meyer (2008). Text Mining Infrastructure in R. Journal of Statistical. Software 25(5): 1-54. URL: http://www.jstatsoft.org/v25/i05/.
Kwartler, T. (2017). Text Mining in Practice with R. John Wiley & Sons Ltd.
Leek, J. (2015). The Elements of Data Analytic Style, Leanpub, 2015-03-02.
R Core Team (2018). R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing, Viena, Austria. (https://www.R-project.org/).
Rinker, T. W. (2018). textclean: Text Cleaning Tools version 0.9.3. Buffalo, New York. https://github.com/trinker/textclean.
Silge, J. y Robinson, D. (2016). tidytext: Text Mining and Analysis Using Tidy Data Principles in R. JOSS, 1(3). doi: 10.21105/joss.00037 (URL: https://doi.org/10.21105/joss.00037) URL: http://dx.doi.org/10.21105/joss.00037.
Silge, J. y Robinson, D. (2017). Text mining with R: A tidy approach. O’Reilly Media, Inc.
Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1 - 23. doi:http://dx.doi.org/10.18637/jss.v059.i10.
Wickham, H. (2016) ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.
Wickham, H. (2017). tidyverse: Easily Install and Load the Tidyverse. R package version 1.2.1. https://CRAN.R-project.org/package=tidyverse.
Wickham, H. (2019). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.4.0. https://CRAN.R-project.org/package=stringr.
Zhai, C. y Massung, S. (2016). Text data management and analysis: a practical introduction to information retrieval and text mining (First Edition). New York: ACM Books.
Zipf, G.K. (1936). The Psycho-Biology of Language: An Introduction to Dynamic Philology. A statistical study of vocabulary, The Modern Language Journal, Vol. 21, No. 2, pp. 125-127.
Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Licencia de reconocimiento de Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) que permite a terceros copiar y redistribuir el material en cualquier medio o formato y adaptar — remezclar, transformar y construir a partir del material bajo la la misma licencia del original. En todos los casos, debe dar crédito de manera adecuada.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).
Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.