Minería de textos o cómo analizar los discursos del Rey

Share Button

El pasado 13 de marzo se celebró una nueva edición de las jornadas Open Analytics, de las que ya os hemos hablado en más de una ocasión. Esta vez la estrella de la jornada fue R, un software estadístico muy potente y de código abierto, que es el estándar en la comunidad dataminera.

Tras una charla introductoria a R, Carlos Ortega, perteneciente al grupo de usuarios de R en Madrid, comentó un trabajo muy interesante que había realizado junto a Pedro Concejero y Alfonso de Uña, hacía pocos meses, como es analizar lingüista y estadísticamente los discursos navideños del Rey (ya hubo un trabajo similar por el periodista Manuel Ventero, que fue entrevistado por ello en Radio Nacional).

Efectivamente, nuestro Monarca da su discurso anual más famoso cada Nochebuena desde 1975, sin excepción. Es interesante analizar qué palabras son las más repetidas, lo cual da una idea de los principales eventos acaecidos en España durante ese año, o qué estructura sintáctica tiene un discurso medio de nuestro Rey, para ver la dificultad y complejidad del texto.

La idea de hacer un análisis así parte de un trabajo previo del estadístico Samuel Arbesman, que participó recientemente en unas charlas de divulgación sobre Verdad y Ciencia en la Universidad Francisco de Vitoria, junto con el archiconocido divulgador Eduard Punset. Arbesman analizó los discursos del Estado de la Unión de Estados Unidos desde 1800 (equivalentes a los discursos del Estado de la Nación en España). Utilizando un coeficiente de legibilidad llamado Flesch-Kinkaid, se dio cuenta de que la complejidad de los discursos del presidente estadounidense (medida con la longitud de los mismos, la longitud de las frases, la longitud de las palabras, el número de sílabas, el número de oraciones subordinadas, etc.) ha ido disminuyendo con los años.

En el trabajo de Ortega et al. sobre los discursos del Rey han aplicado el mismo coeficiente. Y han llegado a la conclusión de que la complejidad media de los discursos es bastante elevada, similar a la de un artículo científico, con un coeficiente en torno a 50.

Por otro lado, los discursos suelen contener entre 1000 y 1500 palabras, si bien el de 1975 fue el más corto de la historia (poco más de 500 palabras), mientras que el de 1979 fue el más largo (casi 2500).

discursos-rey-1

Número de palabras del discurso en función del año. Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

El siguiente estudio que puede hacerse es el de análisis de frecuencias de aparición de palabras, con las que podemos hacer las típicas nubes de palabras a las que tan habituados estamos ya. Sin contar la palabra “España”, resulta que la palabra más repetida a lo largo de los años es “Paz”, seguida de “sociedad” y “debemos”.

discursos-rey-2

Nube de palabras de todos los discursos del Rey. Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

¿Y si investigamos palabras consecutivas? Es lo que técnicamente se llama “n-gramas”. Para 2-gramas, lo más repetido es “buenas noches”, “Unión Europea”, “mejores deseos”, etc.

Otro análisis que puede hacerse es un estudio temporal de en qué años se utilizan determinadas palabras. Si bien en los primeros años la palabra “Patria” era muy común, ahora ha pasado a sustituirse por “País”. Y así podríamos investigar la preocupación del Monarca por palabras como “crisis”, “paro”, “terrorismo”, “Europa”, “jóvenes”, etc.

discursos-rey-3

Evolución de la frecuencia de la palabra “Patria” frente a “País”. Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

Todo este estudio ha sido realizado con R y algunas librerías como son tm (“text mining”).

Desconozco si los autores han consultado una tesis doctoral de Rebeca Quintans López, titulada “Discursos del Rey (1969-1996). Análisis Lingüístico Pragmático” (Universidad Complutense de Madrid, 1997), ni otra de Manuel Adrián Ventero Velasco, titulada “Los mensajes de Navidad del Rey. Análisis Político-Institucional” (Universidad Rey Juan Carlos, 2010). No he podido tener acceso a estas tesis doctorales, con lo que desconozco cómo se hizo el análisis, si “a mano”, o con alguna técnica de minería de textos.

En cualquier caso, desde aquí queremos felicitar a los autores de este trabajo.

Enlaces de interés:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *