Author Archives: Ángel Serrano Sánchez de León

Minería de textos o cómo analizar los discursos del Rey

El pasado 13 de marzo se celebró una nueva edición de las jornadas Open Analytics, de las que ya os hemos hablado en más de una ocasión. Esta vez la estrella de la jornada fue R, un software estadístico muy potente y de código abierto, que es el estándar en la comunidad dataminera.

Tras una charla introductoria a R, Carlos Ortega, perteneciente al grupo de usuarios de R en Madrid, comentó un trabajo muy interesante que había realizado junto a Pedro Concejero y Alfonso de Uña, hacía pocos meses, como es analizar lingüista y estadísticamente los discursos navideños del Rey (ya hubo un trabajo similar por el periodista Manuel Ventero, que fue entrevistado por ello en Radio Nacional).

Efectivamente, nuestro Monarca da su discurso anual más famoso cada Nochebuena desde 1975, sin excepción. Es interesante analizar qué palabras son las más repetidas, lo cual da una idea de los principales eventos acaecidos en España durante ese año, o qué estructura sintáctica tiene un discurso medio de nuestro Rey, para ver la dificultad y complejidad del texto.

La idea de hacer un análisis así parte de un trabajo previo del estadístico Samuel Arbesman, que participó recientemente en unas charlas de divulgación sobre Verdad y Ciencia en la Universidad Francisco de Vitoria, junto con el archiconocido divulgador Eduard Punset. Arbesman analizó los discursos del Estado de la Unión de Estados Unidos desde 1800 (equivalentes a los discursos del Estado de la Nación en España). Utilizando un coeficiente de legibilidad llamado Flesch-Kinkaid, se dio cuenta de que la complejidad de los discursos del presidente estadounidense (medida con la longitud de los mismos, la longitud de las frases, la longitud de las palabras, el número de sílabas, el número de oraciones subordinadas, etc.) ha ido disminuyendo con los años.

En el trabajo de Ortega et al. sobre los discursos del Rey han aplicado el mismo coeficiente. Y han llegado a la conclusión de que la complejidad media de los discursos es bastante elevada, similar a la de un artículo científico, con un coeficiente en torno a 50.

Por otro lado, los discursos suelen contener entre 1000 y 1500 palabras, si bien el de 1975 fue el más corto de la historia (poco más de 500 palabras), mientras que el de 1979 fue el más largo (casi 2500).

discursos-rey-1

Número de palabras del discurso en función del año. Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

El siguiente estudio que puede hacerse es el de análisis de frecuencias de aparición de palabras, con las que podemos hacer las típicas nubes de palabras a las que tan habituados estamos ya. Sin contar la palabra «España», resulta que la palabra más repetida a lo largo de los años es «Paz», seguida de «sociedad» y «debemos».

discursos-rey-2

Nube de palabras de todos los discursos del Rey. Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

¿Y si investigamos palabras consecutivas? Es lo que técnicamente se llama «n-gramas». Para 2-gramas, lo más repetido es «buenas noches», «Unión Europea», «mejores deseos», etc.

Otro análisis que puede hacerse es un estudio temporal de en qué años se utilizan determinadas palabras. Si bien en los primeros años la palabra «Patria» era muy común, ahora ha pasado a sustituirse por «País». Y así podríamos investigar la preocupación del Monarca por palabras como «crisis», «paro», «terrorismo», «Europa», «jóvenes», etc.

discursos-rey-3

Evolución de la frecuencia de la palabra «Patria» frente a «País». Fuente: Carlos Ortega, Pedro Concejero, Alfonso de Uña.

Todo este estudio ha sido realizado con R y algunas librerías como son tm («text mining»).

Desconozco si los autores han consultado una tesis doctoral de Rebeca Quintans López, titulada «Discursos del Rey (1969-1996). Análisis Lingüístico Pragmático» (Universidad Complutense de Madrid, 1997), ni otra de Manuel Adrián Ventero Velasco, titulada «Los mensajes de Navidad del Rey. Análisis Político-Institucional» (Universidad Rey Juan Carlos, 2010). No he podido tener acceso a estas tesis doctorales, con lo que desconozco cómo se hizo el análisis, si «a mano», o con alguna técnica de minería de textos.

En cualquier caso, desde aquí queremos felicitar a los autores de este trabajo.

Enlaces de interés:

Taller de Web Scraping en Medialab-Prado

Hoy 3 de marzo tiene lugar en Medialab-Prado (C/ Plaza de las Letras esquina Alameda, 15, Madrid) un taller de «Web Scraping», una de las herramientas básicas de la Inteligencia de Fuentes Abiertas (OSINT). En particular, se trata de la extracción de información de un sitio web, también denominada en español «Minería web».

La información extraída de una web puede ser de varios tipos:

  • Contenido de la web, es decir, el texto mismo y las imágenes que aparecen en las páginas.
  • Estructura de la web, con su organización jerárquica, carpetas, hipervínculos a páginas internas del sitio o a páginas externas, etc.
  • Uso de la web por parte de los usuarios, en relación a dónde hacen clic los usuarios, cuales son las páginas del sitio más visitadas, qué horas son las más frecuentadas, etc.

webscraping

El evento comenzará con una introducción a las técnicas de Web Scraping desde el punto de vista del Periodismo de Datos por parte de Daniele Grasso y Jesús Escudero, periodistas de El Confidencial. La segunda parte estará a cargo de Miguel Fiandor, responsable del portal Transparencia de Cuentas Públicas, y será eminentemente práctica y versará sobre la herramienta ScraperWiki utilizando varias librerías de Python, como son BeautifulSoup y Requests.

Para asistir, consulta la información en la web oficial del evento. También puedes seguirlo en streaming, si bien la segunda parte no estará disponible online.

Big Data y privacidad de los datos

Hoy se celebra la tercera y última sesión del conjunto de conferencias tituladas Vivir en un Mar de Datos, organizadas por la Fundación Telefónica. La charla de hoy, que podrá seguirse en Internet, versa sobre los problemas que plantea el uso masivo de datos o Big Data con la privacidad y seguridad de la información. Como en ocasiones anteriores, el evento estará moderado por el afamado periodista Vicente Vallés.

La charla podrá seguirse en streaming desde la web oficial del evento.

Imagen tomada de http://inside-bigdata.com/2014/01/26/future-privacy-big-data-world/

Imagen tomada de http://inside-bigdata.com/2014/01/26/future-privacy-big-data-world/

Nuevo Taller de Open Analytics: Business Intelligence Open Source

Tal y como os comentábamos en un post anterior, ha surgido en Madrid una comunidad dedicada al estudio de técnicas analíticas mediante herramientas Open Source (software libre) y además de Open Data (datos abiertos), con intereses también en Business Intelligence, Big Data y Data Mining.

Ya está abierto el plazo de inscripción para el siguiente taller, que tratará sobre «Business Intelligence Open Source». El contenido del taller es:

Introducción. Introducción al evento por TodoBI.com.

Pentaho 5. Con la nueva versión lanzada a finales de 2013, Pentaho ha lanzado una nueva versión de sus principales herramientas. En esta charla se repasarán los cambios más importantes de la mejor suite de Business Intelligence. Por TodoBI.com.

Taller Talend. Extracción de datos de Facebook. Son muchas las herramientas de ETLs existentes en el mercado, pero pocas que estén al nivel de Talend. En esta charla se mostrará la herramienta Talend y un proceso ETL a Facebook. Por Eduardo Fernández. Experto en creación y desarollo de procesos ETL de Stratebi.

Visualización de datos. Además de construir procesos y estructuras complejas para una solución analítica, los desarrolladores tienen que saber mostrar la información para facilitar su compreensión. Por Nadia Fankhauser. Diseñadora gráfica especializada en visualización de datos.

 

Aquí tenéis los datos:

Fecha: 13/02/2014
Hola: 19:00 – 2030
Lugar: Medialab Prado. Plaza de las Letras. C/ Alameda, 15, Madrid
Formulario de inscripción (entrada libre pero necesaria inscripción)

Resumen de la 1ª Jornada de Open Analytics en Madrid

El pasado 24 de octubre de 2013 se celebró en Medialab-Prado (junto al Caixa Fórum de Madrid) el encuentro Open Analytics (analítica con software y datos abiertos), al que tuve ocasión de asistir. La jornada se centró en cuatro áreas principales:

  • Business Intelligence (inteligencia de negocios)
  • Data Mining (minería de datos)
  • Big Data (macrodatos)
  • Open Data (datos abiertos)

El encuentro, organizado por TodoBI, StratebiGaceta Tecnológica e IT Latino, reunió a un gran número de personas interesadas en estos temas.

La primera charla fue de Emilio Arias del portal TodoBi, que hizo una presentación sobre las, en su opinión, nuevas tendencias en Open Analytics. Pudo citar hasta un total de trece:

  1. La democratización del Business Intelligence, es decir, la posibilidad de utilizar esas técnicas no solo por grandes empresas, sino también administraciones públicas, PYMES, etc. Y todo ello gracias a las tecnologías abiertas.
  2. El auge de los datos abiertos, especialmente del Estado, Comunidades Autónomas y Ayuntamiento, que cualquiera puede consultar y explotar.
  3. El cambio de status quo de vendedores.  A las grandes empresas como Oracle, SAP, IBM, Microsoft, Teradata, SAS, etc., se ha unido una serie de vendedores open source como Pentaho, Talent, etc.
  4. El software libre, que permite compartir información para generar sinergias con las que todos salimos ganando.
  5. La analítica de tiempo real (o cuasi-tiempo real).
  6. El tema de moda y sobre el cual hay mucha confusión: Big Data. Supone un cambio de paradigma al vivir inmersos en un mar de datos de gran Volumen, muy Variados y que hay que analizar a gran Velocidad (recordemos que en total hay unas 7 uves que representan Big Data).
  7. La Nube, que nos permite disfrutar de productos y servicios a los que podemos acceder desde cualquier parte.
  8. La analítica móvil, ya que España es uno de los países con mayor tasa de smartphones por habitante. Pero esto supone problemas específicos de usabilidad que hay que solucionar.
  9. La inteligencia social, como es analizar las redes sociales para extraer información de interés para las empresas.
  10. Periodismo y Storytelling de Datos, o cómo contar historias ocultas en grandes datos.
  11. Visualización, con una gran eclosión de infografías de gran valor estético en los medios de comunicación.
  12. Smart Cities, o ciudades inteligentes con miles y miles de sensores repartidos por la ciudad que detectan farolas o semáforos estropeados, baches en calles, la densidad del tráfico, etc.
  13. Smart Citizens, donde el ciudadano de a pie también usa los datos abiertos para tomar sus propias decisiones del día.

La segunda charla la dio Diego Martínez de la empresa Equifax, sobre la calidad de los datos open source. Habló sobre sus experiencias con Pentaho (software libre) para la integración de datos en diversos proyectos.

La tercera charla fue a cargo de Diego García, investigador en Data Mining de la Universidad de Cantabria. Explicó qué es la Minería de Datos, es decir, un conjunto de técnicas y tecnologías para entender y extraer la información relevante de un conjunto de datos para la ayuda en la toma de decisiones. Analizó qué no es Data Mining (extraer datos de una base de datos o generar gráficos estadísticos) y qué sí lo es (preparar los datos para extraer información o bien extraer dicho conocimiento oculto en los datos). Pasó después a explicar los tres grandes pilares del Data Mining, como son las reglas de asociación, el análisis de conglomerados (Clustering) y las tareas de predicción (clasificación y regresión). La charla terminó con un repaso de las herramientas libres de Data Mining disponibles en el mercado, como son Weka, RapidMiner y Knime.

Cortesía: http://mineria-datos-actualidad.blogspot.com.es/2012/06/por-que-usar-data-mining.html

Cortesía: http://mineria-datos-actualidad.blogspot.com.es/2012/06/por-que-usar-data-mining.html

La cuarta charla la dio Iván de Prado, cofundador de la empresa Datasalt, especializada en temas de Big Data y Cloud. Explicó en qué consiste Big Data, y puso la analogía con una enorme hamburguesa rica y sabrosa, pero que supone el problema de a ver cómo te la comes. Pasó a analizar diversos casos en los que las técnicas de Big Data suponen un paso adelante, como son el análisis de anuncios clasificados, el estudio de la influencia online en redes sociales, la explotación de datos agregados o las redes de anuncios, o el procesamiento de la gran cantidad de información en los juegos online. En general, resumió, Big Data supone un conjunto de tecnologías no maduras y aún dispersas, salvo quizá Hadoop. Finalizó resaltando la importancia de formar equipos humanos expertos en Big Data y en la llamada Ciencia de los Datos.

La quinta charla fue de Ignacio Bustillo de Stratebi, una empresa especializada en hacer Open Business Intelligence. El tema versó sobre las Smart Cities, o ciudades inteligentes llenas de sensores en sus farolas, semáforos, parques y jardines que detectan cuándo deben regarse, etc., en lo que ha venido a llamarse Internet of Things. Este tipo de ciudades generan una gran cantidad de información (Big Data), que puede utilizarse a nivel empresarial. Comentó la apabullante estimación de 24 mil millones de dispositivos conectados a Internet para el año 2020, cifra que asciende a 50 mil millones según Cisco. Tal cantidad de información procede de fuentes de datos heterogéneas, desestructuradas, con distintos niveles de granularidad, dinamicidad y calidad. La charla pasó después a centrarse sobre diversas tecnologías open source para Smart Cities, como son:

El llamado Internet of Things

El llamado Internet of Things

La siguiente charla la dio Alberto Abella de la empresa Rooter y del nodo español de la Open Knowledge Foundation, en la que habló de los datos abiertos en el mundo empresarial. Comentó que los Open Data se suelen centrar en el sector público, pero que también se pueden aprovechar desde el sector privado. Según un estudio de ASEDIE sobre el sector infomediario, se facturaron 520 millones de euros en 2011 y 400 millones en 2012, más o menos el doble de lo que hizo el sector del cine español. La información utilizada es de todo tipo, siendo la más importante la relacionada con los negocios, la geográfica y la legal. Mencionó la triste noticia de que la AEMET había cerrado el acceso a sus datos meteorológicos.

También habló del uso que se podía dar a los datos. Si bien en noviembre de 2011 el 85% de las fuentes no permitían la reutilización comercial de los datos, en la actualidad (datos de octubre de 2013) un 90% sí. Precisamente para evaluar la bondad de los datos abiertos que desde las distintas instituciones se ofrecen a los ciudadanos, Abella introdujo una métrica llamada Meloda, que permite puntuar la calidad de las distintas fuentes abiertas en función de su interoperabilidad, su documentación, su licencia de uso, etc. Los ayuntamientos con los datos abiertos de mayor calidad resultaron ser Santander y Zaragoza, mientras que otros como los de Córdoba o Badalona son, a su juicio, de peor calidad.

Logo de Meloda, cortesía: http://www.meloda.org/

Logo de Meloda, cortesía: http://www.meloda.org/

La última charla del día la dio Hugo Garrido, uno de los responsables del proyecto España en Llamas. Se trata de una maravillosa web de visualización que vio la luz en verano de 2013 en plena temporada de incendios forestales, que recopila la información de los incendios acaecidos en España en la última década. Destacó que no se trata de datos procedentes de fuentes abiertas, sino que tuvo que solicitar expresamente permiso para acceder a ellos al Ministerio de Medio Ambiente, aprovechando la Ley 27/2006 del derecho de acceso a la información en materia de medio ambiente. En la década de estudio se produjeron más de 180000 incendios, de los cuales se llegan a conocer hasta más de 150 campos de información, como las coordenadas del incendio, las causas, etc. Los datos originales procedían de una base de datos Microsoft Access y fueron reconvertidos a MySQL, a los que luego se les añadió información geográfica para poder pintarlos en mapas de Google Maps. Otras herramientas utilizadas fueron la librería de visualización D3.js y JQuery.

espanaenllamas

Cortesía de España en Llamas y Google Maps

Podéis ver todas las presentaciones así como los vídeos de las charlas en la web de Open Analytics.

Datos y mapas, buena combinación

Recientemente se ha hecho pública una web llamada Sightsmap que me ha parecido muy interesante. Utilizando la API de Google Maps, consiste en una visualización sobre los lugares más fotografiados en el planeta. En España, los sitios preferidos son Barcelona, Madrid y la costa. Esta información la consiguen analizando y geolocalizando las imágenes subidas al portal Panoramio, originalmente español y ahora propiedad de la compañía de Mountain View.

sightsmap

Cortesía: Sightsmap y Google Maps.

 

Y otro mapa que está causando furor en internet (tanto, que ha estado caído durante varias horas por excesivo número de visitas) es el que encontramos en la web de James Trimble, en la que se unen información geográfica y traducción automática de lenguas. Efectivamente, introducimos una palabra (en inglés) y el mapa muestra cómo se dice esa palabra en los principales idiomas europeos. Está basado en la API de Google Translate, contornos y fronteras de los países sacados de Natural Earth y los efectos dinámicos programados con la librería D3 de JavaScript.

 

european-translator

Cortesía: James Trimble.

Big Data o vivir en un mar de datos (vídeo)

El pasado 28 de diciembre se emitió por La 2 de TVE el programa La Sala: Espacio, un magacín sobre las actividades realizadas en la sede cultural y de divulgación de Telefónica, situada en su edificio histórico de Gran Vía en Madrid. Del minuto 24 al 28 del programa hablan sobre «Vivir en un Mar de Datos», una serie de conferencias sobre Big Data que Telefónica organiza y de la que ya os hemos hablado en un post anterior.

Por cierto, la próxima conferencia se celebrará el 21 de enero y versará sobre el Internet de las Cosas y las impresoras 3D.

La sala: Espacio – 28/12/13Ver vídeoLa sala: Espacio - 28/12/13

Argo, o cómo crear Inteligencia a partir de Fuentes Abiertas

Ahora que empieza la temporada de premios cinematográficos de los Globos de Oro y los Oscars, he visto la película «Argo» (2012), de Ben Affleck. Trata sobre los hechos reales acaecidos durante la crisis de los rehenes de la embajada estadounidense en Teherán después de la Revolución Iraní que expulsó del poder al antiguo sha en 1979. Dicha embajada fue asaltada por unos quinientos estudiantes que la consideraban un «nido de espías». De todos los empleados de la embajada, 52 fueron retenidos como rehenes durante 444 días, pero otros seis lograron escapar y refugiarse en casa del embajador canadiense. Es precisamente la historia del rescate de estos seis de lo que se trata la película «Argo».

En las fases iniciales de la película, se ve a expertos de la CIA discutiendo diversas estrategias para evacuar a los escondidos en casa del embajador. Alguien sugiere hacerlos pasar por expertos en cultivos. Sin embargo, Tony Mendez, el personaje interpretado por Ben Affleck, da en el clavo: las fotografías de la prensa local iraní que maneja la agencia de espionaje estadounidense muestran calles blancas cubiertas por la nieve: Ningún experto en cultivos sería creíble en un país asolado por un invierno crudo y frío.

argoImagen: cortesía Warner Bros.

Este es un sencillo ejemplo de Inteligencia de Fuentes Abiertas (OSINT, en sus siglas en inglés): recurrir a los medios de comunicación, ya sean de prensa escrita o audiovisual. Otras formas de fuentes abiertas son:

  • Las redes sociales, blogs, foros de Internet, etc.
  • Los datos abiertos (Open Data) publicados por los gobiernos, como estadísticas, leyes, notas de prensa, actas de sesiones parlamentarias, etc.
  • Observaciones tomadas por satélites meteorológicos, de defensa, etc., o por sensores de las ciudades inteligentes (Smart Cities).
  • Datos académicos (literatura gris): tesis doctorales, informes técnicos, actas de congresos, artículos científicos.
  • Etc.

Las fuentes abiertas nos rodean y contienen información que puede resultar muy útil para las empresas. Simplemente debemos detectarlas, adquirirlas y ponerlas en uso.

Análisis de sentimiento: una herramienta para medir tu reputación online

Últimamente he oído mucho hablar sobre el análisis de sentimientos (también llamado minería de opiniones), análisis «automático» se entiende. ¿Pero esto qué es? Se trata de una rama del saber muy joven, poco más de diez años, que está muy relacionada con la minería de datos, el aprendizaje estadístico, el procesamiento del lenguaje natural y con técnicas de web scraping y uso de APIs de acceso a redes sociales. Consiste básicamente en detectar e identificar sentimientos u opiniones que la gente expresa libremente sobre cualquier tema en redes sociales, blogs, comentarios de noticias, foros, etc. Dicho de otro modo, se trata de la detección y la extracción de información subjetiva en todo tipo de documentos escritos.

Es un área de especial interés para las empresas, pues les interesa descubrir si la gente está hablando de ellas o de sus productos, y además, si lo que dicen es bueno o malo.

En este contexto, una opinión se compone de dos partes:

  • El tema u objetivo sobre el que versa la opinión.
  • El sentimiento (o la ausencia del mismo) sobre dicho tema. Dicho sentimiento se detecta mediante la orientación semántica o la polaridad (positiva, neutra, negativa) de las palabras utilizadas en la opinión.

Bonne_Humeur

Así por ejemplo, imaginemos que soy el CEO de una empresa que cultiva y vende legumbres empaquetadas. Me interesará saber qué se cuece en el perfil social de mi empresa (perdón por el chiste, pero no he podido resistirme). Supongamos que encontramos este mensaje escrito por un usuario:

Me encanta comer lentejas X.

Aquí el tema de la opinión son las «lentejas de la marca X», mientras que el sentimiento es «me encanta» (es decir, un sentimiento positivo).

El mensaje puede ser más elaborado y complejo:

Me encanta comer lentejas X, pero siempre se me pegan al fondo de la cazuela.

Esta frase es más complicada porque expresa dos ideas o subtemas sobre el mismo tema («lentejas X») con sentimientos encontrados («me encanta» y «se pegan con facilidad»). Por ello el análisis de sentimientos puede realizarse a diferentes niveles:

  • A nivel de documento, que es cuando se analiza todo el documento en su conjunto. Se entiende en estos casos que el texto habla de un solo tema, aunque pueden aparecer varios subtemas que se expresan con un sentimiento particular. El balance de dichos subtemas hará que hablemos de un documento globalmente positivo, neutro o negativo.
  • A nivel de frase, que es cuando descomponemos el documento en párrafos y frases y realizamos el análisis del sentimiento frase a frase. Cada una de las frases tiene una valoración independiente de las demás.
  • A nivel de sintagma o grupo sintáctico, que es cuando descomponemos cada una de las frases en sintagmas o grupos sintácticos. Es el caso por ejemplo la frase anterior de las lentejas, que no es otra cosa que una frase compuesta de tipo coordinado adversativo (delatada por la conjunción «pero»), donde se contraponen dos ideas («me encanta las lentejas X» y «se pegan con facilidad»).

El análisis de sentimiento es complejo porque no nos basta con detectar la presencia de palabras positivas o negativas en el discurso. También importa la aparición de modificadores del sentido, como adjetivos, adverbios, verbos, signos de puntuación, etc. Por ejemplo consideremos estas frases:

He comprado lentejas X (valoración neutra).

Las lentejas X salen ricas (valoración positiva).

Las lentejas X salen ricas ricas ricas (repetición del adjetivo: valoración mucho mejor que la anterior).

Las lentejas X salen más o menos ricas (valoración atenuada).

Las lentejas X, ricas ricas no salen (valoración negativa, a pesar de la repetición del adjetivo).

Dicen que las lentejas X salen ricas… ¡Ja! (valoración negativa, por la ironía).

Como hemos indicado las empresas están muy interesadas en saber lo que la gente opina sobre ellas en las redes sociales, pues se trata de una información valiosísima y de importancia estratégica para conocer y gestionar su reputación online, que el INTECO define como «el conjunto de la información sobre una empresa expuesta en Internet (datos, imágenes, registros, noticias, comentarios, etc.) que conforma una descripción de dicha organización en el plano digital». Monitorizar la imagen que una empresa tiene en las redes sociales es fundamental para:

  • Adaptar su oferta, productos o servicios a la demanda esperada por el consumidor.
  • Identificar clientes potenciales.
  • Fidelizar clientes habituales.
  • Encontrar nichos de mercado.
  • Habilitar canales de comunicación alternativos a los existentes actualmente.
  • Identificar rápidamente quejas de los clientes y fallos en sus productos y servicios antes de que su imagen de marca resulte dañada.

El análisis de sentimiento es un tema apasionante, del que me oiréis hablar más a lo largo del próximo año. Y es que en la Universidad Francisco de Vitoria vamos a empezar en enero de 2014 varios proyectos relacionados con este tema. Para el que no pueda esperar a saber más, os recomiendo el siguiente libro escrito por el profesor Bing Liu de la Universidad de Illinois en Chicago (Estados Unidos): Sentiment Analysis and Opinion Mining (Morgan & Claypool, 2012).

Aprovecho para desearos a todos muy Feliz Navidad y un Próspero Año 2014. ¡Nos vemos tras las vacaciones!

mano

Derecho al olvido y fuentes abiertas

El pasado viernes celebrábamos en la Universidad Francisco de Vitoria el día del beato Ramón Llull, patrón de nuestra Escuela de Informática. Y durante una de las actividades programadas surgió la problemática actual del control de nuestra identidad digital en la Red. Nuestros alumnos, como todos los jóvenes de hoy en día, son grandes usuarios de redes sociales como Facebook,  Twitter o Instagram y algunos se extrañaron al oírme decir que tuvieran cuidado con lo que subían a Internet. Son nativos digitales y han vivido por tanto siempre rodeados de Internet. Sin embargo por ello mismo no son conscientes de lo que puede significar para ellos perder el control de su imagen, en particular si suben a las redes fotos comprometidas (borracheras, haciendo cosas peligrosas o simplemente cuando nos pillan con cara rara, léase con los ojos medio cerrados y la boca torcida). Las palabras se las lleva el viento, pero lo que se publica en Internet permanece para siempre.

Pero entonces me diréis, bueno yo tengo mi red social protegida a mis amigos y nadie fuera de mi entorno puede ver mis fotos o mis tuits. Eso es cierto. Pero también es verdad que las redes sociales, en particular Facebook, cambia sus políticas de privacidad de vez en cuando, muchas veces sin avisarnos, y en ocasiones quedamos al descubierto después de uno de estos cambios. Y como en casa del herrero se usa cuchillo de palo, a mí mismo me ha ocurrido esto: de repente encontrar que todo mi perfil en Facebook es público, a pesar de haberme preocupado de marcarlo como privado. Por suerte me di cuenta a tiempo…

Identidad-Digital

El problema de la identidad digital va más allá de las redes sociales. Recordemos lo que son las fuentes abiertas: todas aquellas fuentes de información a las que podemos acceder libremente, ya sea de manera gratuita o no. Incluimos desde prensa escrita, informes publicados por empresas, boletines oficiales, estadísticas oficiales, tesis doctorales, programas de televisión, mapas, etc.

El problema está cuando se publica algo sobre nosotros en algún documento que se cuelga en Internet, mismamente el Boletín Oficial del Estado (BOE) o el de la Propiedad Industrial (BOPI). Mira a ver si respondes afirmativamente a alguna de las siguientes preguntas:

  • ¿Has recibido alguna beca de estudios?
  • ¿Te has presentado a alguna oposición?
  • ¿Eres extranjero y te han concedido la nacionalidad española?
  • ¿Tienes multas de tráfico impagadas?
  • ¿Te han embargado la casa?
  • ¿Has registrado una marca comercial?
  • ¿Tienes alguna patente?

Si has respondido que sí a alguna de ellas, seguramente aparezcas en el BOE o en el BOPI. Aquí la cosa se pone seria. Quizá no te importe que salga si te han concedido una beca, pero quizá no te resulte tan agradable que sepan en tu empresa privada que, mientras estabas trabajando con ellos, te has presentado a una oposición para ser funcionario. ¿Y qué me dices de lo de las multas de tráfico? ¿Recuerdas cuando Castilla-La Mancha publicaba la lista oficial de maltratadores de mujeres en su comunidad?

Si a los boletines oficiales les añadimos la prensa, la cosa se pone peor. Es conocido los numerosos casos en los que una noticia publicada en prensa escrita permanece eones en Internet. Por ejemplo, M.C.G. demandó a Google por escanear una noticia de La Vanguardia en la que se decía que el Ministerio de Trabajo le iban a embargar la casa a él y a su esposa por impago (pongo las iniciales, porque no quiero contribuir a que su nombre siga asociado a tan desagradable suceso). Hoy en día no tiene problemas económicos ni siquiera sigue casado con aquella mujer. Sin embargo su nombre sigue asociado en Google a ese embargo. ¿De quién es la culpa? ¿Del periódico? ¿Del Ministerio por poner dicho anuncio? ¿De Google por indexar la noticia? ¿Tiene derecho este señor a que se borre de la Red esa información? Según los tribunales, parece que no. En cualquier caso, Google es solo el mensajero y se dedica a repetir lo que otros han dicho previamente.

A raíz de todo este problema, y ante los tímidos esfuerzos de la Eurocámara para regular la situación, han surgido empresas especializadas en borrar todo nuestro rastro en Internet, lo que se conoce como derecho al olvido, y así mejorar nuestra reputación online. No solo las personas deben interesarse sobre este tema, también las empresas desean conocer qué se dice sobre ellas en las redes sociales. Un simple comentario negativo en una página de viajes puede chafar todo el esfuerzo de publicidad realizado en un hotel, por ejemplo. La imagen corporativa de nuestra empresa puede hacerse añicos si no controlamos nuestra presencia en Internet.Reputacion-Redes-Sociales

Es por ello que es necesario formar a profesionales especializados en el manejo de fuentes abiertas y en particular de las implicaciones legales y jurídicas que surgen en confrontación con los derechos de protección de datos de carácter personal y el derecho del honor. Pero de esto, seguiremos hablando otro día.