El pasado 24 de octubre de 2013 se celebró en Medialab-Prado (junto al Caixa Fórum de Madrid) el encuentro Open Analytics (analítica con software y datos abiertos), al que tuve ocasión de asistir. La jornada se centró en cuatro áreas principales:
- Business Intelligence (inteligencia de negocios)
- Data Mining (minería de datos)
- Big Data (macrodatos)
- Open Data (datos abiertos)
El encuentro, organizado por TodoBI, Stratebi, Gaceta Tecnológica e IT Latino, reunió a un gran número de personas interesadas en estos temas.
La primera charla fue de Emilio Arias del portal TodoBi, que hizo una presentación sobre las, en su opinión, nuevas tendencias en Open Analytics. Pudo citar hasta un total de trece:
- La democratización del Business Intelligence, es decir, la posibilidad de utilizar esas técnicas no solo por grandes empresas, sino también administraciones públicas, PYMES, etc. Y todo ello gracias a las tecnologías abiertas.
- El auge de los datos abiertos, especialmente del Estado, Comunidades Autónomas y Ayuntamiento, que cualquiera puede consultar y explotar.
- El cambio de status quo de vendedores. A las grandes empresas como Oracle, SAP, IBM, Microsoft, Teradata, SAS, etc., se ha unido una serie de vendedores open source como Pentaho, Talent, etc.
- El software libre, que permite compartir información para generar sinergias con las que todos salimos ganando.
- La analítica de tiempo real (o cuasi-tiempo real).
- El tema de moda y sobre el cual hay mucha confusión: Big Data. Supone un cambio de paradigma al vivir inmersos en un mar de datos de gran Volumen, muy Variados y que hay que analizar a gran Velocidad (recordemos que en total hay unas 7 uves que representan Big Data).
- La Nube, que nos permite disfrutar de productos y servicios a los que podemos acceder desde cualquier parte.
- La analítica móvil, ya que España es uno de los países con mayor tasa de smartphones por habitante. Pero esto supone problemas específicos de usabilidad que hay que solucionar.
- La inteligencia social, como es analizar las redes sociales para extraer información de interés para las empresas.
- Periodismo y Storytelling de Datos, o cómo contar historias ocultas en grandes datos.
- Visualización, con una gran eclosión de infografías de gran valor estético en los medios de comunicación.
- Smart Cities, o ciudades inteligentes con miles y miles de sensores repartidos por la ciudad que detectan farolas o semáforos estropeados, baches en calles, la densidad del tráfico, etc.
- Smart Citizens, donde el ciudadano de a pie también usa los datos abiertos para tomar sus propias decisiones del día.
La segunda charla la dio Diego Martínez de la empresa Equifax, sobre la calidad de los datos open source. Habló sobre sus experiencias con Pentaho (software libre) para la integración de datos en diversos proyectos.
La tercera charla fue a cargo de Diego García, investigador en Data Mining de la Universidad de Cantabria. Explicó qué es la Minería de Datos, es decir, un conjunto de técnicas y tecnologías para entender y extraer la información relevante de un conjunto de datos para la ayuda en la toma de decisiones. Analizó qué no es Data Mining (extraer datos de una base de datos o generar gráficos estadísticos) y qué sí lo es (preparar los datos para extraer información o bien extraer dicho conocimiento oculto en los datos). Pasó después a explicar los tres grandes pilares del Data Mining, como son las reglas de asociación, el análisis de conglomerados (Clustering) y las tareas de predicción (clasificación y regresión). La charla terminó con un repaso de las herramientas libres de Data Mining disponibles en el mercado, como son Weka, RapidMiner y Knime.
La cuarta charla la dio Iván de Prado, cofundador de la empresa Datasalt, especializada en temas de Big Data y Cloud. Explicó en qué consiste Big Data, y puso la analogía con una enorme hamburguesa rica y sabrosa, pero que supone el problema de a ver cómo te la comes. Pasó a analizar diversos casos en los que las técnicas de Big Data suponen un paso adelante, como son el análisis de anuncios clasificados, el estudio de la influencia online en redes sociales, la explotación de datos agregados o las redes de anuncios, o el procesamiento de la gran cantidad de información en los juegos online. En general, resumió, Big Data supone un conjunto de tecnologías no maduras y aún dispersas, salvo quizá Hadoop. Finalizó resaltando la importancia de formar equipos humanos expertos en Big Data y en la llamada Ciencia de los Datos.
La quinta charla fue de Ignacio Bustillo de Stratebi, una empresa especializada en hacer Open Business Intelligence. El tema versó sobre las Smart Cities, o ciudades inteligentes llenas de sensores en sus farolas, semáforos, parques y jardines que detectan cuándo deben regarse, etc., en lo que ha venido a llamarse Internet of Things. Este tipo de ciudades generan una gran cantidad de información (Big Data), que puede utilizarse a nivel empresarial. Comentó la apabullante estimación de 24 mil millones de dispositivos conectados a Internet para el año 2020, cifra que asciende a 50 mil millones según Cisco. Tal cantidad de información procede de fuentes de datos heterogéneas, desestructuradas, con distintos niveles de granularidad, dinamicidad y calidad. La charla pasó después a centrarse sobre diversas tecnologías open source para Smart Cities, como son:
- Hardware: Arduino, Raspberry Pi.
- Procesado de datos: Hadoop, HBase, Cassandra, Pentaho Big Data.
- Bases de datos NoSQL: MongoDB (base de datos documental), Cassandra (bases de datos basada en claves/valor).
La siguiente charla la dio Alberto Abella de la empresa Rooter y del nodo español de la Open Knowledge Foundation, en la que habló de los datos abiertos en el mundo empresarial. Comentó que los Open Data se suelen centrar en el sector público, pero que también se pueden aprovechar desde el sector privado. Según un estudio de ASEDIE sobre el sector infomediario, se facturaron 520 millones de euros en 2011 y 400 millones en 2012, más o menos el doble de lo que hizo el sector del cine español. La información utilizada es de todo tipo, siendo la más importante la relacionada con los negocios, la geográfica y la legal. Mencionó la triste noticia de que la AEMET había cerrado el acceso a sus datos meteorológicos.
También habló del uso que se podía dar a los datos. Si bien en noviembre de 2011 el 85% de las fuentes no permitían la reutilización comercial de los datos, en la actualidad (datos de octubre de 2013) un 90% sí. Precisamente para evaluar la bondad de los datos abiertos que desde las distintas instituciones se ofrecen a los ciudadanos, Abella introdujo una métrica llamada Meloda, que permite puntuar la calidad de las distintas fuentes abiertas en función de su interoperabilidad, su documentación, su licencia de uso, etc. Los ayuntamientos con los datos abiertos de mayor calidad resultaron ser Santander y Zaragoza, mientras que otros como los de Córdoba o Badalona son, a su juicio, de peor calidad.
La última charla del día la dio Hugo Garrido, uno de los responsables del proyecto España en Llamas. Se trata de una maravillosa web de visualización que vio la luz en verano de 2013 en plena temporada de incendios forestales, que recopila la información de los incendios acaecidos en España en la última década. Destacó que no se trata de datos procedentes de fuentes abiertas, sino que tuvo que solicitar expresamente permiso para acceder a ellos al Ministerio de Medio Ambiente, aprovechando la Ley 27/2006 del derecho de acceso a la información en materia de medio ambiente. En la década de estudio se produjeron más de 180000 incendios, de los cuales se llegan a conocer hasta más de 150 campos de información, como las coordenadas del incendio, las causas, etc. Los datos originales procedían de una base de datos Microsoft Access y fueron reconvertidos a MySQL, a los que luego se les añadió información geográfica para poder pintarlos en mapas de Google Maps. Otras herramientas utilizadas fueron la librería de visualización D3.js y JQuery.
Podéis ver todas las presentaciones así como los vídeos de las charlas en la web de Open Analytics.