Hoy 3 de marzo tiene lugar en Medialab-Prado (C/ Plaza de las Letras esquina Alameda, 15, Madrid) un taller de «Web Scraping», una de las herramientas básicas de la Inteligencia de Fuentes Abiertas (OSINT). En particular, se trata de la extracción de información de un sitio web, también denominada en español «Minería web».
La información extraída de una web puede ser de varios tipos:
- Contenido de la web, es decir, el texto mismo y las imágenes que aparecen en las páginas.
- Estructura de la web, con su organización jerárquica, carpetas, hipervínculos a páginas internas del sitio o a páginas externas, etc.
- Uso de la web por parte de los usuarios, en relación a dónde hacen clic los usuarios, cuales son las páginas del sitio más visitadas, qué horas son las más frecuentadas, etc.
El evento comenzará con una introducción a las técnicas de Web Scraping desde el punto de vista del Periodismo de Datos por parte de Daniele Grasso y Jesús Escudero, periodistas de El Confidencial. La segunda parte estará a cargo de Miguel Fiandor, responsable del portal Transparencia de Cuentas Públicas, y será eminentemente práctica y versará sobre la herramienta ScraperWiki utilizando varias librerías de Python, como son BeautifulSoup y Requests.
Para asistir, consulta la información en la web oficial del evento. También puedes seguirlo en streaming, si bien la segunda parte no estará disponible online.