He hecho caso a la recomendación de Paul Bradshaw, y hoy he estado trasteando con Yahoo! Pipes, una herramienta online que te permite jugar y trastear con feeds y datos, reordenarlos, extraer partes, y mil cosas más. En la lista de proyectos que tengo en mente está el de hacer un mashup con feeds de periódicos online españoles. La idea es la de acumular y organizar los datos que proporcionan estos feeds para luego, crear visualizaciones con los datos acumulados a lo largo de cierto tiempo: autores de las noticias, nubes de tags con palabras más repetidas en titulares y textos, horas y frecuencia de publicación y más cosas que aún no he definido.
Lo que he hecho con Yahoo! Pipes es una prueba de concepto de esta idea, una especie de prototipo que agrupa los feeds de Adn.es, Publico, El Pais, El Mundo y Soitu.es y extrae el autor de cada noticia. El resultado es un feed que nos muestra las noticias con un título siguiento este formato: [Medio] Autor, lo que nos permite de un vistazo ver los autores de las últimas noticias publicadas en los principales medios online españoles y ver, por ejemplo, cuál es la prevalencia de las agencias en cada uno, o de las noticias de redacción, las que por un motivo u otro el autor ha declinado firmar. La utilidad de los datos es limitada, claro, ya que el feed recoje sólo los últimos 5 items de cada medio, de hecho, lo de prototipo le viene un poco grande.
Lo que yo pretendo hacer va un poco más allá tanto en visualizaciones como en datos a presentar, con posibilidades de comparativas entre medios y entre el mismo medio, en dos rangos de tiempo diferentes. Para ello necesito, además de capturar los feeds, programar el script que diseccionará los feeds y que grabará el contenido en una base de datos. La parte más divertida será, mientras se van guardando los datos, ir creando las visualizaciones. De hecho, es la excusa perfecta que estoy esperando para comprarme un libro de Processing.
C.
Está muy bien… y es muy útil. Va bien, va bien. Enhorabuena!
Carlos
Gracias por los ánimos!