[pyar] Proyecto "Tres tapas"

Pablo Gabriel Celayes pablocelayes en gmail.com
Mar Abr 29 08:15:01 ART 2014


2014-04-29 0:41 GMT-03:00 Martín Gaitán <gaitan en gmail.com>:

> Buenas,  acá yo con otra idea para acribillen con buena onda.
>
> Resulta que en mayo habrá un "congreso de Periodismo Digital" organizado
> por FOPEA [1] el Foro de Periodismo Argentino.
>
> Dentro del evento, bastante "decorativamente" para mi gusto [2] pero no
> por eso menos interesante, se realiza un "hackatón" a temario abierto.
>
> Y un poco porque me parece un tema muy interesante y otro poco porque
> justamente se trata de un "congreso de periodismo" [3] se me ocurrió
> proponer un proyecto, a priori sencillo, pero muy escalable, que analice
> los principales diarios argentinos. Lo bauticé, haciendome el pícaro como
> corresponde, "Tres tapas".
>
> http://fopea2014.hackdash.org/projects/53567058c2a7279770000004
>
> Basicamente, armar scrappers (o usar, por ejemplo, los que ya tiene el
> software Calibre), chupar todos los datos que podamos y visualizarlos a
> traves de una plataforma que permita filtrar por palabras clave, fechas,
> diarios, etc. [4]
>
> Al principio no sé podrá hacer mucho más que agregaciones de palabras o
> frases explícitas, pero más adelante se puede avanzar con cosas de NLP,
> análisis de sentimiento y eso.
>
> Por supuesto, si lo hacemos será open source, y seria piola arrancar algo
> *antes* del congreso.
>
> Algo que vi que puede ser útil es
>
> https://github.com/codelucas/newspaper
>
> Charlando con Manuel Aristarán (que de paso, es un tipo más que intesante
> [5] y sería genial tenerlo en una Pycon/Pyday) por Twitter, me recomendó
> revisar la tesis de maestría de datos de Anthony Lenton (Achuni, estás por
> ahi?) y este sitio http://www.mediacloud.org
>
> qué les parece la idea?
>
Muy buena!


> conocen algo similar? algo que les parezca que puede ser útil?
>
Esto puede llegar a servir para scrapear noticias estructuradas (título,
resumen, copete, cuerpo, imagen, etc.) de distintas fuentes:

http://www.diffbot.com/pricing/

A gran escala es pago, pero el trial de 30 días y 10,000 llamadas nos puede
servir para hacer experimentos en la hackatón, sacar algunas ideas, y a
futuro pisarlo con otra cosa.


>
> Saludos.
>
>
> [1] http://congresodigitalfopea.com/
> [2] Se los dije públicamente
> https://groups.google.com/d/msg/open-data-cordoba/wZirLoFg0Q8/FRR7BtmVmBoJ
> [3] En general el foco del "periodismo de datos" está puesto en los datos
> gubernamentales, cosa que está bien, claro.. pero ¿por qué no analizar al
> propio periodismo?
> [4] Algunitas ideas de "reportes" https://gist.github.com/mgaitan/11179437
> [5] https://www.youtube.com/watch?v=bSBh6Cm2Hpg
>
> --
> mgaitan.github.io
> textosyprextextos.com.ar
>
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
 *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
We are the problem. And we should provide the *solution*.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140429/31ff977e/attachment.html>


More information about the pyar mailing list