[pyar] scrapyando páginas con javascript

Pablo Gabriel Celayes pablocelayes en gmail.com
Vie Abr 4 19:05:53 ART 2014


Es lo que estoy haciendo ahora, usando un headless browser con splinter.

También anduve intentando con phantomjs, pero no lo pude hacer andar.

Es probable que me tenga que terminar decidiendo por una de dos
complicaciones: tratar de encarar lo del JS o dejarlo como está pero
hacerlo distribuido, porque es data que hay que actualizar a diario y con
la implementación que tengo tarda unas 30hs en traerla :S

De todas formas el cliente ya me dijo que lo deje así y siga adelante, que
otro developer especializado en Google App Engine se va a encargar de que
escale lo que hay.


2014-04-04 15:58 GMT-03:00 Alejandro Santos <listas en alejolp.com>:

> 2014-03-19 22:38 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:
> > 2014-03-19 18:27 GMT-03:00 Angel Java Lopez <ajlopez2000 en gmail.com>:
> >>
> >> Pero hace llamadas ajax? O trae javascript que dinamicamente arma la
> >> pagina?
> >
> >
> > En realidad no me consta que use AJAX la verdad, creo que es más bien lo
> > segundo. ¿En qué cambiaría la situación según sea una cosa u otra?
> >
>
> En que lo segundo es una forma un poco mas interesante de evitar que
> alguien te scrapee la página.
>
> Por ejemplo, en vez de generar por AJAX un JSON con la lista de hoteles...
>
>   ["A", "B", "C"]
>
> Generás un JS que con DOM lo incluís de forma dinámica:
>
>  dom.getEBID("head").addChild("script", src="/url_del_js_autogen")
>
> y el JS generado auto-dinamicamente hace DOM a su vez:
>
>   h = doc.getElementById("hoteles")
>   h.addChild("A");
>   h.addChild("B");
>   h.addChild("C");
>
> La contramedida a esta contramedida es usar un browser headless para
> scrapear la página.
>
> --
> Alejandro Santos
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
 *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
We are the problem. And we should provide the *solution*.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140404/a40ad02e/attachment.html>


More information about the pyar mailing list