[pyar] scrapyando páginas con javascript

Alejandro Santos listas en alejolp.com
Vie Abr 4 15:58:23 ART 2014


2014-03-19 22:38 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:
> 2014-03-19 18:27 GMT-03:00 Angel Java Lopez <ajlopez2000 en gmail.com>:
>>
>> Pero hace llamadas ajax? O trae javascript que dinamicamente arma la
>> pagina?
>
>
> En realidad no me consta que use AJAX la verdad, creo que es más bien lo
> segundo. ¿En qué cambiaría la situación según sea una cosa u otra?
>

En que lo segundo es una forma un poco mas interesante de evitar que
alguien te scrapee la página.

Por ejemplo, en vez de generar por AJAX un JSON con la lista de hoteles...

  ["A", "B", "C"]

Generás un JS que con DOM lo incluís de forma dinámica:

 dom.getEBID("head").addChild("script", src="/url_del_js_autogen")

y el JS generado auto-dinamicamente hace DOM a su vez:

  h = doc.getElementById("hoteles")
  h.addChild("A");
  h.addChild("B");
  h.addChild("C");

La contramedida a esta contramedida es usar un browser headless para
scrapear la página.

-- 
Alejandro Santos


More information about the pyar mailing list