[pyar] scrapyando páginas con javascript

Pablo SEMINARIO pabluk en gmail.com
Jue Mar 20 03:47:39 ART 2014


2014-03-20 6:54 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:

> Gracias Eze por la recomendación. Scrapy es lo que venía usando, pasa que
> el tema del headless browsing implica (hasta donde vi) interfacear con
> webkit y no sé si se la banca en términos de eficiencia, pero supongo que
> tendré que hacer algunas pruebas antes de ver.
>
> A los demás: en caso de ir con la opción 2, ¿cómo encararían el tema de
> encontrar las llamadas a javascript que corresponde a cada dato?
>
> Pensando en un ejemplo concreto, dada la url:
>
> http://www.booking.com/hotel/tr/ayasofyahotel.en-gb.html?selected_currency=EUR&checkin=2014-03-20&checkout=2014-03-22
> ¿cómo harían para scrapear el mejor precio de cada tipo de habitación en
> la columna que dice "price for 2 nights"?
>
>
Yo tambien voto por la opción 2 mientras lo que devuelven esas requests
sean datos en JSON y no sea código  Javascript que haya que interpretar.
Para la URL del ejemplo, probé desactivando Javascript en mi browser y la
columna "price for 2 nights" aparece renderizada sin problemas. No sé si es
normal o es que probé muy rapido.

Saludos!

--
@pabluk
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140320/f020db44/attachment.html>


More information about the pyar mailing list