[pyar] scrapyando páginas con javascript

Pablo Gabriel Celayes pablocelayes en gmail.com
Mar Abr 1 18:19:33 ART 2014


Después de un tiempo de renegar, encontré la forma más simple de hacer
andar la opción 1 con un headless browser (lo necesito para poder dejar
todo corriendo en una VM sin entorno gráfico).

Lo comparto por si a alguien le sirve:

http://stackoverflow.com/questions/13287490/is-there-a-way-to-use-phantomjs-in-python?lq=1


2014-03-20 3:47 GMT-03:00 Pablo SEMINARIO <pabluk en gmail.com>:

>
> 2014-03-20 6:54 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:
>
> Gracias Eze por la recomendación. Scrapy es lo que venía usando, pasa que
>> el tema del headless browsing implica (hasta donde vi) interfacear con
>> webkit y no sé si se la banca en términos de eficiencia, pero supongo que
>> tendré que hacer algunas pruebas antes de ver.
>>
>> A los demás: en caso de ir con la opción 2, ¿cómo encararían el tema de
>> encontrar las llamadas a javascript que corresponde a cada dato?
>>
>> Pensando en un ejemplo concreto, dada la url:
>>
>> http://www.booking.com/hotel/tr/ayasofyahotel.en-gb.html?selected_currency=EUR&checkin=2014-03-20&checkout=2014-03-22
>> ¿cómo harían para scrapear el mejor precio de cada tipo de habitación en
>> la columna que dice "price for 2 nights"?
>>
>>
> Yo tambien voto por la opción 2 mientras lo que devuelven esas requests
> sean datos en JSON y no sea código  Javascript que haya que interpretar.
> Para la URL del ejemplo, probé desactivando Javascript en mi browser y la
> columna "price for 2 nights" aparece renderizada sin problemas. No sé si es
> normal o es que probé muy rapido.
>
> Saludos!
>
> --
> @pabluk
>
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
 *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
We are the problem. And we should provide the *solution*.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140401/28425d9f/attachment-0001.html>


More information about the pyar mailing list