[pyar] scrapyando páginas con javascript

Juan Carizza juan.carizza en gmail.com
Mie Abr 2 12:06:45 ART 2014


Mejor usa CasperJS. Esta construido arriba de PhantomJS y es mas simple. Lo
estuve usando y va muy bien.

http://casperjs.org/


2014-04-01 18:19 GMT-03:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:

> Después de un tiempo de renegar, encontré la forma más simple de hacer
> andar la opción 1 con un headless browser (lo necesito para poder dejar
> todo corriendo en una VM sin entorno gráfico).
>
> Lo comparto por si a alguien le sirve:
>
>
> http://stackoverflow.com/questions/13287490/is-there-a-way-to-use-phantomjs-in-python?lq=1
>
>
> 2014-03-20 3:47 GMT-03:00 Pablo SEMINARIO <pabluk en gmail.com>:
>
>>
>> 2014-03-20 6:54 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:
>>
>> Gracias Eze por la recomendación. Scrapy es lo que venía usando, pasa que
>>> el tema del headless browsing implica (hasta donde vi) interfacear con
>>> webkit y no sé si se la banca en términos de eficiencia, pero supongo que
>>> tendré que hacer algunas pruebas antes de ver.
>>>
>>> A los demás: en caso de ir con la opción 2, ¿cómo encararían el tema de
>>> encontrar las llamadas a javascript que corresponde a cada dato?
>>>
>>> Pensando en un ejemplo concreto, dada la url:
>>>
>>> http://www.booking.com/hotel/tr/ayasofyahotel.en-gb.html?selected_currency=EUR&checkin=2014-03-20&checkout=2014-03-22
>>> ¿cómo harían para scrapear el mejor precio de cada tipo de habitación en
>>> la columna que dice "price for 2 nights"?
>>>
>>>
>> Yo tambien voto por la opción 2 mientras lo que devuelven esas requests
>> sean datos en JSON y no sea código  Javascript que haya que interpretar.
>> Para la URL del ejemplo, probé desactivando Javascript en mi browser y la
>> columna "price for 2 nights" aparece renderizada sin problemas. No sé si es
>> normal o es que probé muy rapido.
>>
>> Saludos!
>>
>> --
>> @pabluk
>>
>> _______________________________________________
>> pyar mailing list pyar en python.org.ar
>> http://listas.python.org.ar/listinfo/pyar
>>
>> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
>
> --
>  *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
> We are the problem. And we should provide the *solution*.
>
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140402/7318da10/attachment.html>


More information about the pyar mailing list