[pyar] scrapyando páginas con javascript

Pablo Gabriel Celayes pablocelayes en gmail.com
Mie Abr 2 12:31:58 ART 2014


Gracias por el dato! Ahí lo voy a probar.


2014-04-02 12:06 GMT-03:00 Juan Carizza <juan.carizza en gmail.com>:

> Mejor usa CasperJS. Esta construido arriba de PhantomJS y es mas simple.
> Lo estuve usando y va muy bien.
>
> http://casperjs.org/
>
>
> 2014-04-01 18:19 GMT-03:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>:
>
> Después de un tiempo de renegar, encontré la forma más simple de hacer
>> andar la opción 1 con un headless browser (lo necesito para poder dejar
>> todo corriendo en una VM sin entorno gráfico).
>>
>> Lo comparto por si a alguien le sirve:
>>
>>
>> http://stackoverflow.com/questions/13287490/is-there-a-way-to-use-phantomjs-in-python?lq=1
>>
>>
>> 2014-03-20 3:47 GMT-03:00 Pablo SEMINARIO <pabluk en gmail.com>:
>>
>>>
>>> 2014-03-20 6:54 GMT+01:00 Pablo Gabriel Celayes <pablocelayes en gmail.com>
>>> :
>>>
>>> Gracias Eze por la recomendación. Scrapy es lo que venía usando, pasa
>>>> que el tema del headless browsing implica (hasta donde vi) interfacear con
>>>> webkit y no sé si se la banca en términos de eficiencia, pero supongo que
>>>> tendré que hacer algunas pruebas antes de ver.
>>>>
>>>> A los demás: en caso de ir con la opción 2, ¿cómo encararían el tema de
>>>> encontrar las llamadas a javascript que corresponde a cada dato?
>>>>
>>>> Pensando en un ejemplo concreto, dada la url:
>>>>
>>>> http://www.booking.com/hotel/tr/ayasofyahotel.en-gb.html?selected_currency=EUR&checkin=2014-03-20&checkout=2014-03-22
>>>> ¿cómo harían para scrapear el mejor precio de cada tipo de habitación
>>>> en la columna que dice "price for 2 nights"?
>>>>
>>>>
>>> Yo tambien voto por la opción 2 mientras lo que devuelven esas requests
>>> sean datos en JSON y no sea código  Javascript que haya que interpretar.
>>> Para la URL del ejemplo, probé desactivando Javascript en mi browser y
>>> la columna "price for 2 nights" aparece renderizada sin problemas. No sé si
>>> es normal o es que probé muy rapido.
>>>
>>> Saludos!
>>>
>>> --
>>> @pabluk
>>>
>>> _______________________________________________
>>> pyar mailing list pyar en python.org.ar
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>>
>>
>>
>>
>> --
>>  *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
>> We are the problem. And we should provide the *solution*.
>>
>> _______________________________________________
>> pyar mailing list pyar en python.org.ar
>> http://listas.python.org.ar/listinfo/pyar
>>
>> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
 *ıl**l**ıl**l**ı* ρąβℓ๏ *ıllı**lı*
We are the problem. And we should provide the *solution*.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140402/2979c09f/attachment-0001.html>


More information about the pyar mailing list