[pyar] Obtener el HTML resultante luego del parseo del browser

Andrés Gattinoni andresgattinoni en gmail.com
Mar Oct 5 18:02:06 ART 2010


2010/10/5 Martin Cerdeira <martincerdeira en gmail.com>:
> 2010/10/5 Martin Cerdeira <martincerdeira en gmail.com>:
>> 2010/10/5 Sebastian Bassi <sebastian.bassi en globant.com>
>>>
>>> Tengo un HTML + JS + CSS, cuando lo veo con un browser (Mozilla) y veo
>>> la fuente, veo que tiene HTML generado dinamicamente gracias al JS. Yo
>>> quisiera operar con ese html, desde Python. O sea, quiero abrir el
>>> HTML original desde Python pero "como si fuese el browser". Creo que
>>> es un tema que se pleanteo pero nunca lo segui y ahora no lo
>>> encuentro.
>>>
>>>
>>> --
>>> Sebastián Bassi. sebastian.bassi en globant.com
>>> Lic. en Biotecnología con orientación en genética molecular.
>>> Software Developer @ Globant.
>>> _______________________________________________
>>> pyar mailing list pyar en python.org.ar
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>>
>> No conozco porque no usé la biblioteca, pero, vos podés usar la
>> biblioteca webbrowser:
>>
>> import webbrowser
>>
>> webbrowser.open('http://docs.python.org/lib/module-webbrowser.html')
>>
>> Y, estimo (o podés empezar probando eso) que tenés un método para ver
>> el HTML y, estimo también, que te va a servir para lo que necesitás =)
>>
>> -------------------------------------
>> Martín Cerdeira - Software Developer
>> [web] http://www.codmacs.blogspot.com/
>> ()  ascii ribbon campaign
>> /\  www.asciiribbon.org
>>
>
> Perdón, dije cualquiera, me fui para el lado de los tomates. Quise decir urllib.

Si lo que querés es ver el contenido generado por javascript (sea
generado íntegramente del lado del cliente u obteniendo información
por ajax) vas a necesitar algo que pueda ejecutar javascript. Creo que
hay algunas cosas dando vueltas pero nunca las usé.

Con urllib solamente vas a poder obtener el HTML+Javascript, pero no
vas a poder obtener lo que el javascript genere. Y webbrowser, que yo
sepa, lo que hace es lanzar el browser por default de tu SO para abrir
la URL que le mandás. Pero no hay (que yo sepa) mucha forma de
controlar lo que pasa después en el browser.



More information about the pyar mailing list