[pyar] Parseando HTML dentro de XML

Angel Java Lopez ajlopez2000 en gmail.com
Sab Oct 27 15:24:40 ART 2012


Hmmm... ni idea de lxml, apenas de python... pero encontre por Google

http://stackoverflow.com/questions/6123351/equivalent-to-innerhtml-when-using-lxml-html-to-parse-html

parece que deberia andar:

(body.text or '') +\''.join([html.tostring(child) for child in
body.iterchildren()])


donde en vez de body, podria tu variable tag

yo intentaria tambien
etree.tostring(tutag, method='html')

o method='xml'

parece que eso te deja el contenido, PERO con los tags de apertura y cierre
de tutag.


2012/10/27 Sebastian Bassi <sebastian.bassi en globant.com>

> Tengo un XML donde tiene en una parte:
>
> "<titulo>Aca va el titulo que tiene <italic>letra italica</italic> y
> sigue el texto</titulo>"
>
> Cuando lo parseo con lxml, el atributo texto de ese elemento es:
>
> "Aca va el titulo que tiene "
>
> mi parser es de este estilo:
>
> context = etree.iterparse(fin, events=("end",))
>     for a, elem in context:
>         if elem.tag == tag:
>             print elem.text
>
> El archivo xml no lo hice yo, sino que lo bajo de un 3ro y no puede
> decirle que no pongan tags de HTML en ese lugar. ¿Que puedo hacer para
> recuperar el texto completo? Yo quisiera tener:
>
> "Aca va el titulo que tiene <italic>letra italica</italic> y sigue el
> texto"
>
>
> --
> Sebastián Bassi. sebastian.bassi en globant.com
> Lic. en Biotecnología con orientación en genética molecular.
> Software Developer @ Globant.
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20121027/1177f1ee/attachment.html>


More information about the pyar mailing list