[pyar] Parseando HTML dentro de XML

Sebastian Bassi sebastian.bassi en globant.com
Sab Oct 27 15:04:16 ART 2012


Tengo un XML donde tiene en una parte:

"<titulo>Aca va el titulo que tiene <italic>letra italica</italic> y
sigue el texto</titulo>"

Cuando lo parseo con lxml, el atributo texto de ese elemento es:

"Aca va el titulo que tiene "

mi parser es de este estilo:

context = etree.iterparse(fin, events=("end",))
    for a, elem in context:
        if elem.tag == tag:
            print elem.text

El archivo xml no lo hice yo, sino que lo bajo de un 3ro y no puede
decirle que no pongan tags de HTML en ese lugar. ¿Que puedo hacer para
recuperar el texto completo? Yo quisiera tener:

"Aca va el titulo que tiene <italic>letra italica</italic> y sigue el texto"


-- 
Sebastián Bassi. sebastian.bassi en globant.com
Lic. en Biotecnología con orientación en genética molecular.
Software Developer @ Globant.



More information about the pyar mailing list