[pyar] Parseando HTML dentro de XML

Juan BC jbc.develop en gmail.com
Sab Oct 27 15:16:16 ART 2012


beautiful soup :)

El día 27 de octubre de 2012 15:04, Sebastian Bassi
<sebastian.bassi en globant.com> escribió:
> Tengo un XML donde tiene en una parte:
>
> "<titulo>Aca va el titulo que tiene <italic>letra italica</italic> y
> sigue el texto</titulo>"
>
> Cuando lo parseo con lxml, el atributo texto de ese elemento es:
>
> "Aca va el titulo que tiene "
>
> mi parser es de este estilo:
>
> context = etree.iterparse(fin, events=("end",))
>     for a, elem in context:
>         if elem.tag == tag:
>             print elem.text
>
> El archivo xml no lo hice yo, sino que lo bajo de un 3ro y no puede
> decirle que no pongan tags de HTML en ese lugar. ¿Que puedo hacer para
> recuperar el texto completo? Yo quisiera tener:
>
> "Aca va el titulo que tiene <italic>letra italica</italic> y sigue el texto"
>
>
> --
> Sebastián Bassi. sebastian.bassi en globant.com
> Lic. en Biotecnología con orientación en genética molecular.
> Software Developer @ Globant.
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar



-- 
Juan B Cabral



More information about the pyar mailing list