[pyar] Parseando HTML dentro de XML

Gonzalo Martinez gonzafirewall en gmail.com
Sab Oct 27 16:06:56 ART 2012


Capaz que digo una boludez pero no se puede hacer con una expresión regular
de este estilo?

import re

a = """<titulo>Aca va el titulo que tiene <italic>letra italica</italic> y

sigue el texto</titulo> """

b = re.compile('<titulo>([^"]*)</titulo>')

c = b.search(a)

print c.group(1)


Saludos,

El 27 de octubre de 2012 15:24, Angel Java Lopez
<ajlopez2000 en gmail.com>escribió:

> Hmmm... ni idea de lxml, apenas de python... pero encontre por Google
>
>
> http://stackoverflow.com/questions/6123351/equivalent-to-innerhtml-when-using-lxml-html-to-parse-html
>
> parece que deberia andar:
>
> (body.text or '') +\''.join([html.tostring(child) for child in body.iterchildren()])
>
>
> donde en vez de body, podria tu variable tag
>
> yo intentaria tambien
> etree.tostring(tutag, method='html')
>
> o method='xml'
>
> parece que eso te deja el contenido, PERO con los tags de apertura y
> cierre de tutag.
>
>
> 2012/10/27 Sebastian Bassi <sebastian.bassi en globant.com>
>
>> Tengo un XML donde tiene en una parte:
>>
>> "<titulo>Aca va el titulo que tiene <italic>letra italica</italic> y
>> sigue el texto</titulo>"
>>
>> Cuando lo parseo con lxml, el atributo texto de ese elemento es:
>>
>> "Aca va el titulo que tiene "
>>
>> mi parser es de este estilo:
>>
>> context = etree.iterparse(fin, events=("end",))
>>     for a, elem in context:
>>         if elem.tag == tag:
>>             print elem.text
>>
>> El archivo xml no lo hice yo, sino que lo bajo de un 3ro y no puede
>> decirle que no pongan tags de HTML en ese lugar. ¿Que puedo hacer para
>> recuperar el texto completo? Yo quisiera tener:
>>
>> "Aca va el titulo que tiene <italic>letra italica</italic> y sigue el
>> texto"
>>
>>
>> --
>> Sebastián Bassi. sebastian.bassi en globant.com
>> Lic. en Biotecnología con orientación en genética molecular.
>> Software Developer @ Globant.
>> _______________________________________________
>> pyar mailing list pyar en python.org.ar
>> http://listas.python.org.ar/listinfo/pyar
>>
>> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
Gonzalo Martinez
*PampaTI - Innovación en tecnologías de la información*
*www.pampati.com.ar*
*
*
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20121027/e7de7f55/attachment.html>


More information about the pyar mailing list