[pyar] extraer texto de un html
Ricardo Daniel Quiroga
l2radamanthys en gmail.com
Mie Nov 24 16:35:21 ART 2010
2010/11/24 Lautaro Pecile <lautaro.pecile en gmail.com>
>
>
> >>> import HTMLParser
> >>> class TextStripper(HTMLParser.HTMLParser):
> ... def __init__(self):
> ... self.reset()
> ... self.fed = []
> ...
> ... def handle_data(self, d):
> ... self.fed.append(d)
> ...
> ... @property
> ... def get_text(self):
> ... return ''.join(self.fed)
> ...
> >>> x = TextStripper()
> >>> x.feed(<string con html>)
> >>> x.get_text
>
> Saludos
>
Hola
El te puso el ejemplo pero usando HTMLParser en ves de SGMLParser..
(HTMLParse es un deribado de este) el codigo es exactament el mismo :P
HTML está definido en términos del SGML. XML es un estándar de creación
posterior..
De ultima si tenes q seguir recurriendo a las expresiones regulares usa
"Kiki" este bobo programita (hecho python) es bastante util a la hora de
crear y probar expresiones regulares..
Saludos
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20101124/82e66925/attachment.html>
More information about the pyar
mailing list