[pyar] extraer texto de un html

Ricardo Daniel Quiroga l2radamanthys en gmail.com
Mie Nov 24 16:35:21 ART 2010


2010/11/24 Lautaro Pecile <lautaro.pecile en gmail.com>
>
>
> >>> import HTMLParser
> >>> class TextStripper(HTMLParser.HTMLParser):
> ...     def __init__(self):
> ...         self.reset()
> ...         self.fed = []
> ...
> ...     def handle_data(self, d):
> ...         self.fed.append(d)
> ...
> ...     @property
> ...     def get_text(self):
> ...         return ''.join(self.fed)
> ...
> >>> x = TextStripper()
> >>> x.feed(<string con html>)
> >>> x.get_text
>
> Saludos
>

Hola

   El te puso el ejemplo pero usando HTMLParser en ves de SGMLParser..
(HTMLParse es un deribado de este) el codigo es exactament el mismo :P

HTML está definido en términos del SGML. XML es un estándar de creación
posterior..

    De ultima si tenes q seguir recurriendo a las expresiones regulares usa
"Kiki" este bobo programita (hecho python) es bastante util a la hora de
crear y probar expresiones regulares..

Saludos
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20101124/82e66925/attachment.html>


More information about the pyar mailing list