[pyar] extraer texto de un html

Fabian Ezequiel Gallina galli.87 en gmail.com
Mie Nov 24 16:31:53 ART 2010


El día 24 de noviembre de 2010 15:37, Martin Cerdeira
<martincerdeira en gmail.com> escribió:
> 2010/11/24 Federico Heinz <fheinz en vialibre.org.ar>:
>> On 24/11/2010, Martin Cerdeira wrote:
>>> "Some people, when confronted with a problem, think "I know, I'll
>>> use regular expressions." Now they have two problems."
>>
>> Lo que, por supuesto, sería cierto si la cita dijera "any problem" en
>> vez de "a problem". Cuando el problema es parsear un lenguaje
>> regular, las expresiones regulares son la solución ideal. Para
>> todos los demás problemas (entre los cuales está el de extraer texto
>> de un html), son todo lo contrario. Pero decir que las expresiones
>> regulares son un problema en sí, es tan necio como querer usarlas
>> para culquier cosa.
>>

La dificultad de parsear XML (y sus amigos) con expresiones regulares
viene de que XML no es un lenguage regular.

Aca una explicación super experta de la situación[0]

[0] http://stackoverflow.com/questions/1732348?tab=votes#tab-top


Saludos,
-- 
Fabián E. Gallina
http://www.from-the-cloud.com



More information about the pyar mailing list