[pyar] Seleccionar elementos de un txt

Santiago Bruno bananabruno en gmail.com
Mar Ene 31 12:51:51 ART 2012


2012/1/31 Andrés Gattinoni <andresgattinoni en gmail.com>
>
> 2012/1/31 Javier Castrillo <riverplatense en gmail.com>:
> > Sea el siguiente problema:
> > Tengo un archivo wordlist.txt con un diccionario completo español
> >
> > a
> > abad
> > abadí
> > abadía
> > ...
> >
> > Tengo que parsear ese archivo y sacar las palabras que tengan
> > caracteres acentuados y con ñ.
> >
> > Intento con:
> >
> > http://pastebin.com/5YK92K2H
> >
> > y cuando compara nunca matchea por alguna razón. Le metí los print
> > para ver qué pasaba y la cuestión es que en vez de comparar por caso
> > con 'á' lo hace con '\x12345' o como sea que se escriba en Unicode,
> > por lo tanto nunca encontrará igualdad.
> >
> > Cómo se puede solucionar eso?
>
> Si probás haciendo que los strings de "malas" no sean unicode o
> convirtiendo a unicode los strings del file que comparás?

Si sacar las palabras con caracteres acentuados y ñ equivale a
quedarse con las que sólo tienen caracteres de la a a la z podés
quedarte con las palabras que matcheen con esa expresión regular.

pattern = re.compile("^\w+$")

y comparás con

if pattern.match(palabra):
...

Saludos,

Santiago.



More information about the pyar mailing list