[pyar] Seleccionar elementos de un txt
Santiago Bruno
bananabruno en gmail.com
Mar Ene 31 12:51:51 ART 2012
2012/1/31 Andrés Gattinoni <andresgattinoni en gmail.com>
>
> 2012/1/31 Javier Castrillo <riverplatense en gmail.com>:
> > Sea el siguiente problema:
> > Tengo un archivo wordlist.txt con un diccionario completo español
> >
> > a
> > abad
> > abadí
> > abadía
> > ...
> >
> > Tengo que parsear ese archivo y sacar las palabras que tengan
> > caracteres acentuados y con ñ.
> >
> > Intento con:
> >
> > http://pastebin.com/5YK92K2H
> >
> > y cuando compara nunca matchea por alguna razón. Le metí los print
> > para ver qué pasaba y la cuestión es que en vez de comparar por caso
> > con 'á' lo hace con '\x12345' o como sea que se escriba en Unicode,
> > por lo tanto nunca encontrará igualdad.
> >
> > Cómo se puede solucionar eso?
>
> Si probás haciendo que los strings de "malas" no sean unicode o
> convirtiendo a unicode los strings del file que comparás?
Si sacar las palabras con caracteres acentuados y ñ equivale a
quedarse con las que sólo tienen caracteres de la a a la z podés
quedarte con las palabras que matcheen con esa expresión regular.
pattern = re.compile("^\w+$")
y comparás con
if pattern.match(palabra):
...
Saludos,
Santiago.
More information about the pyar
mailing list