[pyar] Seleccionar elementos de un txt

Ivan Alejandro ivanalejandro0 en gmail.com
Mar Ene 31 13:30:04 ART 2012


OT: por si te sirve el tip, yo hubiera usado la consola directamente...
cat wordlist | grep -vE "ñ|á|é|í|ó|ú" > wordlist2

saludos

2012/1/31 Javier Castrillo <riverplatense en gmail.com>:
>> Si sacar las palabras con caracteres acentuados y ñ equivale a
>> quedarse con las que sólo tienen caracteres de la a a la z podés
>> quedarte con las palabras que matcheen con esa expresión regular.
>>
>> pattern = re.compile("^\w+$")
>>
>> y comparás con
>>
>> if pattern.match(palabra):
>> ...
>
> Impresionante, parseó 64000 palabras en menos de un pestañeo.
> Muchas gracias, les dejo el código final:
>
>
> Mil gracias nuevamente
>
> #! /usr/bin/python
> # -*- coding:UTF-8 -*-
>
> import re
>
> f = open("wordlist.txt", "r")
> n = open("wordlist_nuevo.txt", "w")
> pattern = re.compile("^\w+$")
>
> while True:
>    palabra = f.readline()
>    if not palabra:
>        break
>    if pattern.match(palabra):
>        n.write(palabra)
> f.close()
> n.close()
>
>
> --
> Javier Castrillo
>
> =========================================================
> GNU / Linux User #242275
>
> Jabber: javier en nube.usla.org.ar
> Blog: http://evitalinuxera.com.ar
> Site:    http://javiercastrillo.com.ar
> TCOS: http://argentina.tcosproject.org
> PGP ID: 5BB08988
> Twitter: @evitalinuxera
> Identi.ca: @evitalinuxera
> Skype: carapachense
> =========================================================
> Usá Software Libre
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar



-- 
()  ascii ribbon campaign - against html e-mail
/\  www.asciiribbon.org   - against proprietary attachments



More information about the pyar mailing list