[pyar] ¿cómo guardar variables GRANDES en archivos?

Matías Bellone matiasbellone en gmail.com
Mar Ene 11 15:31:48 ART 2011


2011/1/11 Iván Raskovsky <raskovsky en gmail.com>:
> Hola a todos!
>
> Estoy trabajando en procesar y analizar textos y me encontré con un problema.
> Todo funciona lindo y joya mientras voy armando mis herramientas, pero
> a la hora de aplicarlas a textos reales de ~100mb tengo la necesidad
> de guardar el texto procesado. Mientras eran textos de pruebas estaba
> usando pickle sin inconvenientes. Cuando empecé a trabajar con textos
> un poco más grandes, pasé a usar cPickle en protocolo 2 y los archivos
> de salida son alrededor de 400mb y cuando hago el dump a un archivo
> tarda alrededor de un día entero en escribir el archivo.

Muy raro. Yo no sé exactamente qué estarás haciendo ni cómo. Yo tengo
un par de scripts en el laburo para procesar logs, hace poquito tuve
que procesar un solo archivo de 12 Gb y - salvo por una línea que
creaba una lista a partir de un iterador fallando con Out of Memory -
funcionaron perfectamente. Tardaba entre media hora y 45 minutos en
procesar los 12Gb, pero lo hacía sin problema. Lo que necesitaba como
salida se lo daba a un fd.write() - donde había hecho fd =
open('nombre', 'a') - y me generó un archivo de 600 Mb sin problemas
en lo más mínimo.

Por eso me resultó muuy raro leer los problemas que tenés. ¿Podrías
dar más información para ver de encontrar el cuello de botella?

Saludos,
Toote



More information about the pyar mailing list