[pyar] ¿cómo guardar variables GRANDES en archivos?

Andrés Gattinoni andresgattinoni en gmail.com
Mar Ene 11 15:25:41 ART 2011


2011/1/11 Roberto Alsina <ralsina en netmanagers.com.ar>:
> On 1/11/2011 3:12 PM, Iván Raskovsky wrote:
>>
>> Hola a todos!
>>
>> Estoy trabajando en procesar y analizar textos y me encontré con un
>> problema.
>> Todo funciona lindo y joya mientras voy armando mis herramientas, pero
>> a la hora de aplicarlas a textos reales de ~100mb tengo la necesidad
>> de guardar el texto procesado. Mientras eran textos de pruebas estaba
>> usando pickle sin inconvenientes. Cuando empecé a trabajar con textos
>> un poco más grandes, pasé a usar cPickle en protocolo 2 y los archivos
>> de salida son alrededor de 400mb y cuando hago el dump a un archivo
>> tarda alrededor de un día entero en escribir el archivo.
>>
>> Estoy trabajando en la consola de ipython. Ya estuve buscando otras
>> alternativas pero no encontré nada que funcione relativamente "normal"
>> (menos de un día!!!)
>>
>> La memoria que usa el proceso llega a unos 3gb. Incluso lo pude correr
>> sin que swapee nada pero tarda horas y horas.
>>
>> Se les ocurre alguna solución? Muchas gracias,
>
> Depende de lo que los datos sean, no?
> Por ejemplo, si es algo como un dict, usaria un store key/value que hay
> muchos.
> Si es otra cosa, capaz que usaria una base de datos.
> Y si es oooootra cosa usaria otra cosa distinta.

Si vas a guardar textos (documentos) quizás te sirva buscar por el
lado de no-sql databases[0] como CouchDB[1], MongoDB[2], etc.

[0] http://nosql-database.org/
[1] http://couchdb.apache.org/
[2] http://www.mongodb.org/



More information about the pyar mailing list