[pyar] ¿cómo guardar variables GRANDES en archivos?

Roberto Alsina ralsina en netmanagers.com.ar
Mar Ene 11 16:23:22 ART 2011


On 1/11/2011 4:20 PM, Iván Raskovsky wrote:
> 2011/1/11 Matías Bellone<matiasbellone en gmail.com>:
>> Por eso me resultó muuy raro leer los problemas que tenés. ¿Podrías
>> dar más información para ver de encontrar el cuello de botella?
> Muchas gracias a todos. El archivo es una lista de documentos donde
> cada documento es una lista de oraciones, donde cada oracion es una
> lista de palabras que son una tupla de la palabra y el POS (part of
> speech) que no es más que otro string.
>
> [ # documentos
>    [ # oraciones
>     [ # palabras
>      ('palabra', 'pos')
>     ],
>    ],
> ]
>
> Necesito mantener la estructura para poder seguir haciendo los análisis.
> Lo que hago para grabarlo en un archivo:
>
> import cPickle as pickle
> f = open('tasa', 'w')
> pickle.dump(tasa, f, 2) # tasa es mi lista de listas de listas...
> f.close()
>
> Ya lo puse a correr hoy a las 9am y sigue corriendo.. El archivo de
> salida ya pesa 272mb pero sólo creció 2 mb en la última hora. Cuando
> arranca el archivo empieza a crecer rápido y después parece cada vez
> más lento. En lo posible me gustaría mantenerlo en un único archivo, y
> no usar bases de datos. A mi también me sorprende mucho esto y estoy
> hace varios días tratando de entender que pasa pero sin éxito.

Y no haces busquedas, sino que lo cargas todo a memoria? Usa runsnakerun 
para ver cual es la parte lenta...



More information about the pyar mailing list