[pyar] Necesito una estructura para deduplicar diccionarios complejos

Facundo Batista facundobatista en gmail.com
Jue Abr 30 11:19:44 ART 2015


2015-04-30 11:14 GMT-03:00 Daniel Moisset <dmoisset en machinalis.com>:

> Podes hacer content-based adressing (es lo que se hace en los repos git).
> Usas un hash con mas bits, y supones que si el hash es igual, el contenido
> es igual. Si tu hash de k bits es bueno, la probabilidad de colicion es 2 **
> (-k), que puede ser tan chico como quieras.

Sí, y no me joden esos falsos negativos. Pero volvemos al tema de
hashear el diccionario, que es lo complicado.

Tendría que recorrerlo con las claves (ordenadas o no), e ir
acumulando hashes o alguna cosa así


> dhash es una funcion que hashee tu contenido de algun modo. Te recomiendo
> usar alguna subclase de dict donde puedas cachear el hash, asi no la

La ventaja de tener cacheado el hash es que al armar un nuevo dict que
abajo tiene dicts con el hash cacheado, no voy "profundo" en esa
estructura.

Pero, un objeto entero es más pesado que un dict crudo, tengo que ver
como me pega eso en performance, también.

¡Gracias! Slds.

-- 
.    Facundo

Blog: http://www.taniquetil.com.ar/plog/
PyAr: http://www.python.org/ar/
Twitter: @facundobatista


More information about the pyar mailing list