[pyar] Necesito una estructura para deduplicar diccionarios complejos
Facundo Batista
facundobatista en gmail.com
Jue Abr 30 11:19:44 ART 2015
2015-04-30 11:14 GMT-03:00 Daniel Moisset <dmoisset en machinalis.com>:
> Podes hacer content-based adressing (es lo que se hace en los repos git).
> Usas un hash con mas bits, y supones que si el hash es igual, el contenido
> es igual. Si tu hash de k bits es bueno, la probabilidad de colicion es 2 **
> (-k), que puede ser tan chico como quieras.
Sí, y no me joden esos falsos negativos. Pero volvemos al tema de
hashear el diccionario, que es lo complicado.
Tendría que recorrerlo con las claves (ordenadas o no), e ir
acumulando hashes o alguna cosa así
> dhash es una funcion que hashee tu contenido de algun modo. Te recomiendo
> usar alguna subclase de dict donde puedas cachear el hash, asi no la
La ventaja de tener cacheado el hash es que al armar un nuevo dict que
abajo tiene dicts con el hash cacheado, no voy "profundo" en esa
estructura.
Pero, un objeto entero es más pesado que un dict crudo, tengo que ver
como me pega eso en performance, también.
¡Gracias! Slds.
--
. Facundo
Blog: http://www.taniquetil.com.ar/plog/
PyAr: http://www.python.org/ar/
Twitter: @facundobatista
More information about the pyar
mailing list