[pyar] Procesando muchos datos (cPython vs Stackless) and (32bits vs 64bits)

Julian Agustin Cardonnet jcardonnet en gmail.com
Lun Abr 16 12:35:53 ART 2012


Hola Lista,
Estoy armando un sistema de análisis de lenguaje natural (principalmente
clustering y clasificacion) para procesar datos (unos cuantos) de distintas
redes sociales.
Para correrlo hay disponible por lo pronto un server con varios Xeon (en
total 32 cores) y ram como para hacer dulce.
Por el tema de la concurrencia, estoy analizando usar Stackless en vez de
cPython para evitar las limitaciones del GIL y usar las versiones de 64bits
para poder aprovechar la memoria disponible. Otra alternativa que se me
ocurrió es usar Hadoop [1], ya que además abre la posibilidad de pasar a
correrlo de un único servidor a un cluster sin demasiados cambios.

Siendo que los procesos concurrentes van a ser bastante largos tal vez
usando el modulo multiprocessing sea suficiente y no haga falta recurrir a
Stackless.

Me gustaría conocer las experiencia (ventajas, desventajas, sorpresas) de
los que han usado Stackless, la versión de 64bits de alguno de los
interpretes o hecho cosas de machine learning con muchos datos.

En cualquier caso, estoy yendo de a poco para no complicarme la vida:
1st) Make it Work
2nd) Make it Right
3rd) Make it Fast

[1]
http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/

Saludos
Julian
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20120416/e27e9eff/attachment.html>


More information about the pyar mailing list