[pyar] leyendo archivo en paralelo

Federico Wagner federico.wagner en gmail.com
Sab Ago 9 13:16:50 ART 2014


2014-08-09 12:49 GMT-03:00 Angel Java Lopez <ajlopez2000 en gmail.com>:

> Ah! Pregunta: porque tarda mas el proceso de los worker, que la generacion
> de una linea? Es CPU intensive? O tiene entrada/salida? Ese dato podria
> sugerir otras soluciones
>
> Si fuera CPU intensive, no free lunch, puede llegar el momento que una
> maquina sola no baste.
>
>
Por la descripción original del sistema parecería un problema de
procesamiento: "..un  programa que lee bigfile y hace algo con cada linea
que tarda mas tiempo que lo que tarda en generarse en ese archivo una linea
nueva."

Entiendo que el procesamiento de cada línea es independiente, o sea que no
necesitas información que esta en otras líneas.

Para este caso me gusta la solución que Javier propuso, usar una cola que
permita tener n consumidores, donde n es el número de workers. Tenes un
proceso que lee el archivo y pone las líneas en la cola y tenes los workers
que consumen la misma, los cuales los podes ejecutar en diferentes
computadores  en el caso de ser necesario.

Otra cosa que me gusta de esta arquitectura es que podes especialiazar los
diferentes componentes.

Lo que se me ocurre también, es si el o lo que genera las líneas, en lugar
de grabar en  el bigfile, pone las líneas en la cola?, esto ya te
resolveria el problema de la espera de nuevas líneas, no?
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20140809/bd03c57c/attachment.html>


More information about the pyar mailing list