[pyar] Un problema de cómputo [OT?]

Nicolás Pace nicopace en gmail.com
Vie Jul 9 00:39:14 ART 2010


2010/7/9 Hernan Olivera <lholivera en gmail.com>:
> Estimados pythons
>
> Estoy pensando en como resolver un pequeño problema, recurro a su sapiencia
> para pensar soluciones.
>
> Estoy intentando generar una version actualizada de la cd-pedia, como parte
> del convenio de PyAr con educ.ar. Me llevó un tiempo poner a funcionar un
> mirror de Wikipedia, condicion necesaria para poder exportar el html
> estático que necesita cd-pedia como input en su version actual. Una vez
> hecho esto, solo queda correr un script de Mediawiki, que hace la magia.
> Termine montando esto en una maquinita dedicada, un sempron con 4 giga de
> ram, disco de 1 tera, y ubuntu. Algun dia contare lo que me llevó configurar
> todo eso.
>
> Ahora que funciona, lo pongo a correr y renderiza unos 600 artículos por
> hora. Wikipedia en español tiene 1.824.000  artículos. Según mis cálculos,
> va a tardar 4 meses si todo va bien.
>
> Las opciones son:
> 1- Que esto lo haga WikiPedia, que lo venia haciendo hasta el 2008, de donde
> sale la actual cdpedia
> 2- Esperar 4 meses a mi sempron.
> 3- Conseguir mas equipos para distribuir el proceso.
>
> El problema de 1 es que no esta en nuestras manos. La ventaja que ya tienen
> todo configurado y corriendo sobre un cluster, es decir que para ellos es un
> comando.
> El problema de 2 es que educ.ar quiere distribuir la cd-pedia en uno o dos
> meses.
> El problema de 3 es que habría que replicar mi configuración en esos equipos
> (LAMP, mediawiki, extensiones, dependencias, el dump de 1.3 giga, disponer
> de unos 30 giga para el html estatico etc etc). Para esto pense en
> voluntarios, en maquinas que disponga educ.ar, o en maquinas de una
> universidad o algo similar. Pienso que seria posible hacer un script que
> haga todo eso, lo de la configuracion completa es dificil pero no imposible,
> y ademas tengo que reconstruir todo lo que hice para hacerla funcionar, cosa
> que voy a saber cuando lo logre :)
>
> Lo hago on-topic pensando en que ese script sea en python XD
>
> Ideas?

Armar una VM con lo que hiciste, y que cada uno compute un cachito de
todo lo que necesitas?
Creo que esa sería la forma mas facil de replicarlo (inclusive podría
tirarlo al cluster si es asi (a bit of cross-posting, sorry)).

Saludos,

-- 
Ing. Nicolás Pace
http://www.linkedin.com/in/nickar/
http://www.jornadasdelsur.org.ar/



More information about the pyar mailing list