[pyar] Un problema de cómputo [OT?]
Hernan Olivera
lholivera en gmail.com
Vie Jul 9 00:24:35 ART 2010
Estimados pythons
Estoy pensando en como resolver un pequeño problema, recurro a su sapiencia
para pensar soluciones.
Estoy intentando generar una version actualizada de la cd-pedia, como parte
del convenio de PyAr con educ.ar. Me llevó un tiempo poner a funcionar un
mirror de Wikipedia, condicion necesaria para poder exportar el html
estático que necesita cd-pedia como input en su version actual. Una vez
hecho esto, solo queda correr un script de Mediawiki, que hace la magia.
Termine montando esto en una maquinita dedicada, un sempron con 4 giga de
ram, disco de 1 tera, y ubuntu. Algun dia contare lo que me llevó configurar
todo eso.
Ahora que funciona, lo pongo a correr y renderiza unos 600 artículos por
hora. Wikipedia en español tiene 1.824.000 artículos. Según mis cálculos,
va a tardar 4 meses si todo va bien.
Las opciones son:
1- Que esto lo haga WikiPedia, que lo venia haciendo hasta el 2008, de donde
sale la actual cdpedia
2- Esperar 4 meses a mi sempron.
3- Conseguir mas equipos para distribuir el proceso.
El problema de 1 es que no esta en nuestras manos. La ventaja que ya tienen
todo configurado y corriendo sobre un cluster, es decir que para ellos es un
comando.
El problema de 2 es que educ.ar quiere distribuir la cd-pedia en uno o dos
meses.
El problema de 3 es que habría que replicar mi configuración en esos equipos
(LAMP, mediawiki, extensiones, dependencias, el dump de 1.3 giga, disponer
de unos 30 giga para el html estatico etc etc). Para esto pense en
voluntarios, en maquinas que disponga educ.ar, o en maquinas de una
universidad o algo similar. Pienso que seria posible hacer un script que
haga todo eso, lo de la configuracion completa es dificil pero no imposible,
y ademas tengo que reconstruir todo lo que hice para hacerla funcionar, cosa
que voy a saber cuando lo logre :)
Lo hago on-topic pensando en que ese script sea en python XD
Ideas?
Saludos
--
Hernan Olivera
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20100709/8d8c470d/attachment.html>
More information about the pyar
mailing list