[pyar] xml wikidump parser

Mariano nassty.phantassy en gmail.com
Lun Nov 8 01:50:53 ART 2010


Hola listeros,

Hace un par de dias arrancamos con MarianoGuerra una herramientita para
parsear un dump XML de wikipedia y sacarlo en HTML para CDPedia.

se llama WikiDump2htmlZombieMediaWiki(!)

tiene 3 partes:

* un parser del XML grande que genera un monton de archivos con el
wiki-format horrible
* un sender que le manda por post al parser de mediawiki el wiki format y lo
devuelto lo guarda en un archivo html con el nombre del articulo y un
pequeño template
* el parser de mediawiki (le hace falta una instalacion entera de mediawiki
para andar) y que por ahora esta teniendo problemas para parsear las citas
pero ya tenemos html valido del articulo, faltan algunas configuraciones.

nos gustaria saber en que formato le sirve a cdpedia, un articulo por
archivo, en algun arbol de directorios, en una base de datos.

estamos documentando las instrucciones de como poner todo el ambiente y
hacerlo andar.

es el resultado de dos noches de hacking asi que no esperen una calidad
excepcional de código, pero estamos en eso.

aca va la url del proyecto:
https://github.com/Nassty/wikidump2htmlZombieMediaWiki


Saludos!


PD: la mayoliva es el mejor invento del hombre despues de los doctests.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20101108/d1dc15ea/attachment.html>


More information about the pyar mailing list