[pyar] xml wikidump parser
Mariano
nassty.phantassy en gmail.com
Lun Nov 8 01:50:53 ART 2010
Hola listeros,
Hace un par de dias arrancamos con MarianoGuerra una herramientita para
parsear un dump XML de wikipedia y sacarlo en HTML para CDPedia.
se llama WikiDump2htmlZombieMediaWiki(!)
tiene 3 partes:
* un parser del XML grande que genera un monton de archivos con el
wiki-format horrible
* un sender que le manda por post al parser de mediawiki el wiki format y lo
devuelto lo guarda en un archivo html con el nombre del articulo y un
pequeño template
* el parser de mediawiki (le hace falta una instalacion entera de mediawiki
para andar) y que por ahora esta teniendo problemas para parsear las citas
pero ya tenemos html valido del articulo, faltan algunas configuraciones.
nos gustaria saber en que formato le sirve a cdpedia, un articulo por
archivo, en algun arbol de directorios, en una base de datos.
estamos documentando las instrucciones de como poner todo el ambiente y
hacerlo andar.
es el resultado de dos noches de hacking asi que no esperen una calidad
excepcional de código, pero estamos en eso.
aca va la url del proyecto:
https://github.com/Nassty/wikidump2htmlZombieMediaWiki
Saludos!
PD: la mayoliva es el mejor invento del hombre despues de los doctests.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20101108/d1dc15ea/attachment.html>
More information about the pyar
mailing list