[pyar] Presentación (y consulta)
Guillermo Movia
guillermo.movia en gmail.com
Dom Ago 6 13:19:29 ART 2017
tl;dr
Presentación y preguntas sobre el manejo de Expresiones regulares con un
archivo de texto
Buenas tardes a todos,
Durante julio estuve cursando el seminario de Python que Facundo dio en
Onapsis. En ese momento no me sumé a la lista, ya que sugería hacerlo de
forma ingeniosa, y no se me ocurrió ninguna. Pero ahora estoy acá para
presentarme y consultar una(s) duda(s):
Estoy haciendo un script de python para limpiar un documento de texto
que es el resultado de la conversión de un pdf a texto. El objetivo
último es lograr un epub, pero tanto la conversión de pdf a txt como del
txt a epub las haré por fuera de Pyhon (usando pdftotext y pandoc para
convertir de markdown a epub)
El código que tengo actualmente puede verse acá (uso python3):
https://pastebin.com/VrUwzVF8
Gracias a la ayuda de algunos en el canal de IRC pasé de abrirlo en
forma texto a bytes. No creo que se puedan enviar adjuntos por acá, pero
si alguno quiere el txt para probar, lo puedo dejar en algún lado.
Hasta ahora logra un resultado, a mi gusto, decente. Hay cosas que igual
tendré que hacer a mano porque la exportación con pdftotext no se lleva
bien con las llamada a las notas al pie.
¿Cuál sería la consulta? Tengo principalmente 2:
1) Imagino que la conversión que hago a texto no es necesaria y podría
hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía cadenas.
2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
comillas) y para seguir el formato de markdown debería convertirlas a
"[^1]:", por lo que entendí, podría hacer esa transformación con los
grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
con grupos?¿hay una forma mejor?
Bueno, como primer correo es enorme, perdonen la longitud.
--
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 870 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170806/f484a623/attachment.sig>
Más información sobre la lista de distribución pyar