[pyar] Presentación (y consulta)
Guillermo Movia
guillermo.movia en gmail.com
Lun Ago 7 10:38:58 ART 2017
Hola Rolando, gracias por las respuestas, contesto entre líneas en la
segunda:
El 06/08/17 a las 17:37, Rolando M Espinoza escribió:
> Hola!
>
>> 1) Imagino que la conversión que hago a texto no es necesaria y podría
>> hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía cadenas.
>
> Tenés que usar el pattern en bytes:
>
> >>> re.sub(b'\d+', b':num:', b'foo123bar')
> b'foo:num:bar'
>
>> 2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
>> comillas) y para seguir el formato de markdown debería convertirlas a
>> "[^1]:", por lo que entendí, podría hacer esa transformación con los
>> grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
>> con grupos?¿hay una forma mejor?
>
> Me parece que buscás esto:
>
> >>> re.sub(b'^(\d+). ', br'[^\1]: ', b'1. Footnote 1')
> b'[^1]: Footnote 1'
Eso está muy bien. Lo único es que entiendo que acá estaría reemplazando
cada aparición por [^1]: sin distinguir qué número tiene la nota al pie,
¿no?
Es cierto que a pandoc no le interesa y se supone que lo convierte bien,
pero debería probarlo. La estructura de ese reemplazo es: cadena que
debe buscar, formato de reemplazo y la tercera parte es ¿cómo debe
ubicar esa cadena de reemplazo? En este caso el 1 haría referencia a lo
que aparece anteriormente, ¿no?
>
> Saludos
> Rolando Max
>
> 2017-08-06 13:19 GMT-03:00 Guillermo Movia <guillermo.movia en gmail.com
> <mailto:guillermo.movia en gmail.com>>:
>
> tl;dr
>
> Presentación y preguntas sobre el manejo de Expresiones regulares con un
> archivo de texto
>
>
> Buenas tardes a todos,
>
> Durante julio estuve cursando el seminario de Python que Facundo dio en
> Onapsis. En ese momento no me sumé a la lista, ya que sugería hacerlo de
> forma ingeniosa, y no se me ocurrió ninguna. Pero ahora estoy acá para
> presentarme y consultar una(s) duda(s):
>
> Estoy haciendo un script de python para limpiar un documento de texto
> que es el resultado de la conversión de un pdf a texto. El objetivo
> último es lograr un epub, pero tanto la conversión de pdf a txt como del
> txt a epub las haré por fuera de Pyhon (usando pdftotext y pandoc para
> convertir de markdown a epub)
>
> El código que tengo actualmente puede verse acá (uso python3):
>
> https://pastebin.com/VrUwzVF8
>
> Gracias a la ayuda de algunos en el canal de IRC pasé de abrirlo en
> forma texto a bytes. No creo que se puedan enviar adjuntos por acá, pero
> si alguno quiere el txt para probar, lo puedo dejar en algún lado.
>
> Hasta ahora logra un resultado, a mi gusto, decente. Hay cosas que igual
> tendré que hacer a mano porque la exportación con pdftotext no se lleva
> bien con las llamada a las notas al pie.
>
> ¿Cuál sería la consulta? Tengo principalmente 2:
>
> 1) Imagino que la conversión que hago a texto no es necesaria y podría
> hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía
> cadenas.
>
> 2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
> comillas) y para seguir el formato de markdown debería convertirlas a
> "[^1]:", por lo que entendí, podría hacer esa transformación con los
> grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
> con grupos?¿hay una forma mejor?
>
> Bueno, como primer correo es enorme, perdonen la longitud.
> --
> Guillermo Movia
> PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> <mailto:pyar en python.org.ar>
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
> <http://listas.python.org.ar/listinfo/pyar>
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre
> de Argentina - http://www.usla.org.ar
>
>
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
>
--
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 870 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170807/941cf94b/attachment.sig>
Más información sobre la lista de distribución pyar