[pyar] Presentación (y consulta)

Rolando M Espinoza rndmax84 en gmail.com
Dom Ago 6 17:37:18 ART 2017


Hola!

> 1) Imagino que la conversión que hago a texto no es necesaria y podría
> hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía
cadenas.

Tenés que usar el pattern en bytes:

    >>> re.sub(b'\d+', b':num:', b'foo123bar')
    b'foo:num:bar'

> 2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
> comillas) y para seguir el formato de markdown debería convertirlas a
> "[^1]:", por lo que entendí, podría hacer esa transformación con los
> grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
> con grupos?¿hay una forma mejor?

Me parece que buscás esto:

    >>> re.sub(b'^(\d+). ', br'[^\1]: ', b'1. Footnote 1')
    b'[^1]: Footnote 1'

Saludos
Rolando Max

2017-08-06 13:19 GMT-03:00 Guillermo Movia <guillermo.movia en gmail.com>:

> tl;dr
>
> Presentación y preguntas sobre el manejo de Expresiones regulares con un
> archivo de texto
>
>
> Buenas tardes a todos,
>
> Durante julio estuve cursando el seminario de Python que Facundo dio en
> Onapsis. En ese momento no me sumé a la lista, ya que sugería hacerlo de
> forma ingeniosa, y no se me ocurrió ninguna. Pero ahora estoy acá para
> presentarme y consultar una(s) duda(s):
>
> Estoy haciendo un script de python para limpiar un documento de texto
> que es el resultado de la conversión de un pdf a texto. El objetivo
> último es lograr un epub, pero tanto la conversión de pdf a txt como del
> txt a epub las haré por fuera de Pyhon (usando pdftotext y pandoc para
> convertir de markdown a epub)
>
> El código que tengo actualmente puede verse acá (uso python3):
>
> https://pastebin.com/VrUwzVF8
>
> Gracias a la ayuda de algunos en el canal de IRC pasé de abrirlo en
> forma texto a bytes. No creo que se puedan enviar adjuntos por acá, pero
> si alguno quiere el txt para probar, lo puedo dejar en algún lado.
>
> Hasta ahora logra un resultado, a mi gusto, decente. Hay cosas que igual
> tendré que hacer a mano porque la exportación con pdftotext no se lleva
> bien con las llamada a las notas al pie.
>
> ¿Cuál sería la consulta? Tengo principalmente 2:
>
> 1) Imagino que la conversión que hago a texto no es necesaria y podría
> hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía cadenas.
>
> 2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
> comillas) y para seguir el formato de markdown debería convertirlas a
> "[^1]:", por lo que entendí, podría hacer esa transformación con los
> grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
> con grupos?¿hay una forma mejor?
>
> Bueno, como primer correo es enorme, perdonen la longitud.
> --
> Guillermo Movia
> PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170806/7cce3aa5/attachment.html>


Más información sobre la lista de distribución pyar