[pyar] Presentación (y consulta)

Guillermo Movia guillermo.movia en gmail.com
Lun Ago 7 10:38:58 ART 2017


Hola Rolando, gracias por las respuestas, contesto entre líneas en la
segunda:

El 06/08/17 a las 17:37, Rolando M Espinoza escribió:
> Hola!
> 
>> 1) Imagino que la conversión que hago a texto no es necesaria y podría
>> hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía cadenas.
> 
> Tenés que usar el pattern en bytes:
> 
>     >>> re.sub(b'\d+', b':num:', b'foo123bar')
>     b'foo:num:bar'
> 
>> 2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
>> comillas) y para seguir el formato de markdown debería convertirlas a
>> "[^1]:", por lo que entendí, podría hacer esa transformación con los
>> grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
>> con grupos?¿hay una forma mejor?
> 
> Me parece que buscás esto:
> 
>     >>> re.sub(b'^(\d+). ', br'[^\1]: ', b'1. Footnote 1')
>     b'[^1]: Footnote 1'

Eso está muy bien. Lo único es que entiendo que acá estaría reemplazando
cada aparición por [^1]: sin distinguir qué número tiene la nota al pie,
¿no?

Es cierto que a pandoc no le interesa y se supone que lo convierte bien,
pero debería probarlo. La estructura de ese reemplazo es: cadena que
debe buscar, formato de reemplazo y la tercera parte es ¿cómo debe
ubicar esa cadena de reemplazo? En este caso el 1 haría referencia a lo
que aparece anteriormente, ¿no?

> 
> Saludos
> Rolando Max
> 
> 2017-08-06 13:19 GMT-03:00 Guillermo Movia <guillermo.movia en gmail.com
> <mailto:guillermo.movia en gmail.com>>:
> 
>     tl;dr
> 
>     Presentación y preguntas sobre el manejo de Expresiones regulares con un
>     archivo de texto
> 
> 
>     Buenas tardes a todos,
> 
>     Durante julio estuve cursando el seminario de Python que Facundo dio en
>     Onapsis. En ese momento no me sumé a la lista, ya que sugería hacerlo de
>     forma ingeniosa, y no se me ocurrió ninguna. Pero ahora estoy acá para
>     presentarme y consultar una(s) duda(s):
> 
>     Estoy haciendo un script de python para limpiar un documento de texto
>     que es el resultado de la conversión de un pdf a texto. El objetivo
>     último es lograr un epub, pero tanto la conversión de pdf a txt como del
>     txt a epub las haré por fuera de Pyhon (usando pdftotext y pandoc para
>     convertir de markdown a epub)
> 
>     El código que tengo actualmente puede verse acá (uso python3):
> 
>     https://pastebin.com/VrUwzVF8
> 
>     Gracias a la ayuda de algunos en el canal de IRC pasé de abrirlo en
>     forma texto a bytes. No creo que se puedan enviar adjuntos por acá, pero
>     si alguno quiere el txt para probar, lo puedo dejar en algún lado.
> 
>     Hasta ahora logra un resultado, a mi gusto, decente. Hay cosas que igual
>     tendré que hacer a mano porque la exportación con pdftotext no se lleva
>     bien con las llamada a las notas al pie.
> 
>     ¿Cuál sería la consulta? Tengo principalmente 2:
> 
>     1) Imagino que la conversión que hago a texto no es necesaria y podría
>     hacerlo todo con bytes. Lo convertí a texto porque .sub() me pedía
>     cadenas.
> 
>     2) Las notas al pie, en el texto, aparecen como "1." o "2." (sin las
>     comillas) y para seguir el formato de markdown debería convertirlas a
>     "[^1]:", por lo que entendí, podría hacer esa transformación con los
>     grupos, pero todavía no terminé de entender bien esa parte, ¿es posible
>     con grupos?¿hay una forma mejor?
> 
>     Bueno, como primer correo es enorme, perdonen la longitud.
>     --
>     Guillermo Movia
>     PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
> 
> 
>     _______________________________________________
>     Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>     <mailto:pyar en python.org.ar>
>     Sitio web: http://www.python.org.ar/
> 
>     Para administrar la lista (o desuscribirse) entrar a
>     http://listas.python.org.ar/listinfo/pyar
>     <http://listas.python.org.ar/listinfo/pyar>
> 
>     La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre
>     de Argentina - http://www.usla.org.ar
> 
> 
> 
> 
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
> 
> Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
> 
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
> 

-- 
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A

------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 870 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20170807/941cf94b/attachment.sig>


Más información sobre la lista de distribución pyar