[pyar] Identificar el caracter que se usa en un texto abierto como bytes

Guillermo Movia guillermo.movia en gmail.com
Mie Dic 26 09:40:02 -03 2018



El 25/12/18 a las 22:19, Santiago Torres Batán escribió:
> Hola,
> 
>>> Buenas, tenés para compartir un pdf que falla y el texto convertido?
>>> Normalmente pdftotext se encarga de remover los guiones (hypens).
>>> Supongo que ya lo consideraste pero hay algún motivo por el cual abris
>>> el archivo como binario ('rb') y no con un encoding?
>>
>> Ahí vi que sacándoles la opción -layout lo hacía, pero eso me genera
>> otras cosas. Igual, prefiero esta opción que me sugeriste, aunque aún no
>> entiendo por qué no los detecta con el txt nuevo
>>
> 
> Lo que falla es que la línea no termina con el guión, sino con un '\n'
> Esto lo podes ver rápido haciendo lo siguiente:
> 
> libro = open("01-sociologia-introduccion.txt", "rb")
> lineas = list(libro.readlines())
> for linea in lineas:
>         print(linea)
> 
> También te das cuenta que es caracter utilizado es el guión '-', nada raro.
> 
> Ahora bien, si sacás ese final de línea lo podés reemplazar o no utilices
> el $ en la regexp.
> 
> libro = open("01-sociologia-introduccion.txt", "rb")
> lineas = list(libro.readlines())
> #libro2 = open('01-sociologia-introduccion_limpio.txt','a')
> 
> for linea in lineas:
>         # hace el decode a utf-8 y saca el final de linea
>         linea = linea.decode('utf-8').rstrip()
>         # imprime las lineas que terminan con -
>         if linea.endswith('-'):
>             print(linea)  # imprime linea normal
>             print(linea[:-1]) # imprime linea sacandole en ultimo caracter
>             print()
> 
> Espero que se entienda.
> Saludos

Muchas gracias, con eso lo saqué, porque tenía algo mal en el código que
el print(linea) no lo hacía. Ahora pude ver exacto la conformación de la
"linea" y cambiarla.

El endswith no me funcionó porque lo tengo abierto como bytes, pero
"volvió" a funcionar el código como lo tenía antes.

> 
> 
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
> 
> Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
> 
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
> 

-- 
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A

------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 833 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20181226/35674e22/attachment-0001.sig>


Más información sobre la lista de distribución pyar