[pyar] Identificar el caracter que se usa en un texto abierto como bytes
Guillermo Movia
guillermo.movia en gmail.com
Mie Dic 26 09:40:02 -03 2018
El 25/12/18 a las 22:19, Santiago Torres Batán escribió:
> Hola,
>
>>> Buenas, tenés para compartir un pdf que falla y el texto convertido?
>>> Normalmente pdftotext se encarga de remover los guiones (hypens).
>>> Supongo que ya lo consideraste pero hay algún motivo por el cual abris
>>> el archivo como binario ('rb') y no con un encoding?
>>
>> Ahí vi que sacándoles la opción -layout lo hacía, pero eso me genera
>> otras cosas. Igual, prefiero esta opción que me sugeriste, aunque aún no
>> entiendo por qué no los detecta con el txt nuevo
>>
>
> Lo que falla es que la línea no termina con el guión, sino con un '\n'
> Esto lo podes ver rápido haciendo lo siguiente:
>
> libro = open("01-sociologia-introduccion.txt", "rb")
> lineas = list(libro.readlines())
> for linea in lineas:
> print(linea)
>
> También te das cuenta que es caracter utilizado es el guión '-', nada raro.
>
> Ahora bien, si sacás ese final de línea lo podés reemplazar o no utilices
> el $ en la regexp.
>
> libro = open("01-sociologia-introduccion.txt", "rb")
> lineas = list(libro.readlines())
> #libro2 = open('01-sociologia-introduccion_limpio.txt','a')
>
> for linea in lineas:
> # hace el decode a utf-8 y saca el final de linea
> linea = linea.decode('utf-8').rstrip()
> # imprime las lineas que terminan con -
> if linea.endswith('-'):
> print(linea) # imprime linea normal
> print(linea[:-1]) # imprime linea sacandole en ultimo caracter
> print()
>
> Espero que se entienda.
> Saludos
Muchas gracias, con eso lo saqué, porque tenía algo mal en el código que
el print(linea) no lo hacía. Ahora pude ver exacto la conformación de la
"linea" y cambiarla.
El endswith no me funcionó porque lo tengo abierto como bytes, pero
"volvió" a funcionar el código como lo tenía antes.
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
>
--
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 833 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20181226/35674e22/attachment-0001.sig>
Más información sobre la lista de distribución pyar