[pyar] Identificar el caracter que se usa en un texto abierto como bytes

Guillermo Movia guillermo.movia en gmail.com
Mar Dic 25 21:45:42 -03 2018



El 25/12/18 a las 21:02, Adrian Pardini escribió:
> On Tue, 25 Dec 2018 at 20:50, Guillermo Movia <guillermo.movia en gmail.com> wrote:
>>
>> Hola
>>
>> Estoy intentando leer un texto extraído de un pdf y procesarlo para
>> convertirlo en un epub.
>>
>> La parte de la cnversión de pdf a txt la hago con pdftotext que sale muy
>> bien. Pero después me gustaría hacerle un post-proceso para quitarle los
>> guiones que separan sílabas de una palabra y volver a juntarlas (en epub
>> no tiene sentido cortar las palabras).
>>
>> En otro texto lo tomaba bien, pero por alguna razón en este nuevo no
>> detecta los "guiones", al menos no con la codificación b"\xc2\xad" que
>> usaba en el otro.
>>
> 
> Buenas, tenés para compartir un pdf que falla y el texto convertido?
> Normalmente pdftotext se encarga de remover los guiones (hypens).
> Supongo que ya lo consideraste pero hay algún motivo por el cual abris
> el archivo como binario ('rb') y no con un encoding?

Ahí vi que sacándoles la opción -layout lo hacía, pero eso me genera
otras cosas. Igual, prefiero esta opción que me sugeriste, aunque aún no
entiendo por qué no los detecta con el txt nuevo

> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
> 
> Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar
> 
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina - http://www.usla.org.ar
> 

-- 
Guillermo Movia
PGP: 2438 6C0A 348F 7618 1485 8A18 688D 2AAE 13D1 CA7A

------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 833 bytes
Desc: OpenPGP digital signature
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20181225/ba4b7f03/attachment.sig>


Más información sobre la lista de distribución pyar