[pyar] Identificar el caracter que se usa en un texto abierto como bytes

Adrian Pardini pardo.bsso en gmail.com
Mar Dic 25 21:02:15 -03 2018


On Tue, 25 Dec 2018 at 20:50, Guillermo Movia <guillermo.movia en gmail.com> wrote:
>
> Hola
>
> Estoy intentando leer un texto extraído de un pdf y procesarlo para
> convertirlo en un epub.
>
> La parte de la cnversión de pdf a txt la hago con pdftotext que sale muy
> bien. Pero después me gustaría hacerle un post-proceso para quitarle los
> guiones que separan sílabas de una palabra y volver a juntarlas (en epub
> no tiene sentido cortar las palabras).
>
> En otro texto lo tomaba bien, pero por alguna razón en este nuevo no
> detecta los "guiones", al menos no con la codificación b"\xc2\xad" que
> usaba en el otro.
>

Buenas, tenés para compartir un pdf que falla y el texto convertido?
Normalmente pdftotext se encarga de remover los guiones (hypens).
Supongo que ya lo consideraste pero hay algún motivo por el cual abris
el archivo como binario ('rb') y no con un encoding?


Más información sobre la lista de distribución pyar