[pyar] scrapy para pdfs

Roberto Alsina ralsina en netmanagers.com.ar
Jue Jul 22 18:15:36 ART 2010


On Thursday 22 July 2010 17:36:36 José Allona wrote:
>  Hola lista,
> 
> tienen conocimiento de algún scrapper de PDFs?
> 
> Creí que con scrapy había encontrado la felicidad absoluta pero no funciona
> con pdf. Existe algun proyecto así?

Podrías usar pdf2html y despues scrapy. Por lo menos lo que es texto lo sacás 
seguro.

De todas formas, nunca te va a andar tan bien como con HTML porque el PDF no 
tiene tanta semántica.



More information about the pyar mailing list