[pyar] scrapy para pdfs
Roberto Alsina
ralsina en netmanagers.com.ar
Jue Jul 22 18:15:36 ART 2010
On Thursday 22 July 2010 17:36:36 José Allona wrote:
> Hola lista,
>
> tienen conocimiento de algún scrapper de PDFs?
>
> Creí que con scrapy había encontrado la felicidad absoluta pero no funciona
> con pdf. Existe algun proyecto así?
Podrías usar pdf2html y despues scrapy. Por lo menos lo que es texto lo sacás
seguro.
De todas formas, nunca te va a andar tan bien como con HTML porque el PDF no
tiene tanta semántica.
More information about the pyar
mailing list