[pyar] scrapy para pdfs
Juan BC
jbc.develop en gmail.com
Jue Jul 22 18:51:05 ART 2010
en pdfminner tambien tenes el pdf2txt
El día 22 de julio de 2010 18:15, Roberto Alsina
<ralsina en netmanagers.com.ar> escribió:
> On Thursday 22 July 2010 17:36:36 José Allona wrote:
>> Hola lista,
>>
>> tienen conocimiento de algún scrapper de PDFs?
>>
>> Creí que con scrapy había encontrado la felicidad absoluta pero no funciona
>> con pdf. Existe algun proyecto así?
>
> Podrías usar pdf2html y despues scrapy. Por lo menos lo que es texto lo sacás
> seguro.
>
> De todas formas, nunca te va a andar tan bien como con HTML porque el PDF no
> tiene tanta semántica.
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
--
Juan B Cabral
More information about the pyar
mailing list