[pyar] scrapy para pdfs

Juan BC jbc.develop en gmail.com
Jue Jul 22 18:51:05 ART 2010


en pdfminner tambien tenes el pdf2txt

El día 22 de julio de 2010 18:15, Roberto Alsina
<ralsina en netmanagers.com.ar> escribió:
> On Thursday 22 July 2010 17:36:36 José Allona wrote:
>>  Hola lista,
>>
>> tienen conocimiento de algún scrapper de PDFs?
>>
>> Creí que con scrapy había encontrado la felicidad absoluta pero no funciona
>> con pdf. Existe algun proyecto así?
>
> Podrías usar pdf2html y despues scrapy. Por lo menos lo que es texto lo sacás
> seguro.
>
> De todas formas, nunca te va a andar tan bien como con HTML porque el PDF no
> tiene tanta semántica.
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>



-- 
Juan B Cabral



More information about the pyar mailing list