[pyar] Ayuda con extracción de texto en pdf

Tomas Zulberti tzulberti en gmail.com
Lun Nov 13 11:08:13 ART 2017


2017-11-13 10:56 GMT-03:00 Juanmanuel <jmdedio en gmail.com>:
> Les cuento brevemente.  Tengo que extraer el texto de unos pdf pero el
> cliente no quiere saber nada con instalar módulo alguno. Encontré este
> servicio de conversión https://conversiontools.io y esta es la API
> https://conversiontools.io/api_documentation.  Los ficheros primero deben
> subirse a /api/files y luego con el id solicitar la conversión a /api/tasks.
> Estoy haciendo una prueba pero devuelve error 404.  Supongo que estoy
> haciendo mal la request pero no estoy seguro.
>
>>>> req = urllib2.Request('https://conversiontools.io/api')
>>>> response = urllib2.urlopen(req)
>>>> response.read()
> '{"code":0,"message":"OK"}'
>>>> req =
>>>> urllib2.Request('https://conversiontools.io/api/files?http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf')

Hola. Por lo que leo de la documentacion de convert.io, deberias hacer
un POST pasandole la data y vos estas haciendo un get.

Por lo tanto, lo correcto seria algo del estilo:

>>> req = urllib2.Request(
            'https://conversiontools.io/api/files',
            data=urllib.urlencode(dict(file="http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf'))
  )

>>>> response = urllib2.urlopen(req)
> Traceback (most recent call last):
>   File "<stdin>", line 1, in <module>
>   File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen
>     return opener.open(url, data, timeout)
>   File "/usr/lib/python2.7/urllib2.py", line 435, in open
>     response = meth(req, response)
>   File "/usr/lib/python2.7/urllib2.py", line 548, in http_response
>     'http', request, response, code, msg, hdrs)
>   File "/usr/lib/python2.7/urllib2.py", line 473, in error
>     return self._call_chain(*args)
>   File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain
>     result = func(*args)
>   File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default
>     raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
> urllib2.HTTPError: HTTP Error 404: Not Found
>
> Desde ya muchas gracias por su tiempo.
>
> Saludos
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar


Más información sobre la lista de distribución pyar