[pyar] Ayuda con extracción de texto en pdf

Juanmanuel jmdedio en gmail.com
Lun Nov 13 10:56:46 ART 2017


Les cuento brevemente.  Tengo que extraer el texto de unos pdf pero el 
cliente no quiere saber nada con instalar módulo alguno. Encontré este 
servicio de conversión https://conversiontools.io y esta es la API 
https://conversiontools.io/api_documentation.  Los ficheros primero 
deben subirse a /api/files y luego con el id solicitar la conversión a 
/api/tasks.  Estoy haciendo una prueba pero devuelve error 404.  Supongo 
que estoy haciendo mal la request pero no estoy seguro.

 >>> req = urllib2.Request('https://conversiontools.io/api')
 >>> response = urllib2.urlopen(req)
 >>> response.read()
'{"code":0,"message":"OK"}'
 >>> req = 
urllib2.Request('https://conversiontools.io/api/files?http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf')
 >>> response = urllib2.urlopen(req)
Traceback (most recent call last):
   File "<stdin>", line 1, in <module>
   File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen
     return opener.open(url, data, timeout)
   File "/usr/lib/python2.7/urllib2.py", line 435, in open
     response = meth(req, response)
   File "/usr/lib/python2.7/urllib2.py", line 548, in http_response
     'http', request, response, code, msg, hdrs)
   File "/usr/lib/python2.7/urllib2.py", line 473, in error
     return self._call_chain(*args)
   File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain
     result = func(*args)
   File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default
     raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 404: Not Found

Desde ya muchas gracias por su tiempo.

Saludos



Más información sobre la lista de distribución pyar