[pyar] Ayuda con extracción de texto en pdf
Juanmanuel
jmdedio en gmail.com
Lun Nov 13 10:56:46 ART 2017
Les cuento brevemente. Tengo que extraer el texto de unos pdf pero el
cliente no quiere saber nada con instalar módulo alguno. Encontré este
servicio de conversión https://conversiontools.io y esta es la API
https://conversiontools.io/api_documentation. Los ficheros primero
deben subirse a /api/files y luego con el id solicitar la conversión a
/api/tasks. Estoy haciendo una prueba pero devuelve error 404. Supongo
que estoy haciendo mal la request pero no estoy seguro.
>>> req = urllib2.Request('https://conversiontools.io/api')
>>> response = urllib2.urlopen(req)
>>> response.read()
'{"code":0,"message":"OK"}'
>>> req =
urllib2.Request('https://conversiontools.io/api/files?http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf')
>>> response = urllib2.urlopen(req)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 435, in open
response = meth(req, response)
File "/usr/lib/python2.7/urllib2.py", line 548, in http_response
'http', request, response, code, msg, hdrs)
File "/usr/lib/python2.7/urllib2.py", line 473, in error
return self._call_chain(*args)
File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain
result = func(*args)
File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 404: Not Found
Desde ya muchas gracias por su tiempo.
Saludos
Más información sobre la lista de distribución pyar