[pyar] Ayuda con extracción de texto en pdf
Tomas Zulberti
tzulberti en gmail.com
Lun Nov 13 11:08:13 ART 2017
2017-11-13 10:56 GMT-03:00 Juanmanuel <jmdedio en gmail.com>:
> Les cuento brevemente. Tengo que extraer el texto de unos pdf pero el
> cliente no quiere saber nada con instalar módulo alguno. Encontré este
> servicio de conversión https://conversiontools.io y esta es la API
> https://conversiontools.io/api_documentation. Los ficheros primero deben
> subirse a /api/files y luego con el id solicitar la conversión a /api/tasks.
> Estoy haciendo una prueba pero devuelve error 404. Supongo que estoy
> haciendo mal la request pero no estoy seguro.
>
>>>> req = urllib2.Request('https://conversiontools.io/api')
>>>> response = urllib2.urlopen(req)
>>>> response.read()
> '{"code":0,"message":"OK"}'
>>>> req =
>>>> urllib2.Request('https://conversiontools.io/api/files?http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf')
Hola. Por lo que leo de la documentacion de convert.io, deberias hacer
un POST pasandole la data y vos estas haciendo un get.
Por lo tanto, lo correcto seria algo del estilo:
>>> req = urllib2.Request(
'https://conversiontools.io/api/files',
data=urllib.urlencode(dict(file="http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf'))
)
>>>> response = urllib2.urlopen(req)
> Traceback (most recent call last):
> File "<stdin>", line 1, in <module>
> File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen
> return opener.open(url, data, timeout)
> File "/usr/lib/python2.7/urllib2.py", line 435, in open
> response = meth(req, response)
> File "/usr/lib/python2.7/urllib2.py", line 548, in http_response
> 'http', request, response, code, msg, hdrs)
> File "/usr/lib/python2.7/urllib2.py", line 473, in error
> return self._call_chain(*args)
> File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain
> result = func(*args)
> File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default
> raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
> urllib2.HTTPError: HTTP Error 404: Not Found
>
> Desde ya muchas gracias por su tiempo.
>
> Saludos
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
Más información sobre la lista de distribución pyar