[pyar] Ayuda con extracción de texto en pdf

Diego RR diegoriquelme81 en gmail.com
Lun Nov 13 14:32:10 ART 2017


Como dice Tomas, tenes que hacer un POST. Podés probar con requests:

result = requests.post("https://conversiontools.io/api/files",
files={"file": "Cruces.pdf"})
print result.content

El 13 de noviembre de 2017, 11:08, Tomas Zulberti <tzulberti en gmail.com>
escribió:

> 2017-11-13 10:56 GMT-03:00 Juanmanuel <jmdedio en gmail.com>:
> > Les cuento brevemente.  Tengo que extraer el texto de unos pdf pero el
> > cliente no quiere saber nada con instalar módulo alguno. Encontré este
> > servicio de conversión https://conversiontools.io y esta es la API
> > https://conversiontools.io/api_documentation.  Los ficheros primero
> deben
> > subirse a /api/files y luego con el id solicitar la conversión a
> /api/tasks.
> > Estoy haciendo una prueba pero devuelve error 404.  Supongo que estoy
> > haciendo mal la request pero no estoy seguro.
> >
> >>>> req = urllib2.Request('https://conversiontools.io/api')
> >>>> response = urllib2.urlopen(req)
> >>>> response.read()
> > '{"code":0,"message":"OK"}'
> >>>> req =
> >>>> urllib2.Request('https://conversiontools.io/api/files?
> http://www.petrotecnia.com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf
> ')
>
> Hola. Por lo que leo de la documentacion de convert.io, deberias hacer
> un POST pasandole la data y vos estas haciendo un get.
>
> Por lo tanto, lo correcto seria algo del estilo:
>
> >>> req = urllib2.Request(
>             'https://conversiontools.io/api/files',
>             data=urllib.urlencode(dict(file="http://www.petrotecnia.
> com.ar/agosto17/pdfs_IAPG/SINpUBLICIDAD/Cruces.pdf'))
>   )
>
> >>>> response = urllib2.urlopen(req)
> > Traceback (most recent call last):
> >   File "<stdin>", line 1, in <module>
> >   File "/usr/lib/python2.7/urllib2.py", line 154, in urlopen
> >     return opener.open(url, data, timeout)
> >   File "/usr/lib/python2.7/urllib2.py", line 435, in open
> >     response = meth(req, response)
> >   File "/usr/lib/python2.7/urllib2.py", line 548, in http_response
> >     'http', request, response, code, msg, hdrs)
> >   File "/usr/lib/python2.7/urllib2.py", line 473, in error
> >     return self._call_chain(*args)
> >   File "/usr/lib/python2.7/urllib2.py", line 407, in _call_chain
> >     result = func(*args)
> >   File "/usr/lib/python2.7/urllib2.py", line 556, in http_error_default
> >     raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
> > urllib2.HTTPError: HTTP Error 404: Not Found
> >
> > Desde ya muchas gracias por su tiempo.
> >
> > Saludos
> >
> > _______________________________________________
> > Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> > Sitio web: http://www.python.org.ar/
> >
> > Para administrar la lista (o desuscribirse) entrar a
> > http://listas.python.org.ar/listinfo/pyar
> >
> > La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> > Argentina - http://www.usla.org.ar
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>



-- 
*Diego R. Riquelme*
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20171113/1156d443/attachment.html>


Más información sobre la lista de distribución pyar