[pyar] [django] - scraping - captcha
Charif Mauricio Nadir
mry.shariff en gmail.com
Lun Feb 28 22:24:43 ART 2011
2011/2/28 Andrés Gattinoni <andresgattinoni en gmail.com>
> 2011/2/28 Juan BC <jbc.develop en gmail.com>:
> > On 28/02/11 22:01, Charif Mauricio Nadir wrote:
> >>
> >> Hola pyar, estoy desarrollando una app web con django, necesito leer
> >> ciertos datos de un sitio web. Esto lo haría mediante alguna técnica de
> >> scraping.
> >> El inconveniente es que para acceder al recurso que quiero leer debo
> >> pasar por un captcha.
> >> Lo que quiero hacer es incrustar el captcha en mi web, el usuario
> >> ingresaría el captcha, y luego se procesaría la información y se
> >> mostrarían los resultados del scraping (la misma info un poco resumida y
> >> con otro formato).
> >> Alguna idea de como podría realizar algo así?
> >
> http://www.bonsai-sec.com/blog/index.php/breaking-weak-captcha-in-26-lines-of-code/
> >
> > http://blog.c22.cc/2010/10/12/python-ocr-or-how-to-break-captchas/
> >
> > Si no funciona eso podes usar algun algoritmo de ocr hecho a mano
>
> Creo que lo que él quiere es mostrarle el captcha al usuario para
> después hacer el scrapping.
>
> El problema que vas a tener ahí, seguramente, es que los captchas se
> basan en la sesión que utilizás.
> Lo que podrías hacer es:
>
> 1 - Entrás desde python a la página donde se muestra el captcha
> 2 - Guardás las cookies en el servidor (en un archivo o en la base de
> datos), cuidando de relacionar esa cookie con el usuario que accedió a
> tu página
> 3 - Descargás la imagen del captcha
> 4 - Le mostrás a tu usuario la imagen del captcha y le pedís que
> complete el texto
> 5 - Enviás a la web el formulario del captcha con las cookies
> correspondientes (que te guardaste en el servidor) para que la sesión
> coincida.
> 6 - Hacés el scrapping.
> _______________________________________________
> pyar mailing list pyar en python.org.ar
> http://listas.python.org.ar/listinfo/pyar
>
> PyAr - Python Argentina - Sitio web: http://www.python.org.ar/
>
Si algo así estaba buscando. No le tengo mucha fe a los ocr con captchas
rebuscados.
De todas maneras voy a probar las 2 opciones.
Muchas gracias.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20110228/d13104b4/attachment.html>
More information about the pyar
mailing list