[pyar] [django] - scraping - captcha

Andrés Gattinoni andresgattinoni en gmail.com
Lun Feb 28 22:15:58 ART 2011


2011/2/28 Juan BC <jbc.develop en gmail.com>:
> On 28/02/11 22:01, Charif Mauricio Nadir wrote:
>>
>> Hola pyar, estoy desarrollando una app web con django, necesito leer
>> ciertos datos de un sitio web. Esto lo haría mediante alguna técnica de
>> scraping.
>> El inconveniente es que para acceder al recurso que quiero leer debo
>> pasar por un captcha.
>> Lo que quiero hacer es incrustar el captcha en mi web, el usuario
>> ingresaría el captcha, y luego se procesaría la información y se
>> mostrarían los resultados del scraping (la misma info un poco resumida y
>> con otro formato).
>> Alguna idea de como podría realizar algo así?
> http://www.bonsai-sec.com/blog/index.php/breaking-weak-captcha-in-26-lines-of-code/
>
> http://blog.c22.cc/2010/10/12/python-ocr-or-how-to-break-captchas/
>
> Si no funciona eso podes usar algun algoritmo de ocr hecho a mano

Creo que lo que él quiere es mostrarle el captcha al usuario para
después hacer el scrapping.

El problema que vas a tener ahí, seguramente, es que los captchas se
basan en la sesión que utilizás.
Lo que podrías hacer es:

1 - Entrás desde python a la página donde se muestra el captcha
2 - Guardás las cookies en el servidor (en un archivo o en la base de
datos), cuidando de relacionar esa cookie con el usuario que accedió a
tu página
3 - Descargás la imagen del captcha
4 - Le mostrás a tu usuario la imagen del captcha y le pedís que
complete el texto
5 - Enviás a la web el formulario del captcha con las cookies
correspondientes (que te guardaste en el servidor) para que la sesión
coincida.
6 - Hacés el scrapping.



More information about the pyar mailing list