[pyar] Consejo infraestructura scraper

Francisco J Capdevila fjcapdevila en gmail.com
Vie Jul 5 13:19:09 -03 2019


Juan creo que se equivocó, quería decir "Celery" en lugar de "Sentry".
BTW, Sentry es otra muy buena herramienta del ecosistema Python.

Francisco J. Capdevila


El vie., 5 jul. 2019 a las 13:06, Juan Carizza (<juan.carizza en gmail.com>)
escribió:

> Hola,
>
> Sentry es un gestor que distribuye tareas entre distintos workers y para
> hacer esa distribución usa los sistemas de mensajería RabbitMQ o Redis.
> Algo quiza más simple podría ser http://python-rq.org/
>
> ¿Podrías explicar un poco más que necesitas hacer? Porque este problema
> podes encararlo con procesamiento distribuído o implementando
> multithreading/multiprocessing.
>
>
> El vie., 5 de jul. de 2019 a la(s) 12:42, Victor Andres Martinez Hernandez
> (victorliferock en gmail.com) escribió:
>
>> Muy buen día gente,
>>
>> Les quería hacer una consulta en un par de temas que estoy tratando de
>> aprender/aplicar. Actualmente tengo un par de scrapers funcionando cada
>> día. Lo que hago es básicamente ejecutar un scraper a cierta hora cada día,
>> guardar el resultado en un csv y luego ejecutar una tarea que toma ese csv
>> y lo ingresa en un PostgreSQL. Quiero cambiarlo, como ejemplo pondré
>> Amazon, quiero hacer lo siguiente:
>>
>>
>> 1. Tener un scraper que extraiga los links de los nuevos productos cada
>> día.
>> 2. Ingresar estos links en alguna dB o alguna cola.
>> 3. Tener otro scraper continuamente esperando que lleguen nuevos links
>> para extraer la información como tal del producto.
>>
>> Lo que quiero es hacer algo más "pro". He estado leyendo de rabbitmq,
>> redis, celery. Pero no me queda claro bien el uso de cada una, y cómo
>> conectarlas. Alguien me podría dar una mano con esto ? Si voy por el camino
>> correcto, o qué otras recomendaciones me podrían dar.
>>
>> Muchas gracias!
>>
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190705/f1f57d4c/attachment-0001.html>


Más información sobre la lista de distribución pyar