[pyar] Consejo infraestructura scraper

Juan Carizza juan.carizza en gmail.com
Vie Jul 5 13:05:50 -03 2019


Hola,

Sentry es un gestor que distribuye tareas entre distintos workers y para
hacer esa distribución usa los sistemas de mensajería RabbitMQ o Redis.
Algo quiza más simple podría ser http://python-rq.org/

¿Podrías explicar un poco más que necesitas hacer? Porque este problema
podes encararlo con procesamiento distribuído o implementando
multithreading/multiprocessing.


El vie., 5 de jul. de 2019 a la(s) 12:42, Victor Andres Martinez Hernandez (
victorliferock en gmail.com) escribió:

> Muy buen día gente,
>
> Les quería hacer una consulta en un par de temas que estoy tratando de
> aprender/aplicar. Actualmente tengo un par de scrapers funcionando cada
> día. Lo que hago es básicamente ejecutar un scraper a cierta hora cada día,
> guardar el resultado en un csv y luego ejecutar una tarea que toma ese csv
> y lo ingresa en un PostgreSQL. Quiero cambiarlo, como ejemplo pondré
> Amazon, quiero hacer lo siguiente:
>
>
> 1. Tener un scraper que extraiga los links de los nuevos productos cada
> día.
> 2. Ingresar estos links en alguna dB o alguna cola.
> 3. Tener otro scraper continuamente esperando que lleguen nuevos links
> para extraer la información como tal del producto.
>
> Lo que quiero es hacer algo más "pro". He estado leyendo de rabbitmq,
> redis, celery. Pero no me queda claro bien el uso de cada una, y cómo
> conectarlas. Alguien me podría dar una mano con esto ? Si voy por el camino
> correcto, o qué otras recomendaciones me podrían dar.
>
> Muchas gracias!
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190705/0207c5a1/attachment.html>


Más información sobre la lista de distribución pyar