[pyar] Consejo infraestructura scraper

Victor Andres Martinez Hernandez victorliferock en gmail.com
Vie Jul 5 12:41:56 -03 2019


Muy buen día gente,

Les quería hacer una consulta en un par de temas que estoy tratando de
aprender/aplicar. Actualmente tengo un par de scrapers funcionando cada
día. Lo que hago es básicamente ejecutar un scraper a cierta hora cada día,
guardar el resultado en un csv y luego ejecutar una tarea que toma ese csv
y lo ingresa en un PostgreSQL. Quiero cambiarlo, como ejemplo pondré
Amazon, quiero hacer lo siguiente:


1. Tener un scraper que extraiga los links de los nuevos productos cada día.
2. Ingresar estos links en alguna dB o alguna cola.
3. Tener otro scraper continuamente esperando que lleguen nuevos links para
extraer la información como tal del producto.

Lo que quiero es hacer algo más "pro". He estado leyendo de rabbitmq,
redis, celery. Pero no me queda claro bien el uso de cada una, y cómo
conectarlas. Alguien me podría dar una mano con esto ? Si voy por el camino
correcto, o qué otras recomendaciones me podrían dar.

Muchas gracias!
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190705/ca25bf8a/attachment.html>


Más información sobre la lista de distribución pyar