[pyar] Scrapear sitios con distinta estructura HTML

Victor Andres Martinez Hernandez victorliferock en gmail.com
Mar Jul 2 23:46:56 -03 2019


Hola Augusto,

Yo siempre tengo este tipo de problemas y la verdad hasta ahora lo que
siempre hago es crear un scraper por cada sitio, nunca había buscado la
manera de hacerlo masivo. Veo otra posibilidad pero nunca la he hecho, te
dejo link:

https://stackoverflow.com/questions/43712602/web-crawling-for-multiple-websites-with-different-structures



Saludos!

El mar., 2 de jul. de 2019 a la(s) 21:24, Augusto (adtononi en gmail.com)
escribió:

> Buenas grupo, basicamente lo que dice el asunto.
>
> Estoy scrapeando sitios de noticias y de cada noticia obtengo titulo,
> fecha y contenido. Todo esto lo capto con XPATH.
> El problema es que cada sitio tiene estructuras diferentes por lo cual
> tengo que retocar el script para cada sitio, y la idea es tener un solo
> script que scrapee cualquier sitio que reciba.
> La forma mas bruta es poner todas los posibles XPATH, para que verifique
> cual usa el sitio. Pero queria saber si hay alguna forma mejor.
>
> Saludos!
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar



-- 

*Victor Andres Martinez Hernandez*
*Administrador de redes*
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190702/46b8fee7/attachment.html>


Más información sobre la lista de distribución pyar