[pyar] Scrapear sitios con distinta estructura HTML

Augusto adtononi en gmail.com
Mar Jul 2 23:23:40 -03 2019


Buenas grupo, basicamente lo que dice el asunto.

Estoy scrapeando sitios de noticias y de cada noticia obtengo titulo, fecha
y contenido. Todo esto lo capto con XPATH.
El problema es que cada sitio tiene estructuras diferentes por lo cual
tengo que retocar el script para cada sitio, y la idea es tener un solo
script que scrapee cualquier sitio que reciba.
La forma mas bruta es poner todas los posibles XPATH, para que verifique
cual usa el sitio. Pero queria saber si hay alguna forma mejor.

Saludos!
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190702/4661984e/attachment-0001.html>


Más información sobre la lista de distribución pyar