[pyar] Scrapear sitios con distinta estructura HTML

Augusto adtononi en gmail.com
Mie Jul 3 00:29:07 -03 2019


Buenas Victor,

Si, habia pensado en aplicar NLP, usar expresiones regulares, etc. Todo con
el fin de filtrar y matchear lo que estoy buscando. Pero mas alla de que es
dificil, no hay una manera eficiente de controlar los resultados, como
indican en los comentarios.

Gracias!

El mar., 2 jul. 2019 a las 23:47, Victor Andres Martinez Hernandez (<
victorliferock en gmail.com>) escribió:

> Hola Augusto,
>
> Yo siempre tengo este tipo de problemas y la verdad hasta ahora lo que
> siempre hago es crear un scraper por cada sitio, nunca había buscado la
> manera de hacerlo masivo. Veo otra posibilidad pero nunca la he hecho, te
> dejo link:
>
>
> https://stackoverflow.com/questions/43712602/web-crawling-for-multiple-websites-with-different-structures
>
>
>
> Saludos!
>
> El mar., 2 de jul. de 2019 a la(s) 21:24, Augusto (adtononi en gmail.com)
> escribió:
>
>> Buenas grupo, basicamente lo que dice el asunto.
>>
>> Estoy scrapeando sitios de noticias y de cada noticia obtengo titulo,
>> fecha y contenido. Todo esto lo capto con XPATH.
>> El problema es que cada sitio tiene estructuras diferentes por lo cual
>> tengo que retocar el script para cada sitio, y la idea es tener un solo
>> script que scrapee cualquier sitio que reciba.
>> La forma mas bruta es poner todas los posibles XPATH, para que verifique
>> cual usa el sitio. Pero queria saber si hay alguna forma mejor.
>>
>> Saludos!
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
>
>
> --
>
> *Victor Andres Martinez Hernandez*
> *Administrador de redes*
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/811255e2/attachment.html>


Más información sobre la lista de distribución pyar