[pyar] Scrapear sitios con distinta estructura HTML

Juan Manuel jmdedio en gmail.com
Mie Jul 3 09:01:46 -03 2019


¿Qué estás usando para scrapear?


El mié., 3 jul. 2019 a las 8:37, Gustavo Campanelli (<gedece en gmail.com>)
escribió:

>
> On Wed, Jul 3, 2019 at 2:45 AM Manuel <naranjo.manuel en gmail.com> wrote:
>
>> Podrías emular el bot de Google con el user agent, pero así y todo casa
>> sitio es distinto y vos querés acceder a contenido muy específico.
>>
>> Capaz que podes encontrar que varios sitios caen en el mismo patrón, por
>> ejemplo vas a tener un grupo que use h1, h2 y div, pero vas a tener otros
>> usando bootstrap.
>>
>> Incluso dentro del mismo sitio podes encontrar que hay incongruencias si
>> es uno grande con muchos equipos de desarrollo.
>>
>> Si tenés suerte alguno usa AJAX para cargar los datos y te hace las cosas
>> más sencillas, pero no hay un standard, por algo Google y los sitios de
>> búsqueda tienen varios equipos dedicados a sus bots de scrapeo
>>
>> El mié., 3 de julio de 2019 05:29, Augusto <adtononi en gmail.com> escribió:
>>
>>> Buenas Victor,
>>>
>>> Si, habia pensado en aplicar NLP, usar expresiones regulares, etc. Todo
>>> con el fin de filtrar y matchear lo que estoy buscando. Pero mas alla de
>>> que es dificil, no hay una manera eficiente de controlar los resultados,
>>> como indican en los comentarios.
>>>
>>> Gracias!
>>>
>>> El mar., 2 jul. 2019 a las 23:47, Victor Andres Martinez Hernandez (<
>>> victorliferock en gmail.com>) escribió:
>>>
>>>> Hola Augusto,
>>>>
>>>> Yo siempre tengo este tipo de problemas y la verdad hasta ahora lo que
>>>> siempre hago es crear un scraper por cada sitio, nunca había buscado la
>>>> manera de hacerlo masivo. Veo otra posibilidad pero nunca la he hecho, te
>>>> dejo link:
>>>>
>>>>
>>>> https://stackoverflow.com/questions/43712602/web-crawling-for-multiple-websites-with-different-structures
>>>>
>>>>
>>>>
>>>> Saludos!
>>>>
>>>> El mar., 2 de jul. de 2019 a la(s) 21:24, Augusto (adtononi en gmail.com)
>>>> escribió:
>>>>
>>>>> Buenas grupo, basicamente lo que dice el asunto.
>>>>>
>>>>> Estoy scrapeando sitios de noticias y de cada noticia obtengo titulo,
>>>>> fecha y contenido. Todo esto lo capto con XPATH.
>>>>> El problema es que cada sitio tiene estructuras diferentes por lo cual
>>>>> tengo que retocar el script para cada sitio, y la idea es tener un solo
>>>>> script que scrapee cualquier sitio que reciba.
>>>>> La forma mas bruta es poner todas los posibles XPATH, para que
>>>>> verifique cual usa el sitio. Pero queria saber si hay alguna forma mejor.
>>>>>
>>>>> Saludos!
>>>>> _______________________________________________
>>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>>> Sitio web: http://www.python.org.ar/
>>>>>
>>>>> Para administrar la lista (o desuscribirse) entrar a
>>>>> http://listas.python.org.ar/listinfo/pyar
>>>>>
>>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>>> Argentina - http://www.usla.org.ar
>>>>
>>>>
>>>>
>>>> --
>>>>
>>>> *Victor Andres Martinez Hernandez*
>>>> *Administrador de redes*
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
>
> Una opción interesante es buscar si los sitios de noticias tienen algun
> tipo de feed simplificado, como puede ser el RSS. Si lo poseen, es mucho
> más sencilllo tomar datos de ahí que de la pagina.
>
> Gedece
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar



--
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/92d8d566/attachment-0001.html>


Más información sobre la lista de distribución pyar