[pyar] Scrapear sitios con distinta estructura HTML

Martin Alejandro Castro Álvarez martincastro.10.5 en gmail.com
Mie Jul 3 15:20:35 -03 2019


Juan Carriza, el código no es Open Source.
Pero fijate que si es un sitio hecho por Wordpress (o equivalente), toda la
info. que buscás está en los <meta/>





Martín Alejandro Castro Álvarez
*Software Carpentry*

https://www.martincastroalvarez.com





On Wed, 3 Jul 2019 at 15:16, Augusto <adtononi at gmail.com> wrote:

> Si, había visto lo de newspaper. Pero no estaba seguro que tan bien
> funcionaría con el español, además de que las páginas que scrapeo suelen
> ser sitios pequeños entonces no tienen como un standard.
>
> Debería probarla de todas formas, gracias!
>
> El mié., 3 jul. 2019 12:13, Juan Carizza <juan.carizza at gmail.com>
> escribió:
>
>> Muy bueno lo de newspaper.
>>
>> Martin Alejandro, tenés un linkal código  de ese proyecto que nombras?
>>
>>
>>
>> El mié., 3 de jul. de 2019 a la(s) 12:09, Martin Alejandro Castro Álvarez
>> (martincastro.10.5 at gmail.com) escribió:
>>
>>> Lo que hacemos nosotros es probabilidades en base a NLP, regex y
>>> distribución de palabras; y para los componentes para los que tenemos un
>>> dataset grande, aplicamos modelos de predicción con sklearn.
>>> El accuracy es bastante bueno, para sitios relacionados al tema que
>>> conocemos.
>>>
>>>
>>>
>>>
>>>
>>> On Wed, 3 Jul 2019 at 12:06, Martín Gaitán <gaitan at gmail.com> wrote:
>>>
>>>> On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi at gmail.com> wrote:
>>>>
>>>>> Es buena esa, hacer una subclase para cada sitio.
>>>>> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
>>>>> superar los 100, pero es buena idea.
>>>>>
>>>>>
>>>> Creo que la lib newspaper es lo que buscás.
>>>> https://newspaper.readthedocs.io/en/latest/
>>>>
>>>> scrapea automáticamente aplicando heuristica y la semántica del html
>>>> para determinar donde está el contenido, titulo, imagenes, etc, similar a
>>>> lo que hace readability que te mencionaron antes. De yapa podes obtener
>>>> keywords, resumenes y otras yerbas via nlp
>>>>
>>>> saludos
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/d91a533c/attachment.html>


Más información sobre la lista de distribución pyar