[pyar] Scrapear sitios con distinta estructura HTML

Augusto adtononi en gmail.com
Mie Jul 3 15:15:29 -03 2019


Si, había visto lo de newspaper. Pero no estaba seguro que tan bien
funcionaría con el español, además de que las páginas que scrapeo suelen
ser sitios pequeños entonces no tienen como un standard.

Debería probarla de todas formas, gracias!

El mié., 3 jul. 2019 12:13, Juan Carizza <juan.carizza en gmail.com> escribió:

> Muy bueno lo de newspaper.
>
> Martin Alejandro, tenés un linkal código  de ese proyecto que nombras?
>
>
>
> El mié., 3 de jul. de 2019 a la(s) 12:09, Martin Alejandro Castro Álvarez (
> martincastro.10.5 en gmail.com) escribió:
>
>> Lo que hacemos nosotros es probabilidades en base a NLP, regex y
>> distribución de palabras; y para los componentes para los que tenemos un
>> dataset grande, aplicamos modelos de predicción con sklearn.
>> El accuracy es bastante bueno, para sitios relacionados al tema que
>> conocemos.
>>
>>
>>
>>
>>
>> On Wed, 3 Jul 2019 at 12:06, Martín Gaitán <gaitan en gmail.com> wrote:
>>
>>> On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi en gmail.com> wrote:
>>>
>>>> Es buena esa, hacer una subclase para cada sitio.
>>>> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
>>>> superar los 100, pero es buena idea.
>>>>
>>>>
>>> Creo que la lib newspaper es lo que buscás.
>>> https://newspaper.readthedocs.io/en/latest/
>>>
>>> scrapea automáticamente aplicando heuristica y la semántica del html
>>> para determinar donde está el contenido, titulo, imagenes, etc, similar a
>>> lo que hace readability que te mencionaron antes. De yapa podes obtener
>>> keywords, resumenes y otras yerbas via nlp
>>>
>>> saludos
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/f70f5c5a/attachment-0001.html>


Más información sobre la lista de distribución pyar