[pyar] Scrapear sitios con distinta estructura HTML

Juan Carizza juan.carizza en gmail.com
Mie Jul 3 12:12:18 -03 2019


Muy bueno lo de newspaper.

Martin Alejandro, tenés un linkal código  de ese proyecto que nombras?



El mié., 3 de jul. de 2019 a la(s) 12:09, Martin Alejandro Castro Álvarez (
martincastro.10.5 en gmail.com) escribió:

> Lo que hacemos nosotros es probabilidades en base a NLP, regex y
> distribución de palabras; y para los componentes para los que tenemos un
> dataset grande, aplicamos modelos de predicción con sklearn.
> El accuracy es bastante bueno, para sitios relacionados al tema que
> conocemos.
>
>
>
>
>
> On Wed, 3 Jul 2019 at 12:06, Martín Gaitán <gaitan en gmail.com> wrote:
>
>> On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi en gmail.com> wrote:
>>
>>> Es buena esa, hacer una subclase para cada sitio.
>>> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
>>> superar los 100, pero es buena idea.
>>>
>>>
>> Creo que la lib newspaper es lo que buscás.
>> https://newspaper.readthedocs.io/en/latest/
>>
>> scrapea automáticamente aplicando heuristica y la semántica del html para
>> determinar donde está el contenido, titulo, imagenes, etc, similar a lo que
>> hace readability que te mencionaron antes. De yapa podes obtener keywords,
>> resumenes y otras yerbas via nlp
>>
>> saludos
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/15c190b8/attachment.html>


Más información sobre la lista de distribución pyar