[pyar] Scrapear sitios con distinta estructura HTML

Martin Alejandro Castro Álvarez martincastro.10.5 en gmail.com
Mie Jul 3 12:09:02 -03 2019


Lo que hacemos nosotros es probabilidades en base a NLP, regex y
distribución de palabras; y para los componentes para los que tenemos un
dataset grande, aplicamos modelos de predicción con sklearn.
El accuracy es bastante bueno, para sitios relacionados al tema que
conocemos.





On Wed, 3 Jul 2019 at 12:06, Martín Gaitán <gaitan at gmail.com> wrote:

> On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi at gmail.com> wrote:
>
>> Es buena esa, hacer una subclase para cada sitio.
>> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
>> superar los 100, pero es buena idea.
>>
>>
> Creo que la lib newspaper es lo que buscás.
> https://newspaper.readthedocs.io/en/latest/
>
> scrapea automáticamente aplicando heuristica y la semántica del html para
> determinar donde está el contenido, titulo, imagenes, etc, similar a lo que
> hace readability que te mencionaron antes. De yapa podes obtener keywords,
> resumenes y otras yerbas via nlp
>
> saludos
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar at python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/36c6cd14/attachment.html>


Más información sobre la lista de distribución pyar