[pyar] Scrapear sitios con distinta estructura HTML

Martín Gaitán gaitan en gmail.com
Mie Jul 3 12:05:53 -03 2019


On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi en gmail.com> wrote:

> Es buena esa, hacer una subclase para cada sitio.
> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
> superar los 100, pero es buena idea.
>
>
Creo que la lib newspaper es lo que buscás.
https://newspaper.readthedocs.io/en/latest/

scrapea automáticamente aplicando heuristica y la semántica del html para
determinar donde está el contenido, titulo, imagenes, etc, similar a lo que
hace readability que te mencionaron antes. De yapa podes obtener keywords,
resumenes y otras yerbas via nlp

saludos
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/79b41455/attachment.html>


Más información sobre la lista de distribución pyar