[pyar] Scrapear sitios con distinta estructura HTML
Martín Gaitán
gaitan en gmail.com
Mie Jul 3 12:05:53 -03 2019
On Wed, Jul 3, 2019 at 10:46 AM Augusto <adtononi en gmail.com> wrote:
> Es buena esa, hacer una subclase para cada sitio.
> Quedaría un enchastre porque los sitios que tengo que scrappear pueden
> superar los 100, pero es buena idea.
>
>
Creo que la lib newspaper es lo que buscás.
https://newspaper.readthedocs.io/en/latest/
scrapea automáticamente aplicando heuristica y la semántica del html para
determinar donde está el contenido, titulo, imagenes, etc, similar a lo que
hace readability que te mencionaron antes. De yapa podes obtener keywords,
resumenes y otras yerbas via nlp
saludos
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190703/79b41455/attachment.html>
Más información sobre la lista de distribución pyar