[pyar] Categorizar páginas

Gustavo Campanelli gedece en gmail.com
Mie Mar 14 16:24:57 -03 2018


2018-03-14 16:21 GMT-03:00 Augusto Tononi <adtononi en gmail.com>:

> Buen día gente
>
> Necesito ayuda para tagear páginas. Tengo unas 42 mil páginas en un CSV.
> El trabajo consiste en entrar a las páginas, ver de que trata y tagearla en
> el programa del laburo. A su vez también se entra a las distintas
> sub-categorías que tiene cada páginas. Todo esto manual.
> Si sigo así voy a terminar el año que viene, con suerte. Así que se me
> ocurrio hacer un spider para realizar web scraping, lo cual ya estuve
> probando de curioso en otra ocasión. Ustedes lo ven muy viable? O conocen
> alguna otra forma de realizarlo?
> El spider sería para que me categorice las páginas y sus subdominios, y
> después si hacer la carga manual (es la única forma) en el programa del
> laburo.
>
> Saludos
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar


El problema no es el spider, eso es tan sencillo como alimentar de sitios a
un programa que implementa un navegador interno. Lo complicado del programa
es automatizar la calsificación.

Gedece
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180314/5eda444b/attachment.html>


Más información sobre la lista de distribución pyar