[pyar] Categorizar páginas

Julian Agustin Cardonnet jcardonnet en gmail.com
Mie Mar 14 16:37:30 -03 2018


Hola Augusto,
Si las categorias son predefinidas (por ej: deportes, policial, economia,
espectaculos, etc) la clasificacion las podes automatizar usando una
biblioteca de machine learning como scikit-learn.
La idea basica es 1ro clasificar a mano varios ejemplos de cada categoria
(50 de cada uno por ej) y despues darselos al clasificador para que aprenda
de esos ejemplos a categorizar el resto de las paginas.
Por ahi suena complicado pero algo basico podes implementarlo en menos de
10 lineas. Si necesitas ayuda, aca somos varios los que nos dedicamos al
tema asi que en seguida vas a poder tener algo andando.

Desde ya que el resultado del clasificador automatico no va a ser perfecto
(un 80% de precision no seria dificil de lograr), pero seguramente valga la
pena en relacion tiempo/calidad comparado con lo que te llevaria clasificar
45mil paginas a mano.

Saludos,
Julian

El 14 de marzo de 2018, 16:24, Gustavo Campanelli <gedece en gmail.com>
escribió:

>
> 2018-03-14 16:21 GMT-03:00 Augusto Tononi <adtononi en gmail.com>:
>
>> Buen día gente
>>
>> Necesito ayuda para tagear páginas. Tengo unas 42 mil páginas en un CSV.
>> El trabajo consiste en entrar a las páginas, ver de que trata y tagearla en
>> el programa del laburo. A su vez también se entra a las distintas
>> sub-categorías que tiene cada páginas. Todo esto manual.
>> Si sigo así voy a terminar el año que viene, con suerte. Así que se me
>> ocurrio hacer un spider para realizar web scraping, lo cual ya estuve
>> probando de curioso en otra ocasión. Ustedes lo ven muy viable? O conocen
>> alguna otra forma de realizarlo?
>> El spider sería para que me categorice las páginas y sus subdominios, y
>> después si hacer la carga manual (es la única forma) en el programa del
>> laburo.
>>
>> Saludos
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
>
> El problema no es el spider, eso es tan sencillo como alimentar de sitios
> a un programa que implementa un navegador interno. Lo complicado del
> programa es automatizar la calsificación.
>
> Gedece
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180314/1406b395/attachment.html>


Más información sobre la lista de distribución pyar