[pyar] Categorizar páginas

Julian Agustin Cardonnet jcardonnet en gmail.com
Mie Mar 14 17:08:25 -03 2018


Si ya hay cierta informacion que podes recolectar inequivocamente sobre las
categorias usando el scraper (por ej URL: computadoras.walmart.mx  =>
categoria: computadoras) aprovechalo es una posibilidad.
El tema es que eso asume que vos ya sabes de antemano que hay un mapeo por
ej entre los subdominios y las categorias, lo cual probablemente no sea
cierto si tenes miles y miles de sitios, con lo cual necesitarias definir
un mapeo manual uno por uno.
Sin tener mas info, me da la impresion que entre ponerte pagina por pagina
a ver que caracteristica te define la categoria (parte del url? subdominio?
palabra clave en el html? etc) te va a resultar mas simple armar un
clasificador automatico con ML.
La parte de entrenarlo y preparar los datos para alimentarlo si bien es
trabajosa, te va a llevar muchas menos horas y ademas es mucho mas
llevadera que el trabajo de hormiga de andar examinando los detalles
tecnicos de cada sitio a manopla.



El 14 de marzo de 2018, 16:44, Augusto Tononi <adtononi en gmail.com> escribió:

> Buen dia Julian
>
> Efectivamente, las categorías ya están predefinidas por nosotros. Como las
> que nombraste, de ese estilo y muchas otras más claro.
>
> Pensé en esa posibilidad, pero no tendría que tagear solo la página.
>
> Por ejemplo yo tengo la url walmart.mx, corresponde a las categorías:
> Electrodomesticos, Comida, Hogar, Familia (entre otras, pero usemos estas).
> Y a su vez walmart tiene sub secciones de tecnología/celulares/computadoras/etc
> etc . O sea cosas más específicas, a las cuales se accede haciendo click.
> Por eso decía de hacer scraping.
>
> Presentará esto un problema en el caso de armar un clasificador con ML? O
> solo me serviría para clasificar de manera general sin sub secciones?
>
> El 14 de marzo de 2018, 16:39, Augusto Tononi <adtononi en gmail.com>
> escribió:
>
>> Pensé en traer, pasandole un elemento xml, ciertos títulos y luego
>> agruparlos según la página. Y cuando los cargue manualmente ya saber a que
>> categorías corresponden. El único trabajo que me ahorraría es entrar a las
>> páginas y verificar de que se trata
>>
>> El 14 de marzo de 2018, 16:24, Gustavo Campanelli <gedece en gmail.com>
>> escribió:
>>
>>>
>>> 2018-03-14 16:21 GMT-03:00 Augusto Tononi <adtononi en gmail.com>:
>>>
>>>> Buen día gente
>>>>
>>>> Necesito ayuda para tagear páginas. Tengo unas 42 mil páginas en un
>>>> CSV. El trabajo consiste en entrar a las páginas, ver de que trata y
>>>> tagearla en el programa del laburo. A su vez también se entra a las
>>>> distintas sub-categorías que tiene cada páginas. Todo esto manual.
>>>> Si sigo así voy a terminar el año que viene, con suerte. Así que se me
>>>> ocurrio hacer un spider para realizar web scraping, lo cual ya estuve
>>>> probando de curioso en otra ocasión. Ustedes lo ven muy viable? O conocen
>>>> alguna otra forma de realizarlo?
>>>> El spider sería para que me categorice las páginas y sus subdominios, y
>>>> después si hacer la carga manual (es la única forma) en el programa del
>>>> laburo.
>>>>
>>>> Saludos
>>>>
>>>> _______________________________________________
>>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>>> Sitio web: http://www.python.org.ar/
>>>>
>>>> Para administrar la lista (o desuscribirse) entrar a
>>>> http://listas.python.org.ar/listinfo/pyar
>>>>
>>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>>> Argentina - http://www.usla.org.ar
>>>
>>>
>>> El problema no es el spider, eso es tan sencillo como alimentar de
>>> sitios a un programa que implementa un navegador interno. Lo complicado
>>> del programa es automatizar la calsificación.
>>>
>>> Gedece
>>>
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>>
>>
>>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180314/3e0da3e8/attachment.html>


Más información sobre la lista de distribución pyar