[pyar] Categorizar páginas
Augusto Tononi
adtononi en gmail.com
Mie Mar 14 16:44:33 -03 2018
Buen dia Julian
Efectivamente, las categorías ya están predefinidas por nosotros. Como las
que nombraste, de ese estilo y muchas otras más claro.
Pensé en esa posibilidad, pero no tendría que tagear solo la página.
Por ejemplo yo tengo la url walmart.mx, corresponde a las categorías:
Electrodomesticos, Comida, Hogar, Familia (entre otras, pero usemos estas).
Y a su vez walmart tiene sub secciones de
tecnología/celulares/computadoras/etc etc . O sea cosas más específicas, a
las cuales se accede haciendo click. Por eso decía de hacer scraping.
Presentará esto un problema en el caso de armar un clasificador con ML? O
solo me serviría para clasificar de manera general sin sub secciones?
El 14 de marzo de 2018, 16:39, Augusto Tononi <adtononi en gmail.com> escribió:
> Pensé en traer, pasandole un elemento xml, ciertos títulos y luego
> agruparlos según la página. Y cuando los cargue manualmente ya saber a que
> categorías corresponden. El único trabajo que me ahorraría es entrar a las
> páginas y verificar de que se trata
>
> El 14 de marzo de 2018, 16:24, Gustavo Campanelli <gedece en gmail.com>
> escribió:
>
>>
>> 2018-03-14 16:21 GMT-03:00 Augusto Tononi <adtononi en gmail.com>:
>>
>>> Buen día gente
>>>
>>> Necesito ayuda para tagear páginas. Tengo unas 42 mil páginas en un CSV.
>>> El trabajo consiste en entrar a las páginas, ver de que trata y tagearla en
>>> el programa del laburo. A su vez también se entra a las distintas
>>> sub-categorías que tiene cada páginas. Todo esto manual.
>>> Si sigo así voy a terminar el año que viene, con suerte. Así que se me
>>> ocurrio hacer un spider para realizar web scraping, lo cual ya estuve
>>> probando de curioso en otra ocasión. Ustedes lo ven muy viable? O conocen
>>> alguna otra forma de realizarlo?
>>> El spider sería para que me categorice las páginas y sus subdominios, y
>>> después si hacer la carga manual (es la única forma) en el programa del
>>> laburo.
>>>
>>> Saludos
>>>
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>>
>> El problema no es el spider, eso es tan sencillo como alimentar de sitios
>> a un programa que implementa un navegador interno. Lo complicado del
>> programa es automatizar la calsificación.
>>
>> Gedece
>>
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>>
>
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180314/ccdd5ab0/attachment.html>
Más información sobre la lista de distribución pyar