[pyar] Categorizar páginas

Augusto Tononi adtononi en gmail.com
Mie Mar 14 16:39:22 -03 2018


Pensé en traer, pasandole un elemento xml, ciertos títulos y luego
agruparlos según la página. Y cuando los cargue manualmente ya saber a que
categorías corresponden. El único trabajo que me ahorraría es entrar a las
páginas y verificar de que se trata

El 14 de marzo de 2018, 16:24, Gustavo Campanelli <gedece en gmail.com>
escribió:

>
> 2018-03-14 16:21 GMT-03:00 Augusto Tononi <adtononi en gmail.com>:
>
>> Buen día gente
>>
>> Necesito ayuda para tagear páginas. Tengo unas 42 mil páginas en un CSV.
>> El trabajo consiste en entrar a las páginas, ver de que trata y tagearla en
>> el programa del laburo. A su vez también se entra a las distintas
>> sub-categorías que tiene cada páginas. Todo esto manual.
>> Si sigo así voy a terminar el año que viene, con suerte. Así que se me
>> ocurrio hacer un spider para realizar web scraping, lo cual ya estuve
>> probando de curioso en otra ocasión. Ustedes lo ven muy viable? O conocen
>> alguna otra forma de realizarlo?
>> El spider sería para que me categorice las páginas y sus subdominios, y
>> después si hacer la carga manual (es la única forma) en el programa del
>> laburo.
>>
>> Saludos
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
>
> El problema no es el spider, eso es tan sencillo como alimentar de sitios
> a un programa que implementa un navegador interno. Lo complicado del
> programa es automatizar la calsificación.
>
> Gedece
>
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20180314/4d3cf464/attachment-0001.html>


Más información sobre la lista de distribución pyar