[pyar] Text Clustering

Augusto adtononi en gmail.com
Mar Ago 13 07:51:13 -03 2019


Gracias por la data! Le voy a dar un vistazo

El mar., 13 ago. 2019 7:30, Bruno Geninatti <brunogeninatti en gmail.com>
escribió:

> Viste esto? https://fasttext.cc/
>
> Implementa unas técnicas de clasificación de textos que están bastante
> piolas.
> Calcula una distancia entre palabras dentro de un contexto determinado.
> Permite identificar palabras similares, pero no iguales, a tus keywords y
> lo que me resulta muy loco es que es agnóstico al idioma en el que esté
> escrito el texto.
> Está medio en research y no muy testeado en producción, pero por ahí sacas
> buenas ideas de los papers en los que se basan.
>
> [1] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, *Enriching Word
> Vectors with Subword Information <https://arxiv.org/abs/1607.04606>*
>
> [2] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, *Bag of Tricks for
> Efficient Text Classification* <https://arxiv.org/abs/1607.01759>
>
> El mar., 13 ago. 2019 11:57 a.m., Augusto <adtononi en gmail.com> escribió:
>
>> Más o menos. La idea no es hacer una predicción usando textos ya
>> categorizados, sino que en base a la relevancia de las keywords me diga a
>> qué categoría pertenece.
>>
>>
>> El mar., 13 ago. 2019 3:07, Tordek <kedrot en gmail.com> escribió:
>>
>>> Hablando sin saber... Entiendo que ya tenés artículos con tags y
>>> categorías y querés categorizar otros artículos según los tags que le
>>> ponés, ¿es así?
>>>
>>> ¿Para esto no va Bayes? "Document classification" sería el problema
>>> que buscás resolver.
>>>
>>> Saludos
>>> --
>>> Tordek
>>>
>>> On Mon, 12 Aug 2019 at 14:14, Augusto <adtononi en gmail.com> wrote:
>>> >
>>> > Buenas grupos, les vengo con una consulta del área de Data Science.
>>> >
>>> > Cuento con categorías de noticias pre-definidas, dentro de las cuales
>>> tengo keywords. La idea es que dada una noticia, saber a qué categoría/s
>>> corresponde TENIENDO SIEMPRE EN CUENTA las keywords que ya tengo
>>> pre-definidas.
>>> >
>>> > Mi pregunta es como podría lograr esto. Podría usar K-means, pero no
>>> sabría como integrar mis keywords para que haga los clusters en base a
>>> ellas.
>>> >
>>> > Gracias!
>>> > _______________________________________________
>>> > Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> > Sitio web: http://www.python.org.ar/
>>> >
>>> > Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>> >
>>> > La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>> _______________________________________________
>>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>>> Sitio web: http://www.python.org.ar/
>>>
>>> Para administrar la lista (o desuscribirse) entrar a
>>> http://listas.python.org.ar/listinfo/pyar
>>>
>>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>>> Argentina - http://www.usla.org.ar
>>
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190813/09886dd9/attachment-0001.html>


Más información sobre la lista de distribución pyar