[pyar] Text Clustering

Bruno Geninatti brunogeninatti en gmail.com
Mar Ago 13 07:29:59 -03 2019


Viste esto? https://fasttext.cc/

Implementa unas técnicas de clasificación de textos que están bastante
piolas.
Calcula una distancia entre palabras dentro de un contexto determinado.
Permite identificar palabras similares, pero no iguales, a tus keywords y
lo que me resulta muy loco es que es agnóstico al idioma en el que esté
escrito el texto.
Está medio en research y no muy testeado en producción, pero por ahí sacas
buenas ideas de los papers en los que se basan.

[1] P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, *Enriching Word
Vectors with Subword Information <https://arxiv.org/abs/1607.04606>*

[2] A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, *Bag of Tricks for
Efficient Text Classification* <https://arxiv.org/abs/1607.01759>

El mar., 13 ago. 2019 11:57 a.m., Augusto <adtononi en gmail.com> escribió:

> Más o menos. La idea no es hacer una predicción usando textos ya
> categorizados, sino que en base a la relevancia de las keywords me diga a
> qué categoría pertenece.
>
>
> El mar., 13 ago. 2019 3:07, Tordek <kedrot en gmail.com> escribió:
>
>> Hablando sin saber... Entiendo que ya tenés artículos con tags y
>> categorías y querés categorizar otros artículos según los tags que le
>> ponés, ¿es así?
>>
>> ¿Para esto no va Bayes? "Document classification" sería el problema
>> que buscás resolver.
>>
>> Saludos
>> --
>> Tordek
>>
>> On Mon, 12 Aug 2019 at 14:14, Augusto <adtononi en gmail.com> wrote:
>> >
>> > Buenas grupos, les vengo con una consulta del área de Data Science.
>> >
>> > Cuento con categorías de noticias pre-definidas, dentro de las cuales
>> tengo keywords. La idea es que dada una noticia, saber a qué categoría/s
>> corresponde TENIENDO SIEMPRE EN CUENTA las keywords que ya tengo
>> pre-definidas.
>> >
>> > Mi pregunta es como podría lograr esto. Podría usar K-means, pero no
>> sabría como integrar mis keywords para que haga los clusters en base a
>> ellas.
>> >
>> > Gracias!
>> > _______________________________________________
>> > Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> > Sitio web: http://www.python.org.ar/
>> >
>> > Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>> >
>> > La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>> _______________________________________________
>> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
>> Sitio web: http://www.python.org.ar/
>>
>> Para administrar la lista (o desuscribirse) entrar a
>> http://listas.python.org.ar/listinfo/pyar
>>
>> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
>> Argentina - http://www.usla.org.ar
>
> _______________________________________________
> Lista de Correo de PyAr - Python Argentina - pyar en python.org.ar
> Sitio web: http://www.python.org.ar/
>
> Para administrar la lista (o desuscribirse) entrar a
> http://listas.python.org.ar/listinfo/pyar
>
> La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
> Argentina - http://www.usla.org.ar
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://listas.python.org.ar/pipermail/pyar/attachments/20190813/ca2812fa/attachment.html>


Más información sobre la lista de distribución pyar