Twitter
RSS

Verano raro

Hola a todos Saludos desde Cd. Victoria, este año de nuevo participe en un verano cientifico. Este es un programa que saca la AMC año con año y esta vez esta en su edición No. XIX. El prohrama consiste en pasar los dos meses de vacaciones de verano en un proyecto de investigación el cual uno lo elige y se pone en contacto con el investigador encargado para que lo acepten en el proyecto. La AMC tiene una cartera de investigadores con proyectos de los cuales puedes elegir uno, de cualquier lado de la republica. ¿Por que no simplemente irse a la playa el verano y ver a las chicas en traje de baño y los turistas tomar el sol en las playas de Tabasco?.
Por que eso sería tan simple xD, como buen geek y nerd decidi en vez de pasarme mis vacaciones de verano en la playa o de weba en mi casa, venir a Cd. Victoria a participar en este proyecto. Además de que aqui esta más cerca mi nena @xtinarios.



Bueno el proyecto es de mineria de datos y consiste en hacer clustering de palabras con un algoritmo llamado K-means. Detallo a continuación.


Clustering
[via Wikipedia]

Un algoritmo de agrupamiento (en inglés, clustering) es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Un algoritmo de clustering permite extraer representantes de un conjunto de datos, que pueden ser posteriormente usados para transmisión, para eliminación de ruido o con una fase posterior de calibración, para clasificación de vectores en diferentes conjuntos.

Algunos algoritmos de clustering conocidos y usados son el k medias, el ISODATA y el Mapa autoorganizado de Kohonen.

Los algoritmos de clustering se usan en minería de datos, en las fases iniciales de visualización.


k-means
[vía http://omarsanchez.net]

El algoritmo de k-means clustering es el referente principal entre los diversos métodos para seleccionar grupos representativos entre los datos.
Existen una serie matrices que constituyen el fundamento para la implementación de este tipo de algoritmo, entre ellas:
- Matriz de datos
- Matriz de distancias
- Matriz de centroides
- Matriz de pertenencias
Sus diferentes variantes se basan fundamentalmente en la forma de medir distancias entre los datos y los grupos, el criterio para definir la pertenencia de los datos a cada grupo y la forma de actualizar dichos grupos.

Comments (2)

What's up men!!!

I'm working in a similar project. I have dudes with K-means, ontologies and parsing tokens.

I like you help me, please.

Answer at hdosuna(arroba)yahoo.com

Good summer (y)

Hi hdosuna

can i help you exactly?

grettings.

G@rtox ;)