Aprendizaje no supervisado: Jerárquico

Para poder encontrar grupos de forma no supervisada, en base a los intereses de los diferentes miembros de los pueblos originarios norteamericanos, utilizamos en primero momento el algoritmo jerárquico, propuesto por vez primera por S.C. Johnson en 1967.

Partimos de $N$ elementos que serán agrupados en $N$ grupos (o clusters). Cada cluster calculará su distancia con respecto a otro cluster en base a sus similitudes agrupadas en una matriz de frecuencia de palabras. Para darnos una idea de la lógica de este procedimiento. ( Ver algoritmo [*].7


\begin{algorithm}
% latex2html id marker 144\caption{Hierarchical Clustering
}...
...e {}
detener. De lo contrario ir al paso 2.}
\end{enumerate}\par
\end{algorithm}

Para el cálculo de las distancias, se utilizó en este trabajo una matriz de frecuencia de palabras, calculando la distancia mediante Coeficiente de Correlación de Pearson que vemos en la ecuación (1)8


\begin{displaymath}
r=\frac{\sum XY-\frac{\sum x\sum y}{N}}{\sqrt{\left(\sum x^{...
...ht)\left(\sum Y^{2}-\frac{\left(\sum Y\right)^{2}}{N}\right)}}
\end{displaymath} (1)

Sin embargo, el algoritmo presenta limitantes: su complejidad es por lo menos $O\left(n^{2}\right)$, donde $n$ es el número total de elementos y no se puede deshacer un agrupamiento realizado.

julio 2010-03-26