El proceso de preparación

Una vez obtenidos los datos y almacenados en una base de datos adecuada, es necesario separar cada una de las palabras. A este proceso se le denomina tokenización. Aparentemente sencillo, este método debe desechar una serie de caracteres que entorpecerían el análisis. En este caso se utilizan métodos de expresiones regulares. Cabe destacar que no es posible lograr una tokenización completa y perfecta (por ejemplo el tratamiento de emoticons como :(, xD, =p, etc..), pero si una expresión que tienda a conseguir los resultados deseados.

Una vez obtenidas las palabras, se intentará una normalización, obteniendo los lexemas de las palabras. No se intenta obtener el infinitivo de cada palabra, sino una correspondencia entre un mismo tipo de palabras antes de conjugaciones o modificaciones. Esto es sumamente fácil en inglés, pero mucho más complejo en otros idiomas. Como lo sitios que analizamos son en ingles, es posible utilizar normalizadores difundidos para este idioma.

A partir de este punto, existen una serie de stoping words, los cuales son palabras de uso muy frecuente en un idioma, que no arrojan mayor información sobre el texto para los algoritmos que usaremos. Por lo tanto es necesario eliminarlas para lograr acercar los resultados a la utilidad deseada.

julio 2010-03-26