Jon Kleinberg, profesor de informática en la universidad de Cornell, Ithaca, N.Y., ha desarrollado un método para que una computadora encuentre los asuntos que dominan en una discusión en un determinado momento mediante la búsqueda de explosiones repentinas, rápidas, de palabras en grandes colecciones de documentos. Entre otras pruebas del método, ha explorado los discursos presidenciales sobre el Estado de la Unión desde 1790 hasta la actualidad y ha creado una lista de palabras que refleja misteriosamente algunas tendencias históricas. La técnica, sugiere, podría tener muchos usos en extracción inteligente de datos (data mining), incluyendo búsquedas en Internet o estudio de tendencias sociales según lo reflejado en las páginas Web.
Kleinberg dice que se le ocurrió la idea de buscar en un cierto plazo de tiempo mientras que intentaba arreglárselas con su propia avalancha de correo electrónico entrante. Él razonó que cuando un asunto importante surge en la discusión, las palabras clave relacionadas con el asunto muestran un aumento repentino en frecuencia. Una búsqueda de estas palabras podría, teorizó, proporcionar maneras de categorizar los mensajes.
Él ideó un algoritmo de la búsqueda que busca la 'explosividad', midiendo no sólo el número de veces que aparecen las palabras, sino también el coeficiente de incremento de esos números en un cierto plazo de tiempo. Los programas basados en su algoritmo pueden explorar textos que varían en el tiempo y señalar las palabras más 'explosivas'. "El método está inspirado en los modelos de probabilidad usados para analizar el comportamiento de las redes de comunicación, donde la 'explosividad' ocurre en el tráfico debido a la congestión y a los puntos calientes", explica.
Hace algunos años, sugirió que una manera de encontrar los sitios más útiles de la Web sobre un tema en particular sería atender a la manera que en que se enlazan entre si. Los sitios que 'son enlazados' por muchos otros son probablemente 'autoridades'. Los sitios que 'se enlazan' a muchos otros son probablemente 'distribuidores'. Las mayores autoridades en un asunto serían los que son enlazados más a menudo por los distribuidores más activos, razonó. Una variación en esta idea es utilizada por Google, y una versión más formal se está utilizando en un nuevo motor de búsqueda llamado Teoma. >de *Buzzwords of history, revealed by computer scans, indicate new ways of searching the Web*. 18 de febrero, 2003
contexto relacionado
> daypop word bursts. 'word bursts' son utilizaciones intensificadas de ciertas palabras en weblogs durante el ultimo par de días. son indicadores sobre lo que los webloggers están escribiendo en este momento. utilidad disponible desde el 26 de febrero, 2003.
> unificando con sólo algunos enlaces aleatorios: redes 'small-world' en simulaciones . 4 de febrero, 2003
> how does 'six degrees of separation' work? explanation is personal networking. 23 de agosto, 2000. revisión de kleinberg sobre un trabajo previo de steven h. strogatz y duncan watts.
> authoritative sources in a hyperlinked environment by jon m. kleinberg [pdf]. introducción al algoritmo 'hits' (hyperlink-induced topic search). 1998
imago
> ráfagas de palabras de la administración amerikana
| permaLink