Sí, la emoción es justificada, el chilenismo me embarga, porque si es chileno, es bueno. Como lo leen: Google, Microsoft y otras grandes empresas que han invertido dinero en el negocio de las búsquedas Web ya no podrán decir que sus algoritmos son los más avanzados del mundo.
Un chileno, llamado Rodrigo Fuentealba, y de quien hemos tenido varias noticias en la Internet por su participación como exponente en varios encuentros en Chile y en el extranjero, ha sido seleccionado con una beca completa en la Universidad de Cambridge, debido a que diseñó un sistema más eficiente, más rápido y que consume menos tiempo de procesador que Google.
El sistema se basa en un parser HTML simple que primero organiza el código HTML, asigna un índice por frases y palabras, estableciendo con esta información las proporciones estadísticas. Cuando alguien consulta, en vez de ir a buscar la palabra a una base de datos, sólo necesita el índice estadístico generado como una clave para obtener los resultados deseados. En números, una máquina común de escritorio ha podido almacenar 400.000 páginas de contenido puro con alrededor de 2.000.000 de palabras distintas, discriminadas por idioma y que se intenta discriminar por contexto.
El page ranking se realiza a través de la cantidad de enlaces contenidos en un sitio Web y por los cuales se organizan de manera inteligente los sitios más visitados en función de la contextualización (a través de un algoritmo simple).
“Generar números flotantes” – nos cuenta Rodrigo – “es la mejor forma de generar búsquedas utilizando estadísticas. Es inútil que el procesador pierda tiempo en buscar cada palabra y descomponerla, eso debería ir a un proceso aparte. Además, la manera en que esto se pensó obliga a las personas a escribir código HTML válido y a disminuir el uso de páginas completamente escritas en Flash, que tanto atentan contra los usuarios.”
Es de esperar que nuestro buen representante del código abierto nos deje bien parados y sigamos teniendo noticias de él. Por lo demás, el código fuente de la comprobación del algoritmo, así como el modelo de datos conceptual y todo eso estará publicado hoy a eso de las 11 de la mañana.











Vamos... sabemos que quieres comentar algo ;)