sábado, 23 de agosto de 2008

La fórmula del PageRank

Aunque parezca sorprendente, según el libro nerd que estoy re-leyendo, la fórmula para calcular el PageRank de una página es (conceptualmente) muy simple:

Que se lee así: el PageRank de la página "i" es la sumatoria del PageRank de cada página "j"que tiene un link apuntándole a "i", dividido por la cantidad de links salientes que tiene esa página "j". El universo de páginas que linkean a "i" está representado por la letra B.
Como se ve, cada página j "reparte" su PageRank entre todos sus links salientes.

La conclusión más importante es que el PageRank depende exclusivamente de la cantidad y la calidad de los links entrantes, y es independiente del query, como se explicó en el post "Cómo funciona Google Search".

Pero lamento decirles que la fórmula de arriba es totalmente inservible en la práctica, por dos razones:  
- calcula el PR de a una página a la vez, con lo cual no es escalable.
- para calcular el PR de una página necesita el PR de otras páginas, que es lo mismo que el cuento del huevo o la gallina. 

Para resolver el primero de los problemas, es necesario expresar la fórmula de arriba con matrices, para lo cual hace falta saber mucho de álgebra lineal (Brin y Page estudiaban para el doctorado en computer science cuando inventaron esto, con lo cual ese no era un grave problema).

Para resolver el segundo, le asignaron un valor de PR inicial a cada página, el mismo para todas, y comenzaron a iterar, rezando (y ajustando las fórmulas) para que en un número pequeño de iteraciones, los valores de PR se estabilicen (matemáticamente se dice "que converjan").

Pero aunque no sirva para ser usada a escala web, la fórmula de arriba es muy importante para entender conceptualmente cuales son los factores que influyen en el bendito PageRank, tan importante para hacer buen SEO. 


Alltop, confirmation that I kick ass

Blogocosa.com