Już po 24 godzinach od rozpoczęcia akcji, strona promująca alternatywne przeglądarki pojawiła się na trzecim miejscu w najpopularniejszej wyszukiwarce - Google. Kilka osób zadało mi pytanie, jak to możliwe, skoro sama strona nie zawiera w żadnym miejscu frazy konkursowej - MsnBetter ThanGoogle.

Jako, że wiele osób zarzuca mi niekompetencję, czy też skrajną głupotę, zaznaczam z góry, że przytoczone poniżej informacje mogą być dawno nieaktualne bądź nieprawdziwe - w takim przypadku proszę o poprawienie mnie, jako że nie śledzę forów tematycznych, zajmujących się pozycjonowaniem.

Wyniki wyszukiwania

Google przy wyszukiwaniu stron bierze pod uwagę kilka czynników:

  1. URI strony (obecność słów kluczowych z wyszukiwanej frazy)
  2. Tytuł dokumentu
  3. Zawartość dokumentu (obecność słów, ich wzajemny układ, odległość, gęstość występowania i stosunek ich ilości do objętości samego tekstu)
  4. Odnośniki do dokumentu (obecność słów kluczowych)
  5. Współczynnik PageRank strony

Nie są brane pod uwagę elementy <meta/> nagłówka dokumentu ani komentarze oraz elementy o zawartości typu CDATA (kod JavaScript, Visual Basic, arkusze stylów).

O ile BrowseHappy nie zawiera poszukiwanej frazy w żadnym z trzech pierwszych elementów listy, o tyle ma bardzo wysoki PageRank, o którym niżej. Dzięki temu jest w stanie przeskoczyć wyniki o dużym nasyceniu treści poszukiwaną frazą. Podobnie wypozycjonowane zostały strony Microsoft Polska i sama wyszukiwarka Google.

PageRank

PageRank jest iteracyjnym algorytmem obliczania ważności dokumentu. Nazwa pochodzi od nazwiska jednego z założycieli Google, który jest posiadaczem patentu na sam algorytm.

Jego idea polega na śledzeniu działań typowego użytkownika - budowany jest skierowany graf połączeń i wybierany jest jeden nieterminalny węzeł (taki, który posiada ścieżkę wyjściową). Wszystkim węzłom nadawane są równe wartości PageRank, obierany jest też współczynnik znudzenia internauty (liczba rzeczywista z zakresu 0-1, nie jest mi znana dokładna wartość tego parametru, z tego co pamiętam, oscylowała ona w przedziale 0,6-0,9).

Następnie robot wyruszając z danego wierzchołka przechodzi do każdego z jego sąsiadów, zwiększając ich współczynnik PageRank o PageRank bieżącego węzła podzielony przez całkowitą liczbę linków wychodzących z danego węzła i pomnożony przez współczynnik znudzenia (istnieje prawdopodobieństwo, że internauta nie będzie dość cieprpliwy, aby dalej podążać za kolejnymi odnośnikami). Innymi słowy, bieżący węzeł rozdaje po równo swój PageRank pomiędzy dokumenty, do których się odnosi, propagując tym samym własną popularność.

Czynność ta jest powtarzana rekurencyjnie dla wszystkich zlinkowanych sąsiadów, aż wyczerpane zostaną wszystkie połączenia w grafie.

Po przejściu przez cały graf, wartości PageRank wszystkich wierzchołków mnożone są przez (1 - współczynnik znudzenia).

Całość nie jest liczona od razu, używane są przybliżenia iteracyjne, gdzie wartości modyfikowane są stopniowo za pomocą algorytmów przybliżeniowych - liczba stron w internecie nie pozwoliłaby na zbudowanie rzeczywistego grafu wszystkich połączeń. Dane analizowane są więc w postaci przybliżonej i po ich uszczegółowieniu przeprowadzany jest kolejny krok iteracji.

Po przeprowadzieniu około stu kroków iteracyjnych, generowany jest nowy indeks popularności serwisów i rozpoczyna się faza jego wdrażania. Tutaj pojawiają się problemy z różnymi wynikami Google zwracanymi dla różnych użytkowników.

Tańczący z Google'ami

Kiedyś nazywało się to Google dance i było zjawiskiem regularnie obserwowanym raz w miesiącu, kiedy to indeksy były rozsyłane do kolejnych serwerów obsługujących wyszukiwanie (Google jest obsługiwane przez kilka-kilkanaście klastrów serwerowych i w zależności od szczęścia, dostawcy internetu i pogody w Zairze, możemy trafić na dowolny z nich).

Od kilku lat Google uaktualnia indeksy nieregularnie, od kilku do kilkunastu razy w miesiącu, co powoduje, że ciężko wykryć moment podmiany. Aby ułatwić to webmasterom, wprowadzone zostały dwa dodatkowe adresy - www2.google.com oraz www3.google.com, które zawsze wykorzystują najnowsze zestawienia. Jest to jedyne autorytatywne źródło aktualnych wyników podczas operacji podmiany.

Dlatego właśnie wczoraj użytkownicy magistrali innych niż TP otrzymywali inne wyniki niż klienci monopolisty, którego serwery DNS w cache miały akurat adres IP świeżo zaktualizowanego serwera.

Na zakończenie

Pozycjonowaniem nie miałem czasu zajmować się już dłuższy czas, stąd powyższe informacje mogą zawierać zupełnie nieaktualne dane, możliwe też, że źle pamiętam sam mechanizm punktowania serwisów.

Update: przepraszam za bałagan, ale przy formatowaniu tekstu zginął mi jeden akapit tekstu, już poprawione.