Boeken

Monday, April 14, 2008

Hoe vindt Google wat jij zoekt?

Dit artikel is gepubliceerd in Trouw, 14 april 2008

Dagelijks beantwoordt Google honderden miljoenen zoekopdrachten. In een oogwenk verschijnt een lange lijst van resultaten op je scherm. Hoe dat kan? In essentie door de brute kracht van heel veel computers, en een rekenformule die op een slimme manier ‘gokt’ welke antwoorden je zoekt.

Google – afgeleid van het woord ‘googol’: een 1 met honderd nullen – beschikt over een gigantisch gegevensbestand met kopieën van webpagina’s. Speciale software zoekt geregeld naar zo veel mogelijk bestaande websites. De zoekmachine slaat vervolgens kopieën van de gevonden pagina’s op, verspreid over honderdduizenden computers (het precieze aantal is geheim). Die kopieën vormen de database waarin de zoekmachine speurt. Zelfs Google ziet maar een deel van alle webpagina’s. Precieze cijfers daarover zijn niet bekend, maar sommige experts denken dat dat maar één procent is. Naar schatting bestaat Googles database nu uit tientallen miljarden webpagina’s, en dat aantal groeit voortdurend.

De crux van een goede zoekmachine zit in een slimme zoekstrategie, gebaseerd op drie principes. Allereerst telt mee hoe vaak een zoekwoord op een bepaalde pagina voorkomt. Dit deden alle zoekmachines vóór de introductie van Google ook al. Google was in 1998 echter de eerste die liet meewegen hoe vaak er naar de betreffende pagina wordt verwezen vanaf andere pagina’s. Hoe meer andere webpagina’s naar een site verwijzen, hoe belangrijker deze waarschijnlijk is. Dat bleek een gouden zet, die Google op grote voorsprong zette. Met de oude zoekstrategie, die alleen het aantal gezochte woorden per pagina telde, zou het kunnen zijn dat je, als je ‘Shell’ intikt in de zoekmachine om de thuispagina te vinden, terechtkomt op de site van Greenpeace, omdat deze bijvoorbeeld vele malen de naam van het bedrijf noemt in kritische beschouwingen. Door nu ook mee te wegen hoe vaak er naar een pagina wordt verwezen, is de kans veel groter dat je meteen terechtkomt bij de thuispagina van het bedrijf. Het derde principe is dat pagina’s die langer bestaan ook een hogere waardering krijgen.

Het Google-zoekalgoritme kent een waardering toe aan elke vondst, en rangschikt ze naar belangrijkheid. De details van de toverformule zijn geheim. Anders kun je al te gemakkelijk je eigen site in de resultatenlijst kunstmatig naar boven stuwen. Immers: ‘ik sta op Google, dus ik besta’.

De volgende generatie zoekmachines zal steeds slimmere antwoorden geven, door steeds meer inzicht te krijgen in welke informatie je precies verwacht wanneer je een zoekterm intikt, en wat je vervolgens met die informatie doet. Stel dat je ‘Bob Dylan’ intikt, dan krijg je behalve informatie over de popster, ook meteen een lijst met songteksten, cd’s, video’s en i-tunes voorgeschoteld. En niet te vergeten: ook links naar waar je wat kunt kopen; advertenties die Google’s kas spekken. Want dat is wat Google tegenwoordig toch ook is: big business. Begin 2008 was de beurswaarde van Google Inc. tweehonderd miljard dollar. Al onze gratis zoekopdrachten vertellen iets over wie we zijn en wat we willen, en dat is kennelijk een gods-, nee, googlevermogen waard.