Hoe vindt Google wat jij zoekt?

Monday, April 14, 2008

Hoe vindt Google wat jij zoekt?

Dit artikel is gepubliceerd in Trouw, 14 april 2008

Dagelijks beantwoordt Google honderden miljoenen zoekopdrachten. In een oogwenk verschijnt een lange lijst van resultaten op je scherm. Hoe dat kan? In essentie door de brute kracht van heel veel computers, en een rekenformule die op een slimme manier ‘gokt’ welke antwoorden je zoekt.

Google – afgeleid van het woord ‘googol’: een 1 met honderd nullen – beschikt over een gigantisch gegevensbestand met kopieën van webpagina’s. Speciale software zoekt geregeld naar zo veel mogelijk bestaande websites. De zoekmachine slaat vervolgens kopieën van de gevonden pagina’s op, verspreid over honderdduizenden computers (het precieze aantal is geheim). Die kopieën vormen de database waarin de zoekmachine speurt. Zelfs Google ziet maar een deel van alle webpagina’s. Precieze cijfers daarover zijn niet bekend, maar sommige experts denken dat dat maar één procent is. Naar schatting bestaat Googles database nu uit tientallen miljarden webpagina’s, en dat aantal groeit voortdurend.

De crux van een goede zoekmachine zit in een slimme zoekstrategie, gebaseerd op drie principes. Allereerst telt mee hoe vaak een zoekwoord op een bepaalde pagina voorkomt. Dit deden alle zoekmachines vóór de introductie van Google ook al. Google was in 1998 echter de eerste die liet meewegen hoe vaak er naar de betreffende pagina wordt verwezen vanaf andere pagina’s. Hoe meer andere webpagina’s naar een site verwijzen, hoe belangrijker deze waarschijnlijk is. Dat bleek een gouden zet, die Google op grote voorsprong zette. Met de oude zoekstrategie, die alleen het aantal gezochte woorden per pagina telde, zou het kunnen zijn dat je, als je ‘Shell’ intikt in de zoekmachine om de thuispagina te vinden, terechtkomt op de site van Greenpeace, omdat deze bijvoorbeeld vele malen de naam van het bedrijf noemt in kritische beschouwingen. Door nu ook mee te wegen hoe vaak er naar een pagina wordt verwezen, is de kans veel groter dat je meteen terechtkomt bij de thuispagina van het bedrijf. Het derde principe is dat pagina’s die langer bestaan ook een hogere waardering krijgen.

Het Google-zoekalgoritme kent een waardering toe aan elke vondst, en rangschikt ze naar belangrijkheid. De details van de toverformule zijn geheim. Anders kun je al te gemakkelijk je eigen site in de resultatenlijst kunstmatig naar boven stuwen. Immers: ‘ik sta op Google, dus ik besta’.

De volgende generatie zoekmachines zal steeds slimmere antwoorden geven, door steeds meer inzicht te krijgen in welke informatie je precies verwacht wanneer je een zoekterm intikt, en wat je vervolgens met die informatie doet. Stel dat je ‘Bob Dylan’ intikt, dan krijg je behalve informatie over de popster, ook meteen een lijst met songteksten, cd’s, video’s en i-tunes voorgeschoteld. En niet te vergeten: ook links naar waar je wat kunt kopen; advertenties die Google’s kas spekken. Want dat is wat Google tegenwoordig toch ook is: big business. Begin 2008 was de beurswaarde van Google Inc. tweehonderd miljard dollar. Al onze gratis zoekopdrachten vertellen iets over wie we zijn en wat we willen, en dat is kennelijk een gods-, nee, googlevermogen waard.

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku