Machine learning is een must voor de deeltjesfysica

Friday, October 4, 2019

Machine learning is een must voor de deeltjesfysica

Hoe kun je nieuwe natuurkunde vinden zonder een model te hebben van die fysica? Machine learning is daarvoor essentieel, beweert deeltjesfysicus Sascha Caron. Hij past het toe in de zoektocht naar donkere materie.

Dit artikel is gepubliceerd in het NIKHEF-magazine Dimensies van oktober 2019. Het magazine is hier te downloaden

“Voor mijn kinderen is het heel normaal dat een auto zelf kan rijden, dat een machine hun vragen beantwoordt en dat een robot hen helpt om wetenschap te bedrijven. Deze nieuwe generatie denkt heel anders dan mijn generatie of nog oudere generaties. Dat zie ik ook in mijn vakgebied.”

Aan het woord is Sascha Caron, universitair hoofddocent deeltjesfysica aan de Radboud Universiteit Nijmegen en tevens verbonden aan het Nikhef. Hij is gespecialiseerd in data-analyse, in het bijzonder die bij de zoektocht naar donkere materie. Daarin is hij een van de pioniers in het gebruik van machine learning.

Caron: “Als je bij het Nikhef nu de vraag zou stellen wat het nut is van machine learning in de deeltjesfysica, dan zul je vaak antwoorden horen in de trant van: het is een hype, of: dat we doen al twintig jaar. Mijn eigen antwoord luidt: machine learning is een must, we doen er veel te weinig mee en veel te weinig fysici begrijpen het potentieel.”

Voor de deeltjesfysica ligt dat potentieel volgens Caron op vier terreinen: het beter classificeren van deeltjes en botsingsgebeurtenissen, het direct afleiden van fysica uit ruwe data, het vinden van nieuwe fysica zonder een model van die fysica te hebben, en tenslotte het fantaseren of − netter gezegd − bedenken van nieuwe fysica. Dat is nogal wat.

Machine learning is het onderdeel van de kunstmatige intelligentie waarin computers nieuwe taken leren in plaats van alleen maar voorgeprogrammeerde taken uitvoeren. Een van de eenvoudigste praktische toepassingen is een computer die leert om in je e-mailbox spam van niet-spam te onderscheiden zonder dat hem van te voren precies is verteld hoe een spam-bericht is opgesteld.

De meest populaire manier van machine learning gebruikt neurale netwerken. Dat idee is geïnspireerd op de manier waarop het menselijk brein leert en simuleert een netwerk van neuronen op een computer. Deze kunstmatige neuronen zijn met elkaar verbonden en tijdens het leerproces veranderen de ‘gewichten’ die aangeven hoe sterk twee neuronen met elkaar zijn verbonden.

Neurale netwerken bestaan al decennialang, maar boekten ook net zo lang nauwelijks succes. Dat veranderde in 2012 toen diepe neurale netwerken, met meer lagen van neuronen dan voorheen, het ineens veel beter bleken te doen bij het classificeren van voorwerpen in afbeeldingen dan alle andere methoden. Sindsdien duiken neurale netwerken ineens overal op, nu onder de naam deep learning: van beeld- en spraakherkenning tot medische diagnoses en robotica, en sinds een paar jaar ook in de natuurwetenschappen. Zo ontdekten astronomen in 2017 dankzij machine learning een nieuwe exoplaneet. Scheikundigen kunnen dankzij machine learning sneller interessante nieuwe materialen vinden.

Dankzij deep learning kunnen computers nu razendsnel en zonder moe te worden patronen in data herkennen. Soms zijn dat patronen die de mens ook wel zou herkennen, maar soms ook zijn dat subtiele patronen die de mens niet ziet. In 2016 deed go-computer AlphaGo tegen de beste go-speler van het decennium dankzij zijn zelflerende vermogen een zet die menselijke top-spelers als oerdom beschouwden, maar die achteraf geniaal bleek te zijn.

Geïnspireerd door de successen van deep learning op andere terreinen, ging ook een klein groepje deeltjesfysici ermee aan de slag in. In 2014 boekten zij het eerste succes. Ze lieten zien dat deep learning 8% beter dan alle andere methoden in staat was om in de data van botsingsdetectoren deeltjes te onderscheiden van achtergrondruis.

“Dat is mooi”, zegt Caron, “maar niet fundamenteel nieuw. Wat wel echt nieuw was, is dat deep learning daarvoor geen voorkennis over de fysica nodig heeft. De standaardmethode van classificeren heeft dat wel nodig. Traditioneel bedenkt een bepaalde groep theoretisch fysici variabelen die geschikt zijn om naar nieuwe natuurkunde te zoeken. Dat is de voorkennis. Ik durf wel te stellen dat het voor deze fysici na de publicatie in 2014 game over is. Zij gaan nooit meer variabelen bedenken die het beter doen in het classificeren dan een neuraal netwerk. Een diep neuraal netwerk heeft gewoon veel meer vrijheid om zich aan te passen aan de data.”

Het is de combinatie van diepe neurale netwerken, meer trainingsdata, betere simulatoren om trainingsdata zelf te maken, betere algoritmen om neurale netwerken te trainen en betere hardware die maken dat diepe neurale netwerken nu zo’n succesvol instrument kunnen zijn, ook in de deeltjesfysica. En dat terwijl in de jaren negentig neurale netwerken het niet beter deden in het classificeren van deeltjes en botsingsgebeurtenissen dan andere methoden.

“Helaas zitten veel fysici nog in hun hoofd met die oude neurale netwerken en zijn ze niet op de hoogte van de ontwikkelingen van de afgelopen vijf jaar”, zegt Caron. “Ik denk dat er wereldwijd zo’n vijftig deeltjesfysici bezig zijn de potentie van diepe neurale netwerken te ontdekken. Dat is veel te weinig. Het maakt het ook moeilijk om een cultuurverandering teweeg te brengen. Onderzoeksvoorstellen en papers worden vaak beoordeeld door natuur- en sterrenkundigen zonder kennis in machine learning. Dan is de kans groot dat ze niet begrijpen wat het nieuwe aspect is.”

Behalve het beter classificeren van deeltjes en botsingsgebeurtenissen, kan machine learning ook gebruikt worden om uit ruwe botsingsdata direct fysica af te leiden. Eigenlijk gaat de hele natuurkunde over het afleiden van nieuwe inzichten uit data. Machine learning kan daarbij enorm helpen. Caron: “Heel veel zaken die natuurkundigen nu op een conventionele manier doen, kunnen we waarschijnlijk beter doen met machine learning. Stel, een calorimeter in een deeltjesdetector meet de energieën van de deeltjes. De ruwe data bestaan dan uit een plaatje van op welke plek de calorimeter wat heeft gemeten. Dat plaatje kun je als ruwe data aan een diep neuraal netwerk geven en dat kan daar de relevante fysische parameters uit halen: welke deeltje is gemeten? welke energie heeft het? wat is de hoek van z’n baan?”

Nog spannender is dat machine learning nieuwe fysica kan vinden zonder een model te hebben van die fysica. Caron: “Tot en met de ontdekking van het Higgsdeeltje wisten deeltjesfysici meestal waarnaar ze zochten. Maar nu zijn we op een punt gekomen waarop we niet meer goed weten waarnaar we zoeken. We hebben misschien wel miljoenen mogelijke modellen voor donkere materie. Eigenlijk willen we alleen maar naar anomalieën zoeken, iets wat afwijkt van het standaardmodel.”

Juist daarvoor is machine learning geschikt. Caron trekt een vergelijking met het zoeken naar leven op andere paneten: “Stel, we trainen een diep neuraal netwerk om alle levende wezens op aarde te herkennen. Het heeft dan een algemeen begrip hoe leven eruit ziet. Vervolgens gaan we het gebruiken om op andere planeten te zoeken naar levende wezens. Dan kan het zomaar zijn dat het netwerk honderdduizenden dingen vindt die het niet kan reconstrueren uit al het aardse leven. Stel nu dat we een tweede netwerk trainen met alle aliens die in sciencefictionboeken voorkomen. In de deeltjesfysica is dat als het ware het netwerk dat door theoreten wordt getraind. Zij bedenken nieuwe fysica. Misschien zegt dit sciencefiction-netwerk wel dat 35 van die honderdduizend rare dingen op een andere planeet lijken op groene mannetjes met grote hoofden uit sciencefictionboeken. Dan zouden we de data daarvan verder kunnen onderzoeken. Dit is precies wat ik zelf doe met het zoeken naar donkere materie.”

Volgens Caron denken veel deeltjesfysici dat het echte werk zit in het bouwen van een detector en het doen van de experimenten en dat de data-analyse triviaal is. “Zo was het in de jaren 80 en 90 van de 20e eeuw, maar dat geldt al lang niet meer. Omdat we niet meer goed weten waarnaar we moeten zoeken, zijn de modellen veel complexer geworden. Daarnaast is de hoeveelheid gemeten data veel groter. En wel zo groot dat geen enkele klassieke analysemethode het beter doet dan machine learning. We moeten een heel ander beeld ontwikkelen over hoe we natuurkunde bedrijven. Een beeld waarin machine learning een krachtig instrument is.”

Internet
Sascha Caron: https://www.nikhef.nl/~scaron
Dark Machines is een onderzoekscollectief van natuurkundigen en data-wetenschappers: http://www.darkmachines.org
Project iDark van het eScience Center: https://www.esciencecenter.nl/project/idark

Honors and Awards

Nomination Eureka book Prize 2008
My book OPGELOST - Toepassingen van wiskunde en informatica (which translates as SOLVED - Applications of mathematics and informatics) was nominated for the Eureka book Prize 2008, for the best popular science book.

Amundsen Competition 2007
In december 2007 I was one of fourteen winners in the Amundsen Competition, an essay competiton organised by the World Federation of Science Journalists for the International Polar Year 2007/2008. The price is a two-weeks trip on board of the Arctic Polar Icebreaker ‘Amundsen’ to the North Pole Area (April 24 - May 8, 2008).

See my weblog: in Dutch or in English

Eureka!-award 2003 for the 2002-editorial board of Natuur & Techniek, for the best media achievement in the field of the public understanding of science in the Netherlands. I was part of the board at that time.

‘Friend of Poland’-award 2003 for two articles: a travel article about Krakow in the ANWB-monthly travel magazine Reizen (july/august 2002) and a biology-article on the primeval forest Bialowieza in the east of Poland, for the scientific monthly Natuur & Techniek (march 2003). The international contest for journalists was organised by Radio Polonia and the Polish Organisation for Tourism in Warsaw.

Quotes

The world looks so different after learning science

Richard Feynman

Science is a way of trying not to fool yourself. The first principle is that you must not fool yourself, and you are the easiest person to fool.

Richard Feynman

Wat is wetenschap? Wetenschap is de titanische poging van het menselijk intellect zich uit zijn kosmische isolement te verlossen door te begrijpen!

Professor Nummedal in de roman Nooit meer slapen van W.F. Hermans

We cook the facts. There are many different techniques for collecting, interpreting and analysing facts, and different techniques often lead to different conclusions, which is why scientists can disagree...When facts challenge our favoured conclusions, we scrutinize them more carefully and subject them to more rigourous analysis.

Psychologist Daniel Gilbert in Stumbling on happiness

The brain is wider than the sky,
For, put them side by side,
The one the other will include
With ease, and you beside.

Emily Dickinson

‘Who are YOU?’ said the Caterpillar. This was not an encouraging opening for a conversation. Alice replied, rather shyly, ‘I – I hardly know, sir, just at present – at least I know who I WAS when I got up this morning, but I think I must have been changed several times since then.’

Alice in Wonderland, Lewis Carroll

Want de ruimte en hij die er vrij doorheen trekt, die zijn de enige ware, dat is het leven, en alles wat op een plaats is versteend en langzaam tot stof vergaat, is dood van den beginne af aan.

J. Slauerhoff

Don't see the world as a market, but rather a place that people live in - you are designing for people, not machines.

Red Burns

Van alle dingen die de mensheid zich sinds haar ontstaan eigen heeft gemaakt, is wetenschap verreweg de meest succesvolle en productieve.

Michio Kaku