Hoe groot is de kans dat je tijdens 100 jaar een 100-jarige storm meemaakt?

Een 100-jarige storm is een gebeurtenis die gemiddeld gezien één keer om de 100 jaar voorkomt. Is het antwoord op bovenstaande vraag dan niet simpelweg dat je gedurende 100 jaar met zekerheid een 100-jarige storm zal meemaken? Zoals een lezer die enige ervaring heeft met spanningsbogen en retorische vragen in dit soort van teksten al vermoedt, is het antwoord volmondig: nee. Laten we starten met een wonderbaarlijke tocht naar de exacte kans.

Een 100-jarige storm is een storm met een terugkeerperiode van 100 jaar, dat wil zeggen dat ze gemiddeld om de 100 jaar zal plaatsvinden. Na een kortstondige overpeinzing kom je al snel tot het besef dat er een kans bestaat dat een persoon op zijn 100ste verjaardag de 100-jarige storm niet heeft meegemaakt. Men kan zich gemakkelijk inbeelden dat er een 100-jarige storm over het land raasde net voor z’n geboorte en net na z’n 100ste verjaardag. Hieruit kunnen we alvast besluiten dat de kans op het meemaken van een storm al zeker kleiner zal zijn dan 100%. Hiermee hebben we wellicht een open deur ingetrapt.

Er komt een voortschrijdend inzicht dat er ook een kans is dat er zich meerdere stormen kunnen voordoen in 100 jaar. Eentje aan het begin en eentje aan het einde bijvoorbeeld, dat is niet ondenkbeeldig. Weliswaar met kleiner wordende kans kunnen zich, als het geluk wat tegen zit, ook meer dan 2 stormen nestelen in de eeuw die we onder de loep nemen. We komen tot het besef dat we beter moeten definiëren wat we willen berekenen. In feite willen we weten wat de kans is dat er minstens één storm zal plaatsvinden tijdens 100 jaar.

We halen de complementregel van onder het statistische stof. Die regel klinkt veel ingewikkelder dan wat ze is. De complementregel zegt bijvoorbeeld dat het ofwel regent ofwel niet regent, nu we toch bezig zijn met open deuren in te trappen… En de som van beide kansen is 1. Symbolisch uitgeschreven: P(regen) + P(geen regen)=1. Passen we dit toe op de stormkwestie dan is de kans dat er geen storm is samen met de kans dat er minstens één storm is gelijk aan 1. Aldus verkrijgen we volgende uitdrukking voor de kans op minstens één storm:

De queeste naar het resultaat heeft zich dus herleid tot de zoektocht naar de kans op 0 stormen.

De olifant in de kamer is hier het feit dat we op gelijk welk moment getroffen kunnen worden door de bliksemse toorn van Zeus in ons aardse dal, en dat kunnen we moeilijk linken aan toevalsexperimenten zoals muntjes gooien en dobbelsteen gooien waarmee de gekende paden der probabiliteit geplaveid zijn. We tasten eerst in het duister, en daarna in het duister van onze zak en vinden een muntje en doen toch een verwoede poging om het voorliggende vraagstuk te herleiden tot het opgooien van een muntje.

We zouden bijvoorbeeld een muntje kunnen opwerpen om per eeuwhelft te bepalen of er een 100-jarige storm zal plaatsvinden. Kop is storm. Dus we willen weten hoeveel kans we hebben om enkel munt te gooien en dan nemen we de complement van het zaakje. Aangezien de kans op succes (=kop gooien = storm) per half jaar 1 op 2 is, is de kans op geen succes 1-1/2. Aangezien we de twee halve eeuwen als onafhankelijke gebeurtenissen beschouwen kunnen we de vermenigvuldigingsregel toepassen, met k als het aantal stormen tijdens de beschouwde periode van 100 jaar, en daarna de complementregel om de kans te bepalen op minstens één storm. Resultaat: 75% kans.

De vreugde om deze eerste benaderende poging wordt echter snel getemperd door het besef dat deze verdienstelijke poging om de vraagstelling op een zeer toegankelijke wijze te benaderen in al z’n eenvoud voorbijgaat aan het feit dat er meerdere stormen in een eeuwhelft kunnen plaatsvinden. Het noopt ons tot nederigheid en reflectie en het mondt uit in louterende verfijning.

Vinden we 50 jaar te ruim? Dan nemen we toch gewoon een kleiner tijdsinterval? Pakweg één jaar. En we passen de kans aan naar 1 op 100, want we verwachten nog altijd om de honderd jaar gemiddeld één storm, statistische wordt dit trouwens ook de verwachtingswaarde genoemd. De kans op een storm per jaar is equivalent met één gooien met een 100-zijdige dobbelsteen (ja die bestaan, zoek maar op). De complementregel en de vermenigvuldigingsregel leert ons gelijkaardig aan de bovenstaande formule voor het opgooien van het muntje dat de kans op minstens één storm gelijk is aan 63,4%, een flinke reductie van onze eerste benadering.

We gaan er prat op dat we flirten met de exacte kans. Tevreden en misschien vreugdevolg zouden we kunnen zijn om deze mooie benadering maar ergens begint het te knagen in de delen van ons brein waar de wiskunde huist en hunkerend naar exactheid beseffen we dat de tijdintervallen nog verder moeten verkleind worden, tot ze oneindig klein zijn. En dan komt de aha-erlebnis want we stoten zowaar op de definitie van de exponentiële functie exp(x) met x=-1. Hier komt plots het getal van Euler als het ware uit de hemel vallen, onverwacht en verrassend en het laat ons achter met enige verbazing… maar het laat ons ook achter met het exacte antwoord!

Bijgevolg is de kans om tijdens een periode van 100 jaar een 100-jarige storm mee te maken gelijk aan 63,2%. Het wordt iets complexer wanneer we de kans op een exact aantal stormen willen berekenen, want dan gaan we een ommetje moeten maken via de binomiaalverdeling om met zachtheid te landen in de Poissonverdeling, waarin de exponentiële functie oogstrelend figureert. Het zal je ook zeggen hoe groot de kans is dat er een aantal auto’s passeren op een bepaalde plek per tijdsinterval en hoe groot de kans is dat het water in de koffiemachine morgen op is. Als dat niet uit het leven gegrepen is…

Stormachtige 100-jarige groeten

T.E.

Oneindig is de hemel van de wiskunde

Twee evenwijdige rechten zullen mekaar nooit ontmoeten. Dat is de trieste realiteit. “Het waren twee koningskinderen – Zij hadden elkander zo lief- Zij konden bijeen niet komen”. Behalve als ze in oneindig geloven, want daar zullen ze mekaar ontmoeten. “Adieu mijne zuster en broeder – Ik vare naar t’hemelrijk.” Oneindig is dus een beetje als de hemel voor wiskunde. Als we op een open nacht de sterrenhemel bewonderen, overkomt ons ook een gevoel van oneindigheid. We vragen ons af of het heelal oneindig groot zou zijn, zou de fysieke realiteit rondom ons echt oneindig kunnen zijn? Want oneindig is echt wel een heel vreemd beestje met rare eigenschappen, dat bleek al bij een bezoekje aan Hilbert’s oneindige hotel…

David Hilbert was een Duitse wiskundige die de wereld liet kennis maken met z’n hotel met oneindig veel kamers. Het paradoxale aan dit hotel was dat, alhoewel alle kamers volgeboekt waren, men toch steeds een plaatsje vond voor een extra gast. Dat was wel een beetje gedoe, want die ene gast kreeg kamer 1 en de rest moest verhuizen naar de volgende kamer en dat ging vlotjes want er waren dan ook oneindig kamers. Ook toen er een groep van n gasten aankwam werd er plaats gevonden, want dan verhuisde iedereen naar z’n oorspronkelijke kamernummer + n. Alle hotelgasten waren gelukkig met hun nieuwe kamer.

De volgende avond kwam een bus met oneindig veel gasten toe aan het hotel. Ook dit vormde geen probleem. Alle gasten werden gevraagd om te verhuizen naar een kamer met het dubbele kamernummer; zo bleven alle oneven kamers over om de gasten van uit de bus ter herbergen. So far so good. Alle hotelgasten hadden na wat gerommel op de gang uiteindelijk een nieuwe kamer en sliepen als oneindig veel roosjes.

De avond daarna werd het wat drukker. Er kwam niet één bus met oneindig veel gasten het (waarschijnlijk oneindige) parkeerterrein van het hotel oprijden, maar er boden zich oneindig veel bussen aan met telkens oneindig veel gasten aan boord. Wat nu gedaan? Gelukkig was de man aan de receptie koelbloedig. Hij zuchtte even, sloot z’n ogen, dacht even na, en opende ze opnieuw met een lichte glimlach. Hij sommeerde alle gasten nu om te verhuizen van hun kamer n naar kamer 2n , en dan loodste hij de eerste bus met gasten op zitplaats n naar alle kamers 3n , en de volgende bus naar alle machten van 5. En zo ging hij vervolgens alle priemgetallen af, en dat zijn er gelukkig oneindig veel. Zo vond iedereen een unieke kamer, want alle kamers zijn slechts op één manier te ontbinden in priemgetallen, en kon de nacht starten voor alle reizigers die op de oneindige vele bussen zaten en ze droomden oneindig veel dromen.

Tot nu toe hebben we nog maar een glimp opgevangen van dit paradox. Want het hotel kan nog veel lagen van oneindig aan! En daar kwamen ze al aan de volgende avond: oneindig veel ferry’s (f) vol met oneindig veel bussen (b) met uiteraard oneindig veel gasten (g). En ook deze kregen allen een plaats in het hotel in kamer 2g3b5f , het kamernummer voor zitje nr g in bus nr b op ferry nr f. Opnieuw spielerei met de unieke factorisatie met priemgetallen. Slaapwel iedereen en laat ze maar komen de volgende dimensies van oneindig! Hier schiet fantasie (oneindig veel containerschepen vol met oneindig hoog gestapelde ferry’s) en voorstellingvermogen al gauw te kort om het ware gelaat van oneindig te aanschouwen. Het hotel dat volgeboekt was blijkt oneindig veel kamers over te hebben.

Als het heelal echt oneindig is, komen die twee rechten dan effectief ooit elkaar tegen en gelden dan alle eigenschappen van Hilbert’s hotel ook voor het heelal? En nog een confronterende eigenschap heeft te maken met kansberekening, denk maar aan het verhaal van die aap die ooit Hamlet van Shakespeare zal schrijven wanneer hij oneindig lang aan een typemachine zit. Hoe groot is de kans dat er ergens een planeet bestaat die als twee druppels water op de aarde gelijkt? Heel enorm klein? Geen probleem voor een oneindig heelal: het zal toch bestaan. En op die planeet wonen toevallig dezelfde mensen als hier op aarde? Kleine kans? In een oneindig heelal zal het toch bestaan, je kan jezelf tegenkomen. Dat vind ik een zeer speciaal gevolg van een oneindig heelal, het komt er in feite op neer dat als het kan, het ook zal zijn. Als het kan, dan is het. Descartes revisited: ‘ik kan dus ik ben’.

Dat zou ik echt zo verbazingwekkend vinden dat ik het toch maar hou op een eindig heelal. Wat ook bijzonder is want dan bestaat er ergens een getal waarmee we alle, pakweg, elektronen, kunnen tellen. Misschien een waanzinnig groot getal, een onvoorstelbaar krankzinnig groot getal. Maar ook dat is relatief, wat hoe groot dat getal ook is, je kan het in gedachten altijd groter maken. Je kan het getal bij zichzelf optellen. Herhaald optellen is vermenigvuldigen, herhaald vermenigvuldigen is kwadrateren, herhaald kwadrateren wordt een tetratie genoemd. En dit spelletje kan oneindig verder gaan, want ook een tetratie kan je herhalen en ga zo maar door… tot zover je wil! Zo komen we tot duizelingwekkende grote getallen. Er bestaan getallen die niet te vatten zijn zonder dat je een zwart gat zou creëren van je hoofd van alle informatie die bijeen zit. TREE(x) is zo’n functie die naar adem doet happen. TREE(1)=1 en TREE(2)=3, maar TREE(3) is zo kolossaal groot dat er onvoldoende (zichtbaar) heelal is om het weer te kunnen geven. Het is zo waanzinnig groot dat ook wiskundigen onvoldoende adem hebben om de waanzinnige grootte van het getal te benoemen, maar het is zeker niet oneindig!

En dan, dames en heren, zijn we nog verreweg van oneindig. Hoe groot TREE(3) ook is, in vergelijking met oneindig is het quasi nul. Ik zei het al: een heel vreemd beestje.

Oneindig goed, al goed.

TREE(googolplex) groeten,

T.E.

Ook voor Coronavirus-data geldt dat een getal meestal begint met het cijfer 1, 2 of 3, de wet van Benford volgend

Als je de lijst van Corona-besmettingen per land overloopt valt het je niet meteen op, maar de meeste getallen beginnen met 1, 2 of 3. En dat is toch bizar, want we hebben toch 9 mogelijkheden voor het eerste cijfer, met bijhorende kans van 1 op 9 (11%) Klopt niet. En er is meer: bijna alles om ons heen volgt deze wetmatigheid: de kans dat een getal begint met ‘1’ is 30%, de kans op een 9 slechts een kleine 5%. Neem maar de proef op de som en turf de getallen in je krant: je zal zien dat meer dan de helft van de getallen start met 1, 2 of 3. Ik vind dit waanzinnig! Het is de fysische wereld die spartelt in het keurslijf van ons positiestelsel.

2020-03-08 09_29_53-Benford.xlsx - Excel

Ik poneerde dit gisteren bij een vriend en we namen samen de proef op de som: we namen de krant en ik turfde het aantal keer dat een getal met een bepaald cijfer begon. En na enkele pagina’s van De Tijd doorploegd te hebben op zoek naar getallen was het overduidelijk: hoe hoger het cijfer hoe minder kans dat het een startcijfer is. Hieronder de uitslag waaruit overduidelijk blijkt dat de kans op het eerste cijfer niet gelijk verdeeld is.

turven De Tijd

We hebben daarna zowel het aantal inwoners als de oppervlakte van elk land op de zelfde manier geanalyseerd en we komen tot de zelfde verrassende vaststelling dat het cijfer 1 het meest voorkomt of het nu gaat over een aantal inwoners of een oppervlakte. Het maakt zelfs niet uit in welke eenheid de oppervlakte wordt beschouwd vierkante km, vierkante mijl, hectares,… de uitkomst zal eenzelfde beeld geven.

opp inwoners per land - benford

Ook ik vond dat op het eerste zicht verrassend en zelfs verbluffend: hoe is het mogelijk? Het fenomeen blijkt beschreven te zijn door de wet van Benford, en dat is wat wikipedia ons vertelt:

De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.”

De wet van Benford drukt op volgende wijze uit wat de kans is op een startcijfer ‘d’:

Toegepast op het cijfer ‘1’ geeft dit:

d 1 2 3 4 5 6 7 8 9
kans (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Hoe kunnen we dit verklaren? Er lijkt niet echt een eenvoudige wiskundige verklaring te zijn. Wat we wel kunnen aantonen is dat als we een frequentieverdeling beschouwen van de startcijfers die onafhankelijk moet zijn van de gebruikte eenheid, we op een logaritmische frequentieverdeling komen, zoals hierboven beschreven.  Concreet wil dat zeggen dat we er van uitgaan dat de eenheid voor bepaalde grootheden geen invloed heeft op het resultaat. Want het is de mens die heeft uitgevonden hoelang een meter is. Daar kan de natuur of de werkelijkheid der dingen zich niets van aantrekken.

Eens je beseft dat het switchen van de ene eenheid naar een andere in feite een vermenigvuldiging is, kan je het fenomeen begrijpen door er een cirkelvormige rekenlat bij te halen. Jammer genoeg heb ik er geen in bezit, maar op een Breitling Navitimer zijn de buitenste rijen getallen die je kan verdraaien ten opzichte van elkaar eigenlijk een rekenlat. Wat kan je daarmee doen? Getallen vermenigvuldigen door te draaien, zie ook: De geheimen van grootvaders rekenlat. Graag breng ik je aandacht op het feit dat meer dan de helft van de cirkel getallen zijn die beginnen met een 1, 2 of 3. Dus hoe meer we willekeurige getallen gaan vermenigvuldigen hoe meer we zullen voldoen aan de wet van Benford. En we moeten hierbij ook opmerken dat we meeste natuurwetten gebaseerd zijn op een vermenigvuldiging, denk maar aan F=ma, de gravitatiewet, wetten van Maxwel,…

Breitling-Navitimer-Rattrapante.--600x406

Een test die je eenvoudig zelf kunt doen is willekeurig gekozen getallen A, B en C vermenigvuldigen op een rekenmachine en turven wat de frequentieverdeling is van uitkomst AxBxC, en na een tijdje zal de wet van Benford zich aan je openbaren: cijfer 1 zal beduidend meer voorkomen dan de andere cijfers.

Geldt de wet voor alle reeksen van getallen? Nee, dat ook weer niet. Om dergelijke verdeling te hebben moeten de gegevens over meerdere grootte-ordes gespreid zijn. Dus de lengtes van personen vallen hier bijvoorbeeld niet onder. Ook een lijst van hoogste bergtoppen niet, maar een lijst van alle bergen op aarde dan weer wel.

Het is contra-intuïtief omdat het het begrip ‘ad random’ een beetje op z’n kop zet. Als je getallen door een computer ad random laat bepalen dan zullen ze niet aan de wet van Benford voldoen. Het zijn dan ook geen werkelijke dingen die gemeten of geteld kunnen worden, maar enkel een getal genomen uit een verzameling van getallen, zoals een lotto-trekking. Als je op een bepaald moment een aantal gegevens moet verzinnen, b.v. facturen of in een wetenschappelijk onderzoek, kan je maar beter zorgen dat deze voldoen aan de wet van Benford. Want je zou niet de eerste fraudeur zijn die tegen de lamp loopt doordat z’n data zo verzonnen is dat alle startcijfers gelijk verdeeld voorkomen.

Tot slot terug naar het Corona-virus. Een prachtig voorbeeld van exponentiële groei in de huidige fase. Zie ook: Dromen over het getal e. Wanneer je een bedrag laat opbrengen op de bank zal het totaal bedrag groeien. Maar om van 100 euro naar 200 euro te groeien moet het bedrag verdubbelen (groei: 50%), maar daarentegen om te groeien van 800 euro naar 900 euro hoeft het bedrag maar te groeien met 12,5%. Daarom blijft het totaalbedrag langer ‘hangen’ tussen 100 en 200 euro en groeit het sneller door van 800 naar 900 euro. Wat we terugvinden in de frequentieverdeling van alle bedragen die op de bank staan, daarvan zal 30% ook starten met een ‘1’ ! Ook voor het aantal Corona-besmettingen is het een verdubbeling om van 1000 naar 2000 besmettingen te gaan, maar slecht een kleine groei om van 8000 naar 9000 besmettingen te gaan. En dat raakt volgens mij de ziel van deze mooie wetmatigheid.

Getallen die de Benford-wet volgen zijn echt en staan met beide voeten in de werkelijkheid.

Het is op dit moment (begin maart 2020) nog koffiedik kijken hoeveel het maximale aantal besmettingen per land zal zijn, maar één ding weten wel wel: het zal voldoen aan de wet van Benford.

En in tijden van onzekerheid, is dit misschien een lichtpuntje.

Benford-verdeelde groeten aan iedereen,

T.E.