Hoe groot is de kans dat je tijdens 100 jaar een 100-jarige storm meemaakt?

Een 100-jarige storm is een gebeurtenis die gemiddeld gezien één keer om de 100 jaar voorkomt. Is het antwoord op bovenstaande vraag dan niet simpelweg dat je gedurende 100 jaar met zekerheid een 100-jarige storm zal meemaken? Zoals een lezer die enige ervaring heeft met spanningsbogen en retorische vragen in dit soort van teksten al vermoedt, is het antwoord volmondig: nee. Laten we starten met een wonderbaarlijke tocht naar de exacte kans.

Een 100-jarige storm is een storm met een terugkeerperiode van 100 jaar, dat wil zeggen dat ze gemiddeld om de 100 jaar zal plaatsvinden. Na een kortstondige overpeinzing kom je al snel tot het besef dat er een kans bestaat dat een persoon op zijn 100ste verjaardag de 100-jarige storm niet heeft meegemaakt. Men kan zich gemakkelijk inbeelden dat er een 100-jarige storm over het land raasde net voor z’n geboorte en net na z’n 100ste verjaardag. Hieruit kunnen we alvast besluiten dat de kans op het meemaken van een storm al zeker kleiner zal zijn dan 100%. Hiermee hebben we wellicht een open deur ingetrapt.

Er komt een voortschrijdend inzicht dat er ook een kans is dat er zich meerdere stormen kunnen voordoen in 100 jaar. Eentje aan het begin en eentje aan het einde bijvoorbeeld, dat is niet ondenkbeeldig. Weliswaar met kleiner wordende kans kunnen zich, als het geluk wat tegen zit, ook meer dan 2 stormen nestelen in de eeuw die we onder de loep nemen. We komen tot het besef dat we beter moeten definiëren wat we willen berekenen. In feite willen we weten wat de kans is dat er minstens één storm zal plaatsvinden tijdens 100 jaar.

We halen de complementregel van onder het statistische stof. Die regel klinkt veel ingewikkelder dan wat ze is. De complementregel zegt bijvoorbeeld dat het ofwel regent ofwel niet regent, nu we toch bezig zijn met open deuren in te trappen… En de som van beide kansen is 1. Symbolisch uitgeschreven: P(regen) + P(geen regen)=1. Passen we dit toe op de stormkwestie dan is de kans dat er geen storm is samen met de kans dat er minstens één storm is gelijk aan 1. Aldus verkrijgen we volgende uitdrukking voor de kans op minstens één storm:

De queeste naar het resultaat heeft zich dus herleid tot de zoektocht naar de kans op 0 stormen.

De olifant in de kamer is hier het feit dat we op gelijk welk moment getroffen kunnen worden door de bliksemse toorn van Zeus in ons aardse dal, en dat kunnen we moeilijk linken aan toevalsexperimenten zoals muntjes gooien en dobbelsteen gooien waarmee de gekende paden der probabiliteit geplaveid zijn. We tasten eerst in het duister, en daarna in het duister van onze zak en vinden een muntje en doen toch een verwoede poging om het voorliggende vraagstuk te herleiden tot het opgooien van een muntje.

We zouden bijvoorbeeld een muntje kunnen opwerpen om per eeuwhelft te bepalen of er een 100-jarige storm zal plaatsvinden. Kop is storm. Dus we willen weten hoeveel kans we hebben om enkel munt te gooien en dan nemen we de complement van het zaakje. Aangezien de kans op succes (=kop gooien = storm) per half jaar 1 op 2 is, is de kans op geen succes 1-1/2. Aangezien we de twee halve eeuwen als onafhankelijke gebeurtenissen beschouwen kunnen we de vermenigvuldigingsregel toepassen, met k als het aantal stormen tijdens de beschouwde periode van 100 jaar, en daarna de complementregel om de kans te bepalen op minstens één storm. Resultaat: 75% kans.

De vreugde om deze eerste benaderende poging wordt echter snel getemperd door het besef dat deze verdienstelijke poging om de vraagstelling op een zeer toegankelijke wijze te benaderen in al z’n eenvoud voorbijgaat aan het feit dat er meerdere stormen in een eeuwhelft kunnen plaatsvinden. Het noopt ons tot nederigheid en reflectie en het mondt uit in louterende verfijning.

Vinden we 50 jaar te ruim? Dan nemen we toch gewoon een kleiner tijdsinterval? Pakweg één jaar. En we passen de kans aan naar 1 op 100, want we verwachten nog altijd om de honderd jaar gemiddeld één storm, statistische wordt dit trouwens ook de verwachtingswaarde genoemd. De kans op een storm per jaar is equivalent met één gooien met een 100-zijdige dobbelsteen (ja die bestaan, zoek maar op). De complementregel en de vermenigvuldigingsregel leert ons gelijkaardig aan de bovenstaande formule voor het opgooien van het muntje dat de kans op minstens één storm gelijk is aan 63,4%, een flinke reductie van onze eerste benadering.

We gaan er prat op dat we flirten met de exacte kans. Tevreden en misschien vreugdevolg zouden we kunnen zijn om deze mooie benadering maar ergens begint het te knagen in de delen van ons brein waar de wiskunde huist en hunkerend naar exactheid beseffen we dat de tijdintervallen nog verder moeten verkleind worden, tot ze oneindig klein zijn. En dan komt de aha-erlebnis want we stoten zowaar op de definitie van de exponentiële functie exp(x) met x=-1. Hier komt plots het getal van Euler als het ware uit de hemel vallen, onverwacht en verrassend en het laat ons achter met enige verbazing… maar het laat ons ook achter met het exacte antwoord!

Bijgevolg is de kans om tijdens een periode van 100 jaar een 100-jarige storm mee te maken gelijk aan 63,2%. Het wordt iets complexer wanneer we de kans op een exact aantal stormen willen berekenen, want dan gaan we een ommetje moeten maken via de binomiaalverdeling om met zachtheid te landen in de Poissonverdeling, waarin de exponentiële functie oogstrelend figureert. Het zal je ook zeggen hoe groot de kans is dat er een aantal auto’s passeren op een bepaalde plek per tijdsinterval en hoe groot de kans is dat het water in de koffiemachine morgen op is. Als dat niet uit het leven gegrepen is…

Stormachtige 100-jarige groeten

T.E.

Waarom testen we niet gewoon iedereen?

Het lijkt een goede ingeving: waarom kunnen we niet gewoon iedereen op Corona testen? Het antwoord is redelijk simpel: er zouden teveel mensen onterecht positief testen. Onterecht? Jazeker: er is immers altijd een kans dat de uitslag van een test verkeerd is, want de test is niet onfeilbaar. Daarom is het enkel relevant om de ‘verdachte’ gevallen uit een risico-groep te testen. En dat kan ook gemakkelijk wiskundig verklaard worden.

We gaan eerst enkele begrippen toelichten die de accuraatheid van een medische test uitdrukken:

  • De sensitiviteit is de kans op een terecht positieve uitslag. Een positieve uitslag, bij het gegeven dat je besmet bent. Deze kans wordt genoteerd als: P(POS|Covid). Bij de meeste Covid testen ligt dit op ongeveer 71%. Dat is een vrij lage waarde. Dat betekent dat er 30% mensen zijn waarbij de besmetting niet wordt opgemerkt door de test. De zogenoemde vals negatieven.
  • De specificiteit is de kans op een terechte negatieve uitslag. Een negatieve uitslag, gegeven dat je niet besmet bent, wordt genoteerd als: P(NEG|nietCovid). De specificiteit van de huidige Covid-testen is nog onduidelijk. We kunnen hier optimistisch in zijn en er van uit gaan dat deze 99% bedraagt. Dat wil zeggen dat 1% van de mensen die niet besmet zijn, toch een positief zal testen. Dan zijn dan de vals positieven.
  • De prevalentie is de kans op besmetting voor een bepaalde populatie, op een bepaald moment. Hierbij dient opgemerkte te worden dat een populatie een totale populatie van een bepaald land kan zijn, maar een populatie kan ook een deelgroep zijn, b.v. alle mensen die koorts hebben, of hoofdpijn hebben of een combinatie. Een groep mensen waarbij de prevalentie dus hoger is dan bij de totale bevolking.

Eerder had ik het theorema van Bayes al eens besproken toen het over de NIPT-test ging (Het theorema van Bayes en de NIPT-test). Toegepast op een Covid-test ziet het theorema van Bayes er als volgt uit:

De kans op Covid bij een positieve test is de verhouding van de kans op een terecht positief geval (product van sensitiviteit en prevalentie) op de kans op een positief geval bij een gegeven prevalentie. Het theorema van Bayes drukt uit welk gedeelte van alle positieve gevallen terecht is en wat de voorspellende waarde is van de test voor een individuele persoon.

In de onderstaande grafiek is de voorspellende waarde van de test weergegeven in functie van de prevalentie, rekening houdende met een sensitiviteit van 71% en een specificiteit van 99%. Op deze grafiek is duidelijk te zien dat, als we werkelijk iedereen testen bij een prevalentie van 2% (wat we momenteel aannemen voor de totale bevolking), de kans slechts 60% is dat de test terecht is. De aanpak om enkel een risico-groep te testen waarbij de prevalentie hoger ligt stuwt de voorspellende waarde van de test de hoogte in. Bij een prevalentie van 20% (dat wil zeggen een risico-groep waarbij per 100 personen er 20 besmet zijn met het virus) is duidelijk te zien dat de voorspellende waarde stijgt naar 95%.

2020-07-07 07_24_33-corona - Excel

Besluit is alleszins dat het geen enkele zin heeft om met de test die er nu is een gehele bevolking te testen, de meeste mensen behoren immers niet tot een verdachte groep. Uiteraard zijn niet alle parameters exact bekend. Er wordt getest om de prevalentie te meten, en de voorspellende waarde is afhankelijk van die prevalentie. Daarnaast is ook de specificiteit een schatting. Maar een ruwe schatting is in dit geval veel beter dan niets! Het blijft dus een combinatie van wiskunde en gezond verstand.

Waarom testen we niet gewoon iedereen? Daarom dus!

Terecht positieve groeten,

T.E.

Ook voor Coronavirus-data geldt dat een getal meestal begint met het cijfer 1, 2 of 3, de wet van Benford volgend

Als je de lijst van Corona-besmettingen per land overloopt valt het je niet meteen op, maar de meeste getallen beginnen met 1, 2 of 3. En dat is toch bizar, want we hebben toch 9 mogelijkheden voor het eerste cijfer, met bijhorende kans van 1 op 9 (11%) Klopt niet. En er is meer: bijna alles om ons heen volgt deze wetmatigheid: de kans dat een getal begint met ‘1’ is 30%, de kans op een 9 slechts een kleine 5%. Neem maar de proef op de som en turf de getallen in je krant: je zal zien dat meer dan de helft van de getallen start met 1, 2 of 3. Ik vind dit waanzinnig! Het is de fysische wereld die spartelt in het keurslijf van ons positiestelsel.

2020-03-08 09_29_53-Benford.xlsx - Excel

Ik poneerde dit gisteren bij een vriend en we namen samen de proef op de som: we namen de krant en ik turfde het aantal keer dat een getal met een bepaald cijfer begon. En na enkele pagina’s van De Tijd doorploegd te hebben op zoek naar getallen was het overduidelijk: hoe hoger het cijfer hoe minder kans dat het een startcijfer is. Hieronder de uitslag waaruit overduidelijk blijkt dat de kans op het eerste cijfer niet gelijk verdeeld is.

turven De Tijd

We hebben daarna zowel het aantal inwoners als de oppervlakte van elk land op de zelfde manier geanalyseerd en we komen tot de zelfde verrassende vaststelling dat het cijfer 1 het meest voorkomt of het nu gaat over een aantal inwoners of een oppervlakte. Het maakt zelfs niet uit in welke eenheid de oppervlakte wordt beschouwd vierkante km, vierkante mijl, hectares,… de uitkomst zal eenzelfde beeld geven.

opp inwoners per land - benford

Ook ik vond dat op het eerste zicht verrassend en zelfs verbluffend: hoe is het mogelijk? Het fenomeen blijkt beschreven te zijn door de wet van Benford, en dat is wat wikipedia ons vertelt:

De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.”

De wet van Benford drukt op volgende wijze uit wat de kans is op een startcijfer ‘d’:

Toegepast op het cijfer ‘1’ geeft dit:

d 1 2 3 4 5 6 7 8 9
kans (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Hoe kunnen we dit verklaren? Er lijkt niet echt een eenvoudige wiskundige verklaring te zijn. Wat we wel kunnen aantonen is dat als we een frequentieverdeling beschouwen van de startcijfers die onafhankelijk moet zijn van de gebruikte eenheid, we op een logaritmische frequentieverdeling komen, zoals hierboven beschreven.  Concreet wil dat zeggen dat we er van uitgaan dat de eenheid voor bepaalde grootheden geen invloed heeft op het resultaat. Want het is de mens die heeft uitgevonden hoelang een meter is. Daar kan de natuur of de werkelijkheid der dingen zich niets van aantrekken.

Eens je beseft dat het switchen van de ene eenheid naar een andere in feite een vermenigvuldiging is, kan je het fenomeen begrijpen door er een cirkelvormige rekenlat bij te halen. Jammer genoeg heb ik er geen in bezit, maar op een Breitling Navitimer zijn de buitenste rijen getallen die je kan verdraaien ten opzichte van elkaar eigenlijk een rekenlat. Wat kan je daarmee doen? Getallen vermenigvuldigen door te draaien, zie ook: De geheimen van grootvaders rekenlat. Graag breng ik je aandacht op het feit dat meer dan de helft van de cirkel getallen zijn die beginnen met een 1, 2 of 3. Dus hoe meer we willekeurige getallen gaan vermenigvuldigen hoe meer we zullen voldoen aan de wet van Benford. En we moeten hierbij ook opmerken dat we meeste natuurwetten gebaseerd zijn op een vermenigvuldiging, denk maar aan F=ma, de gravitatiewet, wetten van Maxwel,…

Breitling-Navitimer-Rattrapante.--600x406

Een test die je eenvoudig zelf kunt doen is willekeurig gekozen getallen A, B en C vermenigvuldigen op een rekenmachine en turven wat de frequentieverdeling is van uitkomst AxBxC, en na een tijdje zal de wet van Benford zich aan je openbaren: cijfer 1 zal beduidend meer voorkomen dan de andere cijfers.

Geldt de wet voor alle reeksen van getallen? Nee, dat ook weer niet. Om dergelijke verdeling te hebben moeten de gegevens over meerdere grootte-ordes gespreid zijn. Dus de lengtes van personen vallen hier bijvoorbeeld niet onder. Ook een lijst van hoogste bergtoppen niet, maar een lijst van alle bergen op aarde dan weer wel.

Het is contra-intuïtief omdat het het begrip ‘ad random’ een beetje op z’n kop zet. Als je getallen door een computer ad random laat bepalen dan zullen ze niet aan de wet van Benford voldoen. Het zijn dan ook geen werkelijke dingen die gemeten of geteld kunnen worden, maar enkel een getal genomen uit een verzameling van getallen, zoals een lotto-trekking. Als je op een bepaald moment een aantal gegevens moet verzinnen, b.v. facturen of in een wetenschappelijk onderzoek, kan je maar beter zorgen dat deze voldoen aan de wet van Benford. Want je zou niet de eerste fraudeur zijn die tegen de lamp loopt doordat z’n data zo verzonnen is dat alle startcijfers gelijk verdeeld voorkomen.

Tot slot terug naar het Corona-virus. Een prachtig voorbeeld van exponentiële groei in de huidige fase. Zie ook: Dromen over het getal e. Wanneer je een bedrag laat opbrengen op de bank zal het totaal bedrag groeien. Maar om van 100 euro naar 200 euro te groeien moet het bedrag verdubbelen (groei: 50%), maar daarentegen om te groeien van 800 euro naar 900 euro hoeft het bedrag maar te groeien met 12,5%. Daarom blijft het totaalbedrag langer ‘hangen’ tussen 100 en 200 euro en groeit het sneller door van 800 naar 900 euro. Wat we terugvinden in de frequentieverdeling van alle bedragen die op de bank staan, daarvan zal 30% ook starten met een ‘1’ ! Ook voor het aantal Corona-besmettingen is het een verdubbeling om van 1000 naar 2000 besmettingen te gaan, maar slecht een kleine groei om van 8000 naar 9000 besmettingen te gaan. En dat raakt volgens mij de ziel van deze mooie wetmatigheid.

Getallen die de Benford-wet volgen zijn echt en staan met beide voeten in de werkelijkheid.

Het is op dit moment (begin maart 2020) nog koffiedik kijken hoeveel het maximale aantal besmettingen per land zal zijn, maar één ding weten wel wel: het zal voldoen aan de wet van Benford.

En in tijden van onzekerheid, is dit misschien een lichtpuntje.

Benford-verdeelde groeten aan iedereen,

T.E.