Ook voor Coronavirus-data geldt dat een getal meestal begint met het cijfer 1, 2 of 3, de wet van Benford volgend

Als je de lijst van Corona-besmettingen per land overloopt valt het je niet meteen op, maar de meeste getallen beginnen met 1, 2 of 3. En dat is toch bizar, want we hebben toch 9 mogelijkheden voor het eerste cijfer, met bijhorende kans van 1 op 9 (11%) Klopt niet. En er is meer: bijna alles om ons heen volgt deze wetmatigheid: de kans dat een getal begint met ‘1’ is 30%, de kans op een 9 slechts een kleine 5%. Neem maar de proef op de som en turf de getallen in je krant: je zal zien dat meer dan de helft van de getallen start met 1, 2 of 3. Ik vind dit waanzinnig! Het is de fysische wereld die spartelt in het keurslijf van ons positiestelsel.

2020-03-08 09_29_53-Benford.xlsx - Excel

Ik poneerde dit gisteren bij een vriend en we namen samen de proef op de som: we namen de krant en ik turfde het aantal keer dat een getal met een bepaald cijfer begon. En na enkele pagina’s van De Tijd doorploegd te hebben op zoek naar getallen was het overduidelijk: hoe hoger het cijfer hoe minder kans dat het een startcijfer is. Hieronder de uitslag waaruit overduidelijk blijkt dat de kans op het eerste cijfer niet gelijk verdeeld is.

turven De Tijd

We hebben daarna zowel het aantal inwoners als de oppervlakte van elk land op de zelfde manier geanalyseerd en we komen tot de zelfde verrassende vaststelling dat het cijfer 1 het meest voorkomt of het nu gaat over een aantal inwoners of een oppervlakte. Het maakt zelfs niet uit in welke eenheid de oppervlakte wordt beschouwd vierkante km, vierkante mijl, hectares,… de uitkomst zal eenzelfde beeld geven.

opp inwoners per land - benford

Ook ik vond dat op het eerste zicht verrassend en zelfs verbluffend: hoe is het mogelijk? Het fenomeen blijkt beschreven te zijn door de wet van Benford, en dat is wat wikipedia ons vertelt:

De wet van Benford beschrijft de frequentieverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.”

De wet van Benford drukt op volgende wijze uit wat de kans is op een startcijfer ‘d’:

Toegepast op het cijfer ‘1’ geeft dit:

d 1 2 3 4 5 6 7 8 9
kans (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Hoe kunnen we dit verklaren? Er lijkt niet echt een eenvoudige wiskundige verklaring te zijn. Wat we wel kunnen aantonen is dat als we een frequentieverdeling beschouwen van de startcijfers die onafhankelijk moet zijn van de gebruikte eenheid, we op een logaritmische frequentieverdeling komen, zoals hierboven beschreven.  Concreet wil dat zeggen dat we er van uitgaan dat de eenheid voor bepaalde grootheden geen invloed heeft op het resultaat. Want het is de mens die heeft uitgevonden hoelang een meter is. Daar kan de natuur of de werkelijkheid der dingen zich niets van aantrekken.

Eens je beseft dat het switchen van de ene eenheid naar een andere in feite een vermenigvuldiging is, kan je het fenomeen begrijpen door er een cirkelvormige rekenlat bij te halen. Jammer genoeg heb ik er geen in bezit, maar op een Breitling Navitimer zijn de buitenste rijen getallen die je kan verdraaien ten opzichte van elkaar eigenlijk een rekenlat. Wat kan je daarmee doen? Getallen vermenigvuldigen door te draaien, zie ook: De geheimen van grootvaders rekenlat. Graag breng ik je aandacht op het feit dat meer dan de helft van de cirkel getallen zijn die beginnen met een 1, 2 of 3. Dus hoe meer we willekeurige getallen gaan vermenigvuldigen hoe meer we zullen voldoen aan de wet van Benford. En we moeten hierbij ook opmerken dat we meeste natuurwetten gebaseerd zijn op een vermenigvuldiging, denk maar aan F=ma, de gravitatiewet, wetten van Maxwel,…

Breitling-Navitimer-Rattrapante.--600x406

Een test die je eenvoudig zelf kunt doen is willekeurig gekozen getallen A, B en C vermenigvuldigen op een rekenmachine en turven wat de frequentieverdeling is van uitkomst AxBxC, en na een tijdje zal de wet van Benford zich aan je openbaren: cijfer 1 zal beduidend meer voorkomen dan de andere cijfers.

Geldt de wet voor alle reeksen van getallen? Nee, dat ook weer niet. Om dergelijke verdeling te hebben moeten de gegevens over meerdere grootte-ordes gespreid zijn. Dus de lengtes van personen vallen hier bijvoorbeeld niet onder. Ook een lijst van hoogste bergtoppen niet, maar een lijst van alle bergen op aarde dan weer wel.

Het is contra-intuïtief omdat het het begrip ‘ad random’ een beetje op z’n kop zet. Als je getallen door een computer ad random laat bepalen dan zullen ze niet aan de wet van Benford voldoen. Het zijn dan ook geen werkelijke dingen die gemeten of geteld kunnen worden, maar enkel een getal genomen uit een verzameling van getallen, zoals een lotto-trekking. Als je op een bepaald moment een aantal gegevens moet verzinnen, b.v. facturen of in een wetenschappelijk onderzoek, kan je maar beter zorgen dat deze voldoen aan de wet van Benford. Want je zou niet de eerste fraudeur zijn die tegen de lamp loopt doordat z’n data zo verzonnen is dat alle startcijfers gelijk verdeeld voorkomen.

Tot slot terug naar het Corona-virus. Een prachtig voorbeeld van exponentiële groei in de huidige fase. Zie ook: Dromen over het getal e. Wanneer je een bedrag laat opbrengen op de bank zal het totaal bedrag groeien. Maar om van 100 euro naar 200 euro te groeien moet het bedrag verdubbelen (groei: 50%), maar daarentegen om te groeien van 800 euro naar 900 euro hoeft het bedrag maar te groeien met 12,5%. Daarom blijft het totaalbedrag langer ‘hangen’ tussen 100 en 200 euro en groeit het sneller door van 800 naar 900 euro. Wat we terugvinden in de frequentieverdeling van alle bedragen die op de bank staan, daarvan zal 30% ook starten met een ‘1’ ! Ook voor het aantal Corona-besmettingen is het een verdubbeling om van 1000 naar 2000 besmettingen te gaan, maar slecht een kleine groei om van 8000 naar 9000 besmettingen te gaan. En dat raakt volgens mij de ziel van deze mooie wetmatigheid.

Getallen die de Benford-wet volgen zijn echt en staan met beide voeten in de werkelijkheid.

Het is op dit moment (begin maart 2020) nog koffiedik kijken hoeveel het maximale aantal besmettingen per land zal zijn, maar één ding weten wel wel: het zal voldoen aan de wet van Benford.

En in tijden van onzekerheid, is dit misschien een lichtpuntje.

Benford-verdeelde groeten aan iedereen,

T.E.

Bladschikken voor gevorderden met de gulden snede

De gulden snede staat al eeuwen bekend als de perfecte esthetische verhouding. Er zijn heel wat gebouwen die volgens deze perfecte ratio gebouwd zijn. De Taj Mahal, het Parthenon, de Notre Dame in Parijs, overal zie je de gulden snede terugkomen. Maar wat wonderlijk is, is dat deze gulden snede ook in de natuur terugkomt. Bij veel planten en bloemen zijn de blaadjes geschikt volgens de gulden hoek, wat het equivalent is voor de gulden snede bij hoeken.

1-NGNon6GsqrUSrzMsF9vrEw

Mijn trans-Alpijnse zus heeft zonet een boek gelezen over de gulden snede: ‘La sezione aurea’. In het Italiaans klinkt dat zoveel mooier dan in het Nederlands, waar ‘gulden’ klinkt alsof het gaat om iets dat wat verguld is en kitsch, en snede is iets wat wij hier vooral associëren met een snee brood of het sneetje kaas dat we erop leggen. Een kitcherige boterham. Weg mystiek.

De gulden snede is de verhouding van twee lijnstukken waarbij het grootste zich verhoudt tot het kleinste, zoals de som van beiden zich verhouden tot het grootste lijnstuk.
Golden-Ratio-color-1024x439-1.png

Hieruit volgt de volgende uitdrukking:
Beide leden vermenigvuldigen met geeft de volgende kwadratische vergelijking:

met als positieve oplossing:

Een benaderende waarde voor de gulden snede is dus 1,618.

Mijn zus was vooral verwonderd over het verband tussen de gulden snede en de fyllotaxis. Dat heb ik toch eens moeten opzoeken, en dat blijkt de schikking van de blaadjes te zijn. Bladschikking blijkt voor planten van primordiaal belang te zijn. De fotosynthese is een proces waarbij licht moet opgevangen worden om koolstofdioxide (ook wel gekend als C02) om te zetten in koolhydraten. Een plant heeft er dus alle belang bij om z’n blaadjes zo te schikken dat ze zoveel mogelijk licht opvangen, en dat met een zo gemakkelijk mogelijke opdracht. In de DNA zou ergens kunnen de volgende opdracht weggeschreven zijn: schik het volgende blaadje onder een hoek  van het vorige blaadje.

Wat zou die hoek kunnen zijn? Als we =180° nemen, zien we al snel dat dit helemaal geen goede keuze is, want het derde blad komt boven het eerste blad te liggen. Ook 120° is geen goed idee, want na drie blaadjes ligt het vierde knal op het eerste blaadje, wat uiteraard niet efficiënt is voor de fotosynthese van de plant. We merken dat alle getallen die een gemakkelijke breuk vormen (360°/180°=2 en  360°/120°=3) geen goede oplossing zijn voor de bladschikking. Bij uitbreiding zijn alle rationele getallen vroeg of laat overlappend met vorige geschikte blaadjes. We zoeken dus een getal dat zich zo irrationeel mogelijk gedraagt.

Misschien is een goede keuze? Nee, want 22/7=3,142.. is al een zeer dichte benadering. Dat wil zeggen dat al veel te dicht aan het flirten is met de rationele getallen om bruikbaar te zijn voor een nuttige bladschikking. Dit kan men goed zien als we de enkelvoudige kettingbreuk van uitzetten:
Als we de kettingbreuk afbreken bij 7 dan krijgen we de verhouding 22/7. Hele grote getallen zorgen in een kettingbreuk voor een goede benadering met rationele getallen. Zo is 355/113=3.14159292… een zeer goede benadering voor . Dit komt omdat het volgende getal in de kettingbreuk een heel groot getal is: 292.

Als grote getallen in een kettingbreuk leiden tot getallen die zich gemakkelijk laten benaderen door een rationeel getal, kunnen we dus ook omgekeerd zeggen dat een kettingbreuk met kleine getallen zal leiden tot een zeer irrationeel getal. En het meest irrationele getal dat we kunnen bekomen is een kettingbreuk met alleen maar eentjes:

Het zal je niet verwonderen dat deze uitdrukking in deze tekst die handelt over de gulden snede effectief perfect gelijk is aan de gulden snede:

Terug naar de plant met de DNA opdracht: schik de blaadjes volgens de gulden hoek. De gulden hoek wordt uitgedrukt als:

Dat is de kleinste hoek van twee hoeken die een volledige cirkel verdelen in twee hoeken volgens de gulden snede: 137,5°+ 222,5°=360° en 222,5/137.5=1,1618…

Hieronder zie je de eerste 5 blaadjes van een plant geschikt volgens de gulden snede, de blaadjes bevinden zich telkens een hoek 137,5° verder van elkaar. Of 222,5° in tegenwijzerzin.

Leaf-Growth-5.png

Zo gaat het door en door en we verkrijgen telkens een zo minimale overlap met de vorige blaadjes.

Leaf-Growth-13.png

Ook bij de schikking van de zaadjes in een zonnebloem gebeurt iets gelijkaardig. De zaadjes zijn allemaal geschikt volgens de gulden hoek. Dit levert immers de meeste zaadjes op een zo klein mogelijke oppervlak op. Hieronder kan je zien dat een kleine variatie van de hoek al een veel minder gunstige schikking oplevert van de zaadjes.Sunflower-seed-golden-angle-diagram.001.pnglabimg_870_Sunflower

Als je je nu de bedenking maakt: amai hoe kan dat? Dan moet je maar denken aan het feit dat alle minder gunstige variaties in de natuur met minder gunstige hoeken het niet hebben overleefd ten opzichte van de planten met een gunstigere schikking. Wat we in de natuur vinden is het product van een proces van miljoenen jaren variatie, overerving en selectie. (lees ook: Hoe intelligent is de hemelse horlogemaker?) Je zou het sommige mensen niet aangeven, maar ook die zijn het product van miljoenen jaren van finetuning.

Oh ja en dan hebben we ook nog de wonderbaarlijke Fibonacci getallen: 1,1,2,3,5,8,13,… waarvoor geldt dat het volgende getal telkens de som is van de twee vorige getallen. Er zijn in de natuur ook veel Fibonacci getallen te vinden… Mysterieus van de natuur? Helemaal niet want laten we eens de gulden snede benaderen door de kettingbreuk af te breken dan krijgen we volgende benaderingen:

Twee opeenvolgende Fibonacci getallen blijken dus een steeds betere benadering van de gulden snede te zijn naarmate we verder gaan in de Fibonacci rij:

De natuur vond immers ook dat, als we dan toch getallen of een verhouding gebruiken in het bladschikken of het zaadschikken,  we maar beter Fibonacci getallen kunnen gebruiken.

Je hoeft trouwens niet  met de eerste Fibonacci getallen 1 en 1 te starten om uit te komen op de gulden snede. Neem eender welke twee getallen en tel ze samen en maak dan telkens de som van de laatste twee getallen en je komt sowieso altijd uit op de gulden snede. Als je pakweg 37 en 11 neemt zal dit ook een reeks vormen waarvan de verhoudingen op de limiet de gulden snede zijn. Ik heb het niet nagegaan, maar het moet wel gewoon altijd lukken. Dat is niet echt een straf wiskundig bewijs, maar dat laat ik over aan anderen.

Nu ik erover nadenk. Net omdat de gulden snede het meest irrationele getal is dat we kunnen bedenken zal het waarschijnlijk totaal geen streling voor het oor zijn als we twee klanken zouden laten samenklinken waarvan de verhouding van de frequenties gelijk is aan de gulden snede. Want enkel eenvoudige verhoudingen van gehele getallen zijn harmonische tweeklanken. (zie ook: Alle piano’s zijn een beetje vals). Dat is toch wat anders dan je zou verwachten van deze sectio divina, of goddelijke verhouding.

We kunnen besluiten dat de gulden snede hoogstwaarschijnlijk leidt tot het meest irritante, dissonante en valse interval in de hele muziekwereld. Geen idee of dat ook in het boek van mijn zus stond. Ik hoor het wel binnenkort!

Zorgvuldig in het lente-zonlicht geschikte groeten,

T.E.