Categorieën
Bètacanon

Bètacanon (30): Normale verdeling

Wie nu in de caravan zit, omdat het buiten regent, en bovendien kinderen in de mens-erger-je-niet-leeftijd heeft, weet het: met een dobbelsteen is de kans op een één even groot als de kans op een drie of een zes. Je jongste zoon denkt misschien dat je vaker een één gooit dan een zes, maar als je vaak gooit blijkt dat niet waar te zijn.

Als we gaan ganzenborden met twee dobbelstenen, wordt het anders. Het gemiddelde gaat nog wel goed: dat verdubbelt keurig van drieënhalf naar zeven. Maar de kans op zeven is veel groter dan de kans op twee of twaalf. Als je op ruitjespapier alle getallen van twee tot en met twaalf naast elkaar tekent, en je kleurt steeds een vakje bij de worp die je gooit, dan ontstaat er een berg. Zou je dit met meer dobbelstenen doen, dan neemt het steeds meer de vorm aan van een klok. Wat is hier aan de hand?

Dit verschijnsel is al bekend uit de tijd van voor de caravan. De 18de eeuwse wiskundige Abraham de Moivre kreeg hierover al vragen van gokkers. Wat is de kans op meer dan 60 keer kop als je 100 keer een munt gooit? De antwoorden hierop volgen uit lange sommen. De kans uitrekenen op 61 keer kop, 62 keer kop … tot en met 100 keer en dan optellen. Wiskundige berekeningen waar makkelijk een fout insluipt. De Moivre ontdekte een snellere manier. Hij vond een wetmatigheid die bij dit soort experimenten de kans geeft: de normale verdeling. Door met deze functie te werken kon hij veel sneller antwoord geven.

Met het begrip ‘verdeling’ beschrijven wiskundigen hoe vaak elke uitkomst relatief voorkomt. Gooien met één dobbelsteen geeft bijvoorbeeld een uniforme verdeling; elke uitkomst komt evenveel voor. De inkomensverdeling is niet uniform, want er zijn meer modale inkomens dan topinkomens (al lijkt dat in de pers vaak niet zo). De normale verdeling is in de wiskunde heel belangrijk. Hij ziet er als wiskundige functie ingewikkeld uit, maar hij duikt overal in de natuur op.

De normale verdeling ontstaat vanzelf waar toevallige uitkomsten (lengte, gewicht, aantal babymuizen, ogen van dobbelstenen) een optelling zijn van een groot aantal, kleine, onafhankelijke toevallige effecten. Hoe meer effecten (aantal dobbelstenen) en hoe meer uitkomsten (worpen van de dobbelstenen), hoe meer de verdeling op de normale verdeling lijkt: dat is de centrale limiet stelling.

Deze stelling is heel bruikbaar, omdat in de natuur uitkomsten vaak ontstaan uit een optelsom van een groot aantal, kleine, onafhankelijke toevallige effecten. Naast het gooien van een munt ook bij de intelligentie van groep-acht-kinderen, de middagtemperatuur op de camping, of de bloeddruk van een volwassen vrouw. Bloeddruk is namelijk afhankelijk van een groot aantal onafhankelijke factoren zoals erfelijkheid, lichaamsgewicht en leeftijd.

De normale verdeling heeft een aantal bijzondere eigenschappen: ten eerste is de kans op het gemiddelde het grootst, ten tweede is de kans op een waarde boven het gemiddelde even groot als de kans op een waarde onder het gemiddelde (symmetrie) en ten slotte is de kans op de uiterste waarden het kleinst. Een grafiek van de verdelingsfunctie heeft de vorm van een klok, en wordt daarom in het Engels vaak bell curve genoemd. Die functie kan met slechts twee getallen worden beschreven: het gemiddelde en de variantie. Dat laatste geeft aan hoe ver de uitkomsten door de bank genomen van het gemiddelde afliggen, oftewel de breedte van de klok. Zodra je deze twee gegevens hebt, weet je de hele verdeling. In de afbeelding staan vier verschillende normale verdelingen met verschillende waarden voor hun gemiddelde (µ) en variantie (s).

Omdat veel natuurlijke verschijnselen normaal verdeeld zijn, maken natuurwetenschappers en psychologen veel gebruik van de verdeling. Omdat deze al vast ligt als twee getallen bekend zijn, kunnen we veel uitspraken doen over zaken waar we relatief weinig van weten. Als je aanneemt dat een waarneming wordt bepaald door de optelsom van vele, kleine, onafhankelijke effecten, kun je met de normale verdeling allerlei voorspellingen doen, ook al zijn de precieze onderliggende mechanismen onbekend. Zo kan uit een representatieve steekproef het gemiddelde en de variantie van de lengte van de volwassen Nederlandse man worden benaderd. Daarmee kun je dan schatten hoeveel mannen van boven de 2 meter in Nederland wonen.

Het is verleidelijk normale verdelingen ook te zien waar ze niet zijn. Bijvoorbeeld als de uitkomst wordt bepaald door één dominant effect. Dan is de aanname van benadering door een normale verdeling niet meer juist. Dit is het geval voor de bloeddruk van een grote groep mensen. Het geslacht is zo bepalend dat je de normale verdeling pas ziet als mannen en vrouwen gescheiden worden.

De Moivres werk werd niet veel gelezen. Daardoor werd de normale verdeling later herontdekt, onder andere door de beroemde wiskundigen Pierre-Simon Laplace en Carl Gauss. Gauss merkte in het begin van de 19de eeuw dat de fouten bij waarnemingen aan planetenbanen bij benadering normaal verdeeld zijn. De normale verdeling wordt daarom ook wel de Gaussische verdeling genoemd. Nog steeds wordt de normale verdeling gebruikt bij de bepaling van meetfouten. Daarbij wordt aangenomen dat de meetfouten veroorzaakt worden door een scala aan kleine, onafhankelijke effecten.

De normale verdeling wordt ook gebruikt in het verzekeringswezen en in de sociale wetenschappen. De 19de eeuwse wiskundige Adolphe Quetelet – we kennen hem van de Quetelet-index – was de eerste die dat met sociale gegevens deed. Uit metingen van de borstomvang van Schotse soldaten en de lengte van Franse soldaten ontdekte hij dat deze normaal verdeeld waren. Hij was ook een van de eersten die de verdeling als normatief uitgangspunt hanteerde. Hij ging zo ver dat hij een ‘gemiddelde-mens’ definieerde. Een afwijking van zo’n gemiddelde beschouwde hij als een ‘fout’, wat op weerstand stuitte.

Halverwege de 20ste eeuw kwam de computer. Daardoor zijn statistische methoden steeds geraffineerder geworden en is het mogelijk wiskunde en statistiek ver buiten de beperkingen van de normale verdeling te bedrijven. Zo is het in de financiële wereld heel belangrijk om afwijkingen van de normaalverdeling op te sporen, juist in de staart van de verdeling waar de zeldzame gebeurtenissen zoals beurskrachen zich bevinden. Maar de normale verdeling blijft een krachtig wiskundig instrument om orde te brengen in een onvoorspelbare wereld.

Tekst: Hester Bijl (1970)

Relevante boeken
Worden in de loop van 2020-2021 toegevoegd (3 september 2020)

Homepage Bètacanon
(dinsdag 31 juli 2007)

Door Hans van Duijnhoven

Bibliothecaris sinds september 1979. Werkzaam in de regio Noord Oost Brabant.

Geef een reactie