Een statistisch verband zegt nog niets over een oorzakelijk verband. Dat is één van de belangrijkste vuistregels uit de moderne wetenschap. Toch heeft de Nederlandse statisticus Joris Mooij samen met collega’s nu een methode gevonden waarmee ze kunnen ontdekken wat oorzaak is, en wat gevolg.
Oorzaak en gevolg zijn twee bijna filosofisch klinkende termen die wetenschappelijk lastig uit elkaar te halen zijn. Stel je doet onderzoek naar de gevolgen van fijnstof op de levensduur van mensen. Je ontdekt dat mensen die in gebieden met veel fijnstof wonen, gemiddeld korter leven. Dat wil zeggen: de fijnstofconcentratie en levensduur van mensen zijn met elkaar gecorreleerd. Les één uit het handboek wetenschappelijke analyse leert je echter dat dit nog niets zegt over een oorzakelijk verband. Je kunt hieruit niet concluderen dat die hogere fijnstofconcentratie ook daadwerkelijk die kortere levensduur veroorzaakt. Aan de meetgegevens kan zomaar een ander verband ten grondslag liggen. Zo kan wonen op een plek met een hoge fijnstofconcentratie – aan een snelweg bijvoorbeeld – ook goedkoper zijn. En sociale klasse en inkomen, blijkt uit statistisch onderzoek, hangt ook samen met levensduur.
Twee variabelen
Daarom is het bijzonder dat Jos de Mooij van de Universiteit van Amsterdam nu een methode heeft bedacht om in simpele situaties oorzaak en gevolg uit elkaar te kunnen houden. Die methode werkt in situaties waarin er slechts sprake is van twee variabelen. In een artikel op de wetenschappelijke voorpublicatiesite Arxiv bekeken hij en zijn collega’s verschillende datasets afkomstig van in totaal 88 oorzaak-en-gevolgparen, zoals metingen van de hoogte en de gemiddelde jaarlijkse temperatuur gemeten door 300 weerstations in Duitsland.
Handig ijkpunt
Dergelijke oorzaak-en-gevolgparen zijn een handig ijkpunt, omdat het op voorhand al duidelijk is dat de hoogte de oorzaak is en de gemiddelde jaarlijkse temperatuur het gevolg. Dat bewijzen aan de hand van de achterliggende statistiek is echter nog geen sinecure. Normaal gesproken doen wetenschappers voor een dergelijk probleem goed gecontroleerd onderzoek, maar in de praktijk blijkt dat niet altijd haalbaar of, in sommige gevallen, onethisch (bijvoorbeeld bij sommige experimenten in de geneesmiddelenindustrie).
Daarom is het goed nieuws dat de onderzoekers ook een nieuwe manier hebben gevonden om oorzaak en gevolg te onderscheiden. De crux van die methode is dat zij aannemen dat het verband tussen hun twee variabelen – hoogte en temperatuur, of, abstracter gesteld: X en Y – niet symmetrisch is. Of nog exacter: zij gaan ervan uit dat de ruis die bij elke meting opduikt niet gelijk verdeeld is over oorzaak en gevolg. Dat komt omdat elke ruis in de oorzaak invloed kan hebben op het gemeten gevolg, terwijl dat omgekeerd niet zo is.
Betrouwbaar
De onderzoekers laten zien dat dit kenmerkende patroon van ruis behoorlijk betrouwbaar is in het voorspellen van wat oorzaak is en wat gevolg, bij de door hen gekozen simpele datasets. Naast de temperatuur in Duitsland, keken ze bijvoorbeeld ook naar de dagelijkse hoeveelheid sneeuw die viel op een bepaalde locatie in Canada versus de temperatuur, en via kamernet.nl verzamelde gegevens over de oppervlakte van studentenkamers versus de maandelijkse huur. In totaal keken de onderzoekers naar 88 van dat soort oorzaak-en-gevolg-paren. Hun methode deed het 65 tot 80 procent beter dan wanneer de onderzoekers oorzaak en gevolg willekeurig zouden hebben gegokt.
Lees verder