Het antwoord op de vraag wat statistiek is kent vele mogelijke invullingen. Men zou kunnen stellen dat statistiek de wetenschappelijke methode betreft die ons in staat stelt waarschijnlijkheidswaarden toe te kennen aan fenomenen die ons als wetenschappers bezighouden. Men zou verder kunnen stellen dat statistiek een discipline is die zich toelegt op het mathematisch verantwoord kwantificeren van data, om verklaringen te bieden voor deze fenomenen, en ze te duiden. Men zou -extremer- kunnen volhouden dat statistiek het werktuig is om de werkelijkheid, objectieverwijs te registreren, en haar te raken waar traditionelere, minder geformaliseerde wijzen van analyse dit minder adequaat kunnen. Hoewel we allen -denk ik- een min of meer gelijksoortige opvatting hebben van wat statistiek is, lijkt het verschil me per discipline, en van toepassing tot toepassing te variëren en zich te centraliseren rond de vraag van het waarom en het waartoevan de statistiek.

In een interessant debat dat onlangs gehouden werd in poëzieboekhandel Perdu, georganiseerd door wijsgerig platform Felix & Sofie, stond juist deze thematiek ter discussie. ‘Wat denkt de statisticus?’ luidde het evenement -een vraag die precies dat vat, wat relevant is wanneer we de waarde en beperkingen van statistiek als methode voor de sociaalwetenschappelijke praktijk willen bevragen. Twee basisassumpties drijven naar boven, wanneer we deze vraag wensen te beantwoorden. Twee assumpties die, goed beschouwd, de condities vormen voor de mogelijkheid tot het überhaupt bedrijven van statistiek.

Ten eerste impliceert het gebruik van statistiek te allen tijden het modelmatige denken. Met een probabilistisch model als uitgangspunt vergaard de wetenschapper data zodanig, dat deze te passen is in de beoogde wiskundige methode, en daarmee ook afhangt van de gekozen methode. Met andere woorden: we zoeken data die specifiek past in ons statistische model, en niet meer dan dat. Een implicatie daarvan is dat, hoewel statistiek data-driven is, deze data altijd gedetermineerd is door een verondersteld model van de (statistische) werkelijkheid. Dus waar etnografische, kwalitatieve data van empirische aard waardevol op zichzelf is, dient deze eerst gehercodeerd te worden in termen van kwantitatieve data -alwaar methodische keuzes en categorisaties van de wetenschapper van dienst om de hoek komen kijken om deze vertaalslag te legitimeren. Statistiek betreft in die zin eigenlijk altijd de kwantificatie van een kwantificatie.

Een tweede, en cruciale assumptie voor het bedrijven van statistiek is dat de statistische werkelijkheid die we abstraheren uit onze (schijnbaar chaotische) set empirische data, te allen tijden normaal is. Om statistische methoden toe te passen, dwingt men namelijk af dat datgeen waarover we voorspellingen doen, zich gedraagt volgens de wetten van wiskundige waarschijnlijkheid –probability density functions. Dit is een cruciale assumptie omdat dit een ontologische claim betreft over een werkelijkheid die we nooit inductief hard kunnen maken. Als de wereld zich gedraagt zoals dit normaliter het geval is, dan is het zo waarschijnlijk dat dit optreedt. Maar de wereld is niet normaal. Deze assumptie is echter diep ingebed in het theoretische raamwerk van de statistiek: deviant cases worden geëlimineerd omdat ze ons model verstoren, en onvolledige of te kleine steekproeven worden genormaliseerd doormiddel van een hypothetische centraal-limiet stelling. Onder de assumptie dat de wereld (en dus data over deze wereld) zich normaal gedraagt, infereren we vervolgens dat incomplete steekproeven -mathematisch gesimuleerd en vermenigvuldigd met zichzelf- normale data opleveren, waarover we dan weer inferentiële claims mogen maken over grotere populaties. Het is belangrijk op te merken dat deze assumptie van normaliteit ook een zweem van objectiviteit in zich draagt. Mits data methodisch correct verkregen is, meet wat het meet en wel op de juiste wijze, dan veronderstellen we dat enige statistische inferentie -eveneens mits goed toegepast- een correct beeld van de wereld oplevert, en daarmee min of meer objectiever is, dan wat niet of minder gekwantificeerde, kwalitatieve data ons oplevert.

Nu zal geen statisticus beweren dat statistiek een zuiver objectief meetinstrument is, maar prone to error, en kan men simpelweg tegenwerpen dat statistische resultaten semantisch adequaat blijken -ze kloppen, vaak. Ik wil hier dan ook geenszins een apologie voor de kwalitatieve wetenschap uiteenzetten. Belangrijker echter, vind ik de epistemologische implicaties voor wetenschapsgebieden die statistiek veelvuldig hanteren, en wat voor wereldbeeld daarmee snel gepaard gaat. Wat de statisticus denkt, is daarom zeer relevant voor dat waartoe de statisticus zijn methode toepast. Statistiek is namelijk in haar naakte vorm, essentialistisch van aard. Ze kwantificeert op basis van dat wat de gemene deler is tussen individuele datapoints of respondenten, en laat daarbij onverlet wat deze van elkaar differentieert. Om met Duns Scotus te spreken, statistiek staat geen haeccitas, geen ‘ditheid’ toe: dat wat een mens of object maakt tot wat het is, en wat de ene vrouw in een steekproef onderscheid van een andere vrouw in dezelfde steekproef, wanneer we corrigeren voor gender. Slechts door data te essentialiseren op basis van gedeelde kenmerken en categorieën, voldoen we aan de normaliteitsassumptie (immers, ‘vrouwheid’ is dat wat vrouwen onderling delen, als common essence geldt, en als zodanig zich ‘normaal’ zal gedragen). Chaos is daarmee uitgesloten. Maar het is maar de vraag in hoeverre dit recht doet aan de wereld die we pogen te beschrijven middels deze methode. De ene vrouw is de ander niet.

Dus waar statistiek ontegenzeggelijk werkt, kunnen we haar geenszins de objectiviteit verlenen die zovelen haar toekennen. Temeer omdat, terugkomend op de eerste assumptie van model-based onderzoek, data zich ten alle tijden schikt naar het statistische model, wat op zichzelf genomen, nooit objectief kan zijn -het model zelf is namelijk nooit empirisch. Verschillende statistische vraagstukken kennen verschillende statistische toepassingen die elkaar al dan niet methodisch uitsluiten. Deze methoden echter, mogen het resultaat zijn van toegepast wiskundig vernuft en logische validiteit, maar zijn te allen tijde tevens het resultaat van mensenwerk en selectie. Statistiek bedrijven betreft daarom ook altijd theoretische determinatie: de theorie bepaalt de data, en niet andersom.
Hoewel ik zeker de voordelen van statistiek als methode erken, zowel voor de wiskunde, als voor de sociale wetenschappen, denk ik dat het van cruciaal belang is dergelijke implicaties van statistiek als methode niet uit het oog te verliezen in de wetenschappelijke praktijk. Een te sterk geloof in de heil van statistische methoden kan namelijk leiden tot een zeer rigide opvatting van enerzijds de realiteit en haar fenomenen, maar anderzijds ook tot het te zeer ‘verwetenschappelijken’ van de sociale wetenschappen, waar ook haar kwalitatieve aspecten en etnografische resultaten verloren kunnen gaan. De claim dat statistiek dient als objectief meetinstrument, baseert zich namelijk rond een essentialistisch wereldsbeeld en een set zuiver subjectieve assumpties over het onderzoeksobject. Statistiek is goed, maar ook weer niet zo goed.

Joey de Gruijl

Tekst

Bram Visser

Beeld

Leave a Reply