Cijfers zijn objectief, luidt vaak het argument om de bètawetenschappen te markeren als wezenlijk anders de ‘zachte’ sociale wetenschappen en de humaniora. Het idee is grofweg dat mits je helder hebt waar je het over hebt (ontologie) en hoe je daarmee omgaat (afleidingsregels), je een level playing field hebt waarin een open debat gevoerd kan worden over wat klopt en niet klopt. Een inzichtelijk voorbeeld is de manier waarop de verzameling natuurlijke getallen gedefinieerd kan worden: de verzameling van alle verzamelingen met n objecten, en wel zo dat voor iedere n in de verzameling natuurlijke getallen er een opvolger n + 1 bestaat en waar niets anders in zit dan dat. Vanaf daar is het een bouwdoos: het getal nul (wat sec beschouwd geen getal is) bestaat dan uit de verzameling van alle verzamelingen zonder inhoud. Voeg daar aan toe al die verzamelingen bestaande uit één object en je hebt het getal één gedefinieerd, et cetera. De reden dat ik dit voorbeeld inbreng, is omdat het laat zien waarom de sociale wetenschappen geen wiskunde zijn: de sociale werkelijkheid is vele malen complexer dan te vatten in welke formalisering dan ook. Succes met het vinden van een eenduidige ‘definitie’ voor gender, etniciteit of een concept als klasse. Desondanks maken de sociale wetenschappen, en in mindere mate de humaniora, veel gebruik van formele methoden om de werkelijkheid te duiden: statistiek. Ik wil het hier graag hebben over hoe het gebruik van dergelijke methoden ingaat tegen alle sociaal-wetenschappelijke intuïties die we als sociologie studenten horen te hebben.

De laatste tijd houd ik me veel bezig met causale interpretaties van het type statistiek dat we aangeleerd krijgen binnen de sociologie: frequentisme. Het credo luidt: correlatie is geen causatie. Echter, iets wat mij altijd gefascineerd heeft is hoe we met dat devies om moeten gaan indien we herhaaldelijk vergelijkbare resultaten blijven zien in data. Hoe vaak moeten we een correlatie tussen ‘vrouw zijn’ en ‘inkomensniveau’ meten voor we gaan geloven dat er iets is dat deze correlatie veroorzaakt? Het korte antwoord is dat dat afhankelijk is van hoeveel vertrouwen je hebt in de wiskundige aannames achter de methode die je gebruikt.

Om te beginnen gaat kansrekening uit van het idee dat een kans iets is dat afhangt van de frequentie waarin iets terugkomt in de data. Kortweg, het gooien van een munt heeft twee mogelijke uitkomsten, en de kans dat om het even welke zijde boven komt is 0.5. Daarmee is echter niet gezegd dat dit ook waarschijnlijk is. Immers, als je een lot voor de loterij koopt maak je kans te winnen, maar het kopen van een lot zegt weinig over de waarschijnlijkheid van het winnen. Waarschijnlijkheid is namelijk een diep subjectief concept, waar kans (in dit geval) de ratio frequentie en het aantal mogelijke uitkomsten is, en daarmee gegeven binnen de data. Twee gevolgen van een theorie van kansen als frequenties zijn dat, ten eerste, je kansen plakt aan gebeurtenissen.

Een andere belangrijke aanname is dat om frequenties te berekenen, je van tevoren moet weten welke mogelijke uitkomsten er zijn. Respectievelijk twee vragen worden hiermee van belang: zijn de variabelen die we gebruiken in onze modellen gebeurtenissen, en zo ja, kunnen we deze op voorhand kennen? Het lijkt me evident dat een variabele als ‘man/vrouw’ op zichzelf geen gebeurtenis is, maar zelf als je dit gemakshalve aanneemt (iets waartoe je gedwongen bent indien je een dergelijke methode hanteert) dan blijft het de vraag of deze categorieën kenbaar zijn. Nu zullen weinigen ingaan tegen een concept als sekse, omdat het relatief makkelijk meetbaar is, maar kans-technisch is het een interessante vraag omdat je een dergelijke dichotomie reduceert tot een essentieel kenmerk van een individu. Als we kop gooien met een munt, daarbij weten dat de kans op om het even welke zijde 0.5 is, en willen weten hoe groot de kans is dat we munt gegooid hadden, dan leert kansrekening ons dat P(k) = 1 – P(m) = 0.5. Het punt is hier dat het niet uitmaakt wat we weten over de kans om munt te gooien, wat we slechts nodig hebben is de kans van kop en het totaal aantal mogelijkheden. In dit geval had ‘niet kop’ even informatief geweest als ‘munt’. Als we dit versimpelde voorbeeld nu terugkoppelen op de daadwerkelijke statistische praktijk binnen de sociologie, is het niet lastig te zien dat het gebruik van dummy variabelen niet veel verschilt van het voorbeeld. Het dummificeren van binaire variabelen komt op niet veel meer neer dan een eigenschap reduceren tot zijn tegendeel. Ofwel: corrigeren voor sekse, betekent zoveel als claimen dat ‘niet man (of vrouw)’ heeft dit effect. Het moge duidelijk zijn dat dit weinig recht doet aan de sociale werkelijkheid. Simone de Beauvoir draait zich om in haar graf.

In een beroemd essay van W.O. Quine, logicus en filosoof, stelt de auteur zich ten vraag hoe het mogelijk is dat we gelijkenissen zien tussen objecten in de wereld. Grofweg: waarom is het evident dat we dieren herkennen als behorend tot een bepaald ras en dat toekennen aan hoe de wereld nu eenmaal is, en hoe we dit formeel kunnen onderscheiden van arbitraire verzamelingen van dingen die op elkaar lijken? De eerste is wat in de literatuur natural kinds genoemd wordt, en onderscheiden dient te worden van verzamelingen of klassen (deze kunnen per definitie arbitrair zijn). Een intuïtief antwoord op de vraag is een lijst van voorwaarden stellen op grond waarvan iets tot een bepaalde soort behoort die niet arbitrair, maar natuurlijk is. Echter, dit kan ook gedaan worden van verzamelingen waarvan we weten dat ze hun oorsprong niet vinden in de natuur (cf. natuurlijke getallen). Het dichtst in de buurt komt een formulering in termen van: iets behoort tot een soort slechts indien het meer eigenschappen deelt met andere dingen binnen die soort, dan met dingen buiten die soort. Het moge duidelijk zijn dat dit verre van eenduidig is. Quine komt uiteindelijk tot de conclusie dat iets dergelijks niet te vangen is in een formele taal als de wiskunde, en dat we natural kinds dienen aan te nemen. Dit lijkt een zinloze uitweiding, maar het punt dat ik wil maken is dat indien we middels statistiek de wereld proberen te vatten, we wel degelijk een formalisatie van een concept als natural kinds nodig hebben om te incorporeren in ons statistisch model. Onder de aanname dat er iets ‘bestaat’ als vrouwen in de wereld, maken we itemsets en complexe variabelen die dat vangen wat we graag willen vangen in een concept als vrouw. Zelfs als we ons verstand denken te gebruiken en complexe concepten opbreken in meerdere variabelen (bijvoorbeeld vrouw als ‘sekse’ + ‘gender’ + alle andere relevante concepten), maken we ons schuldig aan dat wat Quine toonde dat een nutteloze exercitie is. Om met zijn beroemde term te spreken; door gebruik van statistische methoden hebben we een ontologische commitment aan de concepten die we gebruiken als basis voor onze modellen. We kunnen statistische modellen slechts interpreteren indien we veronderstellen dat concepten als ‘vrouw’ natural kinds zijn. Zelfs als we weten dat dat onzin is, zoveel mogen we onderhand wel geleerd hebben van vele decennia feministische en kritische maatschappijtheorie. Things aren’t that simple.

Het is daarom dat ik zeg: wiskunde discrimineert niet, maar wij wel.

Beeld: Flickr

Joey de Gruijl

Tekst

Leave a Reply