Komter over de publicatiefabriek

Page 1

Boekpresentatie ‘De publicatiefabriek’, Ruud Abma; 30 mei 2013 Aafke Komter Onlangs beluisterde ik tijdens de receptie van een oratie de volgende conversatie tussen twee collega-hoogleraren: ‘Hé hallo, hoe is het met je?’, vraagt collega 1; collega 2 beantwoordt de vraag met een relaas over het indrukwekkende aantal publicaties dat hij – in vergelijking met een aantal zeer gerenommeerde collega’s – in het afgelopen jaar bij elkaar heeft geschreven. Collega 1 zegt: ‘Nou zeg, dat kan niet meer stuk dan voor jou! En hoe is je H-Index?’ waarop collega 2 gretig antwoordt dat zijn H-Index in de buurt van de 40 ligt. Niet gek.. maar: sinds wanneer beantwoorden we een simpele vraag hoe het met ons gaat met verpletterende bewijzen van ons academisch succes? Heeft het citatiefetisjisme ons inmiddels zodanig in zijn greep dat onze persoonlijke identiteit samenvalt met onze academische identiteit? Zijn wij onze H-Index geworden? Het lijkt er wel op. In zijn boek De publicatiefabriek (mooie titel!) reconstrueert Ruud Abma de Stapelaffaire en onderzoekt hij de betekenis ervan. Onder meer aan de hand van de rapporten van de Commissie Levelt en Stapels eigen terugblik op zijn fraude in zijn boek ‘De ontsporing’ schetst Abma niet alleen een beeld van Stapels persoonlijke Werdegang als fraudeur, maar ook van de omstreden status van het vakgebied van de sociale psychologie en van de instituutscultuur waarbinnen een fraude van deze omvang en ernst kon plaatsvinden. In een aantal helder geschreven hoofdstukken analyseert hij de affaire tegen de achtergrond van de in zijn ogen problematische academische cultuur, waarin het niet meer gaat om de inhoud van de publicaties, maar om de hoeveelheid. Stapels fraude ziet Abma niet als een toevallig bedrijfsongeval, maar als een symptoom van een uit zijn voegen barstende publicatiefabriek. Mede vanwege bezuinigingen en de invoering van de voorwaardelijke financiering in de jaren tachtig werd het wetenschappelijk personeel steeds meer beoordeeld op basis van het aantal internationale publicaties per jaar en de Impactfactor van de tijdschriften waarin werd gepubliceerd. Dit had allerlei perverse prikkels tot gevolg, aldus Abma. Calculerend gedrag en allerlei overbodig geschrijf van individuele wetenschappers werden erdoor in de hand gewerkt – denk aan salamitactieken of het schrijven met vele co-auteurs. Men was nog slechts bezig de jaarlijkse targets te halen, in plaats van goede ideeën voor onderzoek te bedenken. Ook op instituutsniveau waren perverse effecten van de toenemende publicatiedruk zichtbaar; promotiepremies joegen het aantal dissertaties omhoog en voerden de druk om deze goed te keuren op. In Abma’s ogen is er nog een specifieke reden tot zorg voor de sociale psychologie, en dat is de binnen die discipline gebruikte standaardmethode: het experiment. Bij de opzet van sociaal-psychologische experimenten is het aantal vrijheidsgraden van de onderzoeker veel groter dan in de natuurwetenschappen, en dit is een van de redenen waarom replicaties vaak weinig succesvol zijn en waarom er weinig vooruitgang wordt geboekt in de sociale psychologie. Met instemming citeert Abma Daniël Kahnemans kritiek op het zogenaamde priming, dat gangbaar is in sociaal-psychologische experimenten: je brengt mensen in een bepaalde stemming, toont ze wat negatieve of positieve woordjes en laat ze daarna een testje doen, waarin je hoopt een effect van de experimentele manipulatie te vinden; Stapel grossierde erin: we kennen allemaal het vleeshufteronderzoek en het onderzoek naar de relatie tussen discriminatie en het je bevinden in een rommelige omgeving. Primingeffecten worden maar heel sporadisch teruggevonden in replicaties. Niettemin, zo citeert Abma (de recentelijk ook in opspraak geraakte) sociaal-psycholoog Dijksterhuis: ‘het was een beetje onze bedrijfscultuur om stevige conclusies te trekken op basis van mager bewijs. Dit alles heeft de sociale psychologie geen goed gedaan.’ 1


Abma trekt een aantal lessen uit de Stapelaffaire, voor een deel vergelijkbaar met de lessen die de Commissie Levelt trok. Allereerst, zegt Abma, klopt het beeld van de fraudeur als zondebok versus de lelieblanke omgeving niet met de werkelijkheid: ook in de omgeving van de fraudeur werd slordige wetenschap bedreven. Bovendien – mogelijk hiermee samenhangend – was de omgeving nadrukkelijk niet kritisch genoeg. Als zoveel mensen met wie Stapel te maken had de fraude zo lang niet hebben opgemerkt, dan was er iets mis met hun oplettendheid. De belangrijkste les uit de hele affaire is volgens Abma dat de onkritische houding van Stapels omgeving in de hand werd gewerkt door de heersende bevorderings- en beloningscultuur met zijn nadruk op het leveren van productie, citatieanalyses en excellentie. Misschien, zo stelt Abma voor (in navolging van Anita Jansen en ook Kees Schuyt), moeten we maar eens wat minder publiceren; behalve een minimum aantal publicaties zouden we ook een bovengrens kunnen stellen aan het aantal publicaties per jaar. Een tweede remedie ligt in het bevorderen van de kritische functie van de wetenschap: benadruk wetenschappelijke waarden in plaats van uiterlijkheden zoals iemands H-Index of succes in het binnenhalen van onderzoeksgelden. Ik wil over drie vragen met Abma in discussie gaan. 1. Komt ‘slodderwetenschap’ vaker voor in de (sociale) psychologie dan in andere wetenschapsgebieden? Abma meent van niet (p. 158). Ik zal beweren van wel. 2. Is de nadruk op het experiment een belangrijke reden dat er in de sociale psychologie weinig vooruitgang wordt geboekt, zoals Abma lijkt te beweren? Ik zal beweren van niet. 3. Moeten de gevolgen van competitie (en in het kielzog daarvan de nadruk op excellentie en publicatiedrang) in de wetenschap zonder meer als negatief worden geïnterpreteerd, zoals Abma lijkt te doen? Ik zal beweren van niet. 1. ‘Slodderwetenschap’ vaker in de (sociale) psychologie? Een recente studie van Fanelli (2010) biedt een eerste systematische vergelijking tussen wetenschappelijke disciplines. Fanelli trok een steekproef van 2434 gepubliceerde artikelen op een groot aantal wetenschapsgebieden uit een database van de Amerikaanse National Science Foundation en codeerde de frequentie van ‘positieve resultaten’ (bevestigde hypothesen). In deze tabel zijn de resultaten te zien. Er werden significant meer positieve resultaten gevonden in gepubliceerde artikelen op het gebied van de psychologie, psychiatrie, economie en business studies in vergelijking met bijvoorbeeld ruimtestudies of aardwetenschappen; ook sommige toegepaste wetenschappen, zoals de klinisch-medische wetenschap, farmacologie en materiaalwetenschap, scoorden relatief hoog op positieve resultaten. Een belangrijke verklaring voor ‘confirmation bias’ is dat bevestigde hypothesen vaker door tijdschriften worden gepubliceerd, waardoor onderzoekers in de verleiding kunnen komen met de ‘mooiste’ (positieve) resultaten naar buiten te komen; laakbaar wetenschappelijk gedrag kan hiervan de achtergrond zijn, maar dit is niet noodzakelijkerwijs het geval. Positieve resultaten kunnen ook nog door andere factoren worden verklaard. Bijvoorbeeld: in sommige wetenschapsgebieden wordt langduriger geobserveerd en geëxperimenteerd voordat men een hypothese formuleert; bovendien zijn hypotheses in sommige wetenschapsgebieden eenvoudigweg trivialer van aard. Fanelli’s tabel met de rangordening van positieve resultaten over de disciplines, die ik in oktober 2012 in een stukje in NRC had gepubliceerd – riep grote verontwaardiging op onder een aantal Nederlandse sociaal-psychologen (het hielp ook niet dat de NRC als kop had: ‘In de psychologie lukt bijna elke proef’ terwijl ik had gesuggereerd: ‘Waar zijn de feiten 2


in de discussie over wetenschapsfraude?’). Ik had op basis van deze gegevens vraagtekens gezet bij Wolfgang Stroebe’s bewering (gepubliceerd in Perspectives in Psychology, en gebaseerd op een N van 40 bekend geworden fraudecasussen) dat er géén aanwijzingen zijn dat laakbaar wetenschappelijk gedrag vaker voorkomt in de sociale psychologie dan elders. Terwijl ik toch slechts de boodschapper van Fanelli was, kreeg ik van diverse boze sociaalpsychologen te horen dat ik de (sociale) psychologie in een kwaad daglicht stelde. Interessant is ook het survey (gebaseerd op zelfrapportage) over prevalentie van laakbaar wetenschappelijk gedrag onder 2000 psychologen van Leslie John en haar collega’s (2012). De onderzoekers gebruikten incentives om de waarheid te vertellen om onderrapportage tegen te gaan: participatie aan het onderzoek zou resulteren in een donatie aan een liefdadig doel, waarbij de hoogte van de donatie afhankelijk was van het waarheidsgehalte van de antwoorden. In totaal gaf 36,6 procent van de respondenten toe – vooral sociaal- en cognitief psychologen èn diegenen die in een laboratorium werkten – dat ze zich wel eens hadden ingelaten met twijfelachtige onderzoekspraktijken; dat is een hoger percentage dan het percentage twijfelachtige onderzoekspraktijken dat Fanelli (2009) vond in zijn metastudie van 18 surveys over laakbaar wetenschappelijk gedrag (33,7 procent). Van John’s respondenten geeft 10 procent het vervalsen van data toe (tegen 2 procent in het eerdere onderzoek van Fanelli, 2009). Bovendien wordt er in een aantal recente, kritische artikelen (Bakker et al., 2012; Button et al., 2013) op gewezen dat effect size en statistische power in veel psychologisch onderzoek onaanvaardbaar laag zijn en dat er, gegeven de betrouwbaarheid van de gebruikte maten, vaak veel te hoge correlaties worden gevonden, bijvoorbeeld. in de neuropsychologie waar gewerkt wordt met hersenscans (Vul et al., 2009). Kortom: anders dan Abma denk ik dat er wel degelijk aanwijzingen (geen bewijzen) zijn voor een hogere prevalentie van ‘slodderwetenschap’ in de (sociale) psychologie. 2. Het experiment: belemmering voor vooruitgang in de sociale psychologie? Experimenten beogen door hun strakke opzet en vereenvoudigde representatie van de werkelijkheid causale relaties bloot te leggen. Maar welke ingrepen men ook doet, zo redeneert Abma, experimenten bevatten allerlei alledaagse en minder expliciete aspecten van de werkelijkheid die het resultaat mede bepalen, zoals het weer, de kleding, de oogkleur, de stemming of de verwachtingen van de experimentator. Bovendien hebben proefpersonen – doorgaans psychologiestudenten – alledaagse kennis van de verschijnselen die in de experimenten worden onderzocht. De bevindingen kunnen dan ook nooit universele wetmatigheden weerspiegelen zoals wordt gepretendeerd, maar blijven altijd gebonden aan hun historische en cultureel gebonden context. Hoewel Abma gelijk heeft met deze methodologische kanttekeningen, denk ik toch niet dat het aan het experiment als zodanig ligt dat er weinig vooruitgang wordt geboekt in de sociale psychologie. Het experiment is in principe een scherpe vorm van toetsen, die juist vanwege het beredeneerde isoleren van aspecten uit de complexe sociale werkelijkheid en vanwege het systematisch variëren van experimentele condities inzichten kan opleveren die je via andere sociaal-wetenschappelijke methoden (zoals het survey of het interview) niet kan verkrijgen. Ik denk dat de geringe voortgang van de sociale psychologie aan (minstens) twee andere zaken te wijten is: (1) de manier waarop methodologische normen worden gehanteerd; (2) het gebrek aan overkoepelende theorie binnen de sociale psychologie. Wat betreft het eerste punt, de methodologische regels: zoals het rapport van de Commissie Levelt heeft aangetoond, ontbrak het in (sociaal-)psychologische kringen nogal eens aan zorgvuldigheid in de hantering van deze regels. En zoals Stapel zelf in zijn boek onthult, wist hij geleidelijk aan 3


zo goed de ‘knoppen te bedienen’ bij het doen van experimenten, dat hij experimentele effecten naar believen kon laten verschijnen of verdwijnen. Hij gebruikte technieken om matige resultaten op te pompen, liet metingen die niet werkten weg, en maakte effecten sterker door maten die een beetje werkten te combineren. Als er bij één van de experimentele groepen een onverklaarbaar resultaat te zien was, paste hij het experimentele ontwerp aan zodat dat resultaat verdween. Bij tegenvallende resultaten ging hij opzoek naar outliers om die vervolgens te verwijderen. Deze handelwijzen zeggen niets over de methode van het experiment zelf, maar over Stapels systematische schending van de methodologische regels rondom het experiment. Ten tweede denk ik niet dat het gebruik van de experimentele methode heeft geresulteerd in een sociale psychologie die sterk verbrokkeld en in zichzelf gekeerd is; het is eerder omgekeerd: het theorie-arme karakter van de sociale psychologie zorgt er (mede) voor dat de kennis opgedaan via experimenten niet beklijft. Juist omdat er na de beroemde klassieken die wèl met grote theorieën, baanbrekende experimenten en inzichten kwamen – Adorno, Allport, Kurt Lewin, Milgram, Festinger, Thibeaut en Kelley – weinig is toegevoegd, is de sociale psychologie verworden tot een verzameling ogenschijnlijk spectaculaire alledaagse weetjes, een ‘ontplofte confettifabriek van theorieën en theorettes’, een ‘flipperkastpsychologie’, of ‘het constant balanceren tussen open deuren intrappen en muggenziften’ in de woorden van Stapel zelf. Abma zelf, geïnspireerd door de oratie van Roos Vonk uit 2002, heeft ook een prachtige formulering: de sociale psychologie weet ‘de speld (..) te vinden maar (is) het zicht op de hooiberg totaal kwijt’ (p. 136). Toen ik zelf in de zeventiger jaren sociale psychologie studeerde, deed ik dat omdat ik hoopte nog meer kennis over de menselijke ziel en het menselijk doen en laten op te doen dan ik al uit de romans van de grote Russische klassieken – bijvoorbeeld Dostojevski – had gehaald. Al na enkele weken was ik diep ontgoocheld vanwege het magere theoretische gehalte en de vaak intens banale losse weetjes. De sociale psychologie haalde het niet bij de Russen! Kortom: het ontbreken van overkoepelende of synthetiserende theoretische inzichten in de sociale psychologie lijkt mij het centrale probleem, en niet de voorkeur voor het experiment. 3. Competitie in de wetenschap: een slechte zaak? Ik kan een heel eind meegaan met Ruud Abma’s pessimisme over de negatieve gevolgen van de toegenomen competitie en publicatiedrang voor de academische cultuur. De verregaande identificatie van sommige collega’s met hun H-Index is er een verontrustend symptoom van. Toch vind ik dat Abma hier een iets te eenzijdig beeld schetst. Ik denk dat de ontwikkelingen die zich sinds de invoering van de voorwaardelijke financiering hebben voorgedaan ook een aantal positieve gevolgen hebben gehad. Ik noem er zeven. 1. Sinds de zeventiger jaren heeft zich een proces van professionalisering voltrokken, waardoor het beeld van de universiteit als een club van slaperige vrijgestelden die van hun promotie (als ze al promoveerden) hun levenswerk maakten nu volstrekt verouderd is. 2. Ten tweede: systematisch terugkerende verantwoordingsprocessen – via visitaties, accreditaties –en beoordelingen van individuen, cursussen, afdelingen en instellingenhebben in principe bijgedragen tot verhoging van het niveau van universitair onderzoek en onderwijs (hoewel het systeem ook aan enige inflatie onderhevig lijkt: volgens recente overzichten van het Rathenau Instituut haalt nu zo ongeveer iedere instelling excellente QANU-scores, waarmee we met een serieus nieuw probleem zitten...). 3. In de derde plaats is het niveau van zittende universitaire medewerkers, zowel wat betreft onderzoek als wat betreft onderwijs, dankzij scherpere selectie flink gestegen; 4


4.

5.

6.

7.

vereisten van nu zijn minimaal gepromoveerd zijn, al een aantal internationale publicaties op je naam hebben staan voordat je wordt aangenomen, en ook het hebben van onderwijskwalificaties in de vorm van BKO en SKO. ‘Er is minder geduld met middelmatig of ondermaats functioneren dan een halve eeuw geleden’, zo concludeert ook het recente KNAW-rapport ‘Vertrouwen in de wetenschap’. Ten vierde: mede als gevolg van de professionalisering is er veel meer internationale samenwerking dan in de tachtiger jaren. Zowel op het niveau van instituties als individuen is er sprake van intensieve uitwisseling met collega’s uit alle werelddelen. Door Europese subsidies zijn vormen van samenwerking ontstaan die aanzienlijk bijdragen aan vooruitgang in de wetenschap. Ten vijfde: de toegenomen nadruk op excellentie heeft geleid tot Honor’s programs (University Colleges), waar geselecteerde studenten uitgedaagd worden in hun academische ontwikkeling. Ook heeft het streven naar excellentie geleid tot zogenaamde topsectoren van onderzoek, waar de besten samenwerken aan relevante en vernieuwende onderzoeksvragen. In de zesde plaats: ja, deze ontwikkelingen hebben geleid tot een enorme toename in het aantal publicaties (54.000 in 2000 tot 68.500 in 2010 volgens cijfers van het Rathenau Instituut), ook in hoge Impact-tijdschriften. En hoewel meer publiceren niet altijd betekent dat de publicaties ook van een hoog niveau zijn – daar heeft Abma absoluut gelijk in – zitten er bij zulke grote aantallen publicaties gelukkig ook heel veel van een uitstekend niveau. In de zevende plaats, en tot slot: sommige individuele wetenschapsbeoefenaars, ook de meest getalenteerden, genieten van een beetje competitie en varen daar academisch gezien uitermate wel bij. De president van de KNAW zelf is hier een lichtend voorbeeld van, zoals we onlangs in de krant mochten lezen (‘niet tè vaak als tweede eindigen’)!

Literatuur Button, K.S., Iannides, J.P.A., Mokysz, C., Nosek, B.A., Flint, J., Robinson, E.S.J., & Munafö, M.R. (2013). Power failure: wha small sample size undermines the reliability of neuroscience. Nature Reviews/Neuroscience, 14, 1-12. Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. Plos ONE, 4(5), e5738. Fanelli, D. (2010). ‘Positive’ results increase down the hierarchy of sciences. Plos One, 5(4), e10068. John, L.K., Loewenstein, G., & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23(5), 524532. Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Puzzlingly high correlations in fMRI studies of emotion, personality, and social cognition. Perspectives on Psychological Science, 4(3), 274-290. Bakker, M., Van Dijk, A., & Wicherts, J.M. (2012). The rules of the game called psychological science. Perspectives on Psychological Science, 7(6), 543-554.

5


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.