Tag Archives: rechtsempirie

Het belang van onderzoek waar niets uitkomt

De psycholoog Diederik Stapel, die meermalen fraude pleegde bij het verwerken van onderzoeksresultaten en daarmee de psychologie een slechte naam bezorgde, zei onlangs in een interview het volgende:

“Het begon met de onderzoeksresultaten wat naar het licht draaien, zodat ze beter zichtbaar werden. Drie onderzoeken komen mooi uit en in een vierde zitten vragen die niet de gewenste uitkomst geven. Dat waren ook domme vragen, denk je dan. Dus rapporteer je die niet. In dat verfraaien van de werkelijkheid ging ik steeds een stapje verder. Mijn valkuil was dat ik er slecht tegen kon als onderzoeksresultaten niet klopten met mijn ideeën. (…) Ik leefde het liefst in een wereld waar alles klopt en mooi gerangschikt is. Maar die wereld bestaat niet.” (FD persoonlijk 3 dec 2016)

Stapel zoekt het bij zichzelf. Terecht. Maar het vakgebied waar hij in opereerde, werkte ook niet mee. Frauderen is fout, daarover geen twijfel. Maar wat intrigeert, is de laatste zin: de wereld waarin alles klopt en mooi gerangschikt is, bestaat niet. En toch is dat de wereld die getoond wordt in toonaangevend psychologisch onderzoek. Dergelijke publicaties zijn, dat is althans mijn indruk, vaak primair gericht op overtuigingskracht, presentatie en ‘sexy’ uitkomsten. Wat we niet zien, zijn de onderzoeken ‘waar niets uitkomt’. Die krijgen psychologen niet gepubliceerd of, als dat wel gebeurt, dan genieten ze minder aanzien. Het Journal of Articles in Support of the Null Hypothesis telt niet als serieus in die kringen. Dus als een vakgebied alleen maar een bonus zet op (experimenteel) onderzoek waar de nulhypothese in verworpen wordt, werk je een eenzijdige publicatielijn én een eenzijdige onderzoekscultuur in de hand. In dat geval is er werkelijk geen opzettelijke verdraaiing van de getallen nodig om bij sterk vertekende uitkomsten te belanden.

Ik geef een voorbeeld. Stel dat ik een onderzoek uitvoer naar het effect van het aanbrengen van vetgedrukte tekstdelen in juridische teksten op de mate waarin consumenten de kern van het betreffende stuk tekst weten te onthouden. Toegegeven, misschien niet het meest spannende onderzoek, maar mogelijk wel praktisch relevant. Eerder onderzoek voorspelt, laten we dat aannemen, dat vetgedrukte tekst in een tekstdocument beter opvalt dan tekst die niet vetgedrukt is en dat het ‘beter opvallen’ leidt tot betere stimulering van het geheugen en dus het otreatmentnthouden van de informatie.

Ik test de alternatieve hypothese (‘vetgedrukte tekst leidt tot beter onthouden van het betreffende tekstdeel’) door twee groepen personen gerandomiseerd toe te wijzen aan één van twee condities: een juridische tekst met en een zonder vetgedrukte delen. Vervolgens stel ik vragen over de tekst die met de vetgedrukte delen te maken hebben. Ik verwacht verschil tussen de groepen te vinden, dat er op wijst dat het vet maken van tekst de oorzaak van dat verschil is.

Stel: het eerste onderzoek toont geen verschil tussen de groepen. Dat kan komen omdat ik niet erg veel proefpersonen had en de tekst wel erg lang was. Het kan dus zijn dat andere factoren, zoals vermoeidheid door de tekstlengte, een verstorende rol hebben gespeeld. Als ik die factor wil uitsluiten, moet ik misschien een kortere tekst gebruiken. Dus ik doe het onderzoek nog een keer, maar nu met een kortere tekst, meer proefpersonen en veiligheidshalve ook met makkelijker te onthouden vetgedrukte begrippen. Ik manipuleer dus de effectgrootte. Het tweede onderzoek toont dat de vetgedrukte tekst gemiddeld genomen beter onthouden wordt. Het gevonden verschil is statistisch significant.

Dit tweede onderzoek krijg ik gepubliceerd. Het eerste leg ik weg en rapporteer niet. Terwijl het eerste onderzoek, dat de nulhypothese niet verwerpen kon, voor bruikbaarheid in de echte wereld (externe validiteit) misschien ook wel iets te vertellen heeft: als je lange teksten gebruikt, verdwijnt mogelijk het effect dat je vindt bij vergelijking tussen korte teksten.

Ik begrijp overigens wel dat er methodologisch goede redenen kunnen zijn om dergelijk onderzoek waar niets uitkomt, niet te publiceren. Want als er niets uitkomt, kan dat ook aan de opzet van het onderzoek hebben gelegen. Er kunnen namelijk heel veel redenen zijn waarom er niets uit een onderzoek komt. In mijn geval kan bijvoorbeeld worden beweerd dat het meetinstrument niet sensitief genoeg was: doordat de tekst te lang was, is het verschil tussen de teksten weggedrukt door de lengte, die in beide gevallen tot ‘cognitieve uitputting’ van de respondenten leidde. Goed punt, het kan best waar zijn. Maar misschien is dat dan juist het beginpunt voor een nieuwe hypothese die er op neerkomt dat vetgedrukte tekst alleen leidt tot beter onthouden van het betreffende tekstdeel als de lengte van de tekst maar kort genoeg is. Onderzoek waar niets uitkomt, is dus ook belangrijk, zeker als fouten in meting of opzet met enige mate van zekerheid zijn uitgesloten.

jv

Ik denk dat de rechtsgeleerdheid hier iets van kan leren.Wat betreft empirisch onderzoek in de rechtsgeleerdheid zou de vraag kunnen worden gesteld wat we als standaard voor goed onderzoek willen hanteren. Nu de aandacht voor empirisch juridische onderzoek ook in ons land langzaam aan het toenemen is, verdient het de voorkeur om kort lijstje te maken van gedeelde uitgangspunten rondom ‘goede onderzoekspraktijken’. Daarop zou kunnen staan: als onderzoek waar niets uitkomt, implicaties heeft voor rechtspraktijk of vervolgonderzoek, is zij het waard om gepubliceerd te worden.

Onder die noemer rapporteerde ik onlangs in het tijdschrift Justitiële Verkenningen over eigen onderzoek ‘waar niets uitkwam’. Dat klinkt niet echt spannend als ik het zo zeg. Maar ik denk toch dat er wel iets spannends over te lezen valt. Ik verwijs daarom graag naar het artikel: W.H. van Boom, Experimenteren met informeren, Justitiële Verkenningen 2016/6, p. 95-110.

Terzijde een les voor juristen die rechtspraak van de Hoge Raad bestuderen: als we willen weten of de Hoge Raad voldoet aan zijn taakstelling inzake rechtsvorming, rechtseenheid en rechtsbescherming, moeten we niet alleen de uitspraken bestuderen en becommentariëren waar ‘iets uit is gekomen’ (namelijk: een inhoudelijk oordeel), maar ook de uitspraken die met Artikel 80a Wet op de rechterlijke organisatie of Artikel 81 Wet op de rechterlijke organisatie zijn afgedaan.  Dit gebeurt momenteel voor zover ik weet niet systematisch.

 

De piramide van de Kazernestraat

In de wetenschap worden verwijzingen naar het werk van anderen wel gezien als teken van ‘impact’. In de rechtswetenschap wordt niet alleen verwezen naar het werk van andere auteurs, maar ook naar rechterlijke uitspraken. Van een rechterlijke uitspraak waar veel naar wordt verwezen in het juridisch debat, wordt wel gezegd dat deze ‘autoriteit’ heeft. Een uitspraak met (blijvende) impact dus. Dat verwijzen gebeurt in wetenschappelijke publicaties waarin rechtspraak wordt geanalyseerd, maar het gebeurt eigenlijk ook in het onderwijs. Want in het juridische onderwijs moeten studenten rechterlijke uitspraken bestuderen, analyseren en kunnen toepassen op nieuwe casus. Bij civielrechtelijke vakken in de bacheloropleiding worden bijvoorbeeld veel uitspraken (arresten) van de Hoge Raad voorgeschreven. Dat gaat om verplichte vakken als inleiding privaatrecht, verbintenissenrecht, goederenrecht. Bij die vakken is het voor studenten van belang om kennis te hebben van de belangrijkste arresten, bijvoorbeeld omdat ze baanbrekend zijn, invulling en zin geven aan wettelijke normen en de rechtsontwikkeling vormgeven. Maar zijn het op Nederlandse faculteiten ook allemaal dezelfde arresten die worden voorgeschreven? Nou nee, niet echt. Dat bleek mij althans toen ik onze rechtenfaculteiten vroeg om een overzicht van de voorgeschreven vermogensrechtelijke rechtspraak. Ik doe hier kort verslag van wat ik noemen wil ‘de piramide van de Kazernestraat’. Verderop zal duidelijk worden wat ik daar mee bedoel. Er worden aan acht Nederlandse rechtenfaculteiten in totaal 400 vermogensrechtelijke arresten voorgeschreven. Het gaat overwegend om arresten van de Hoge Raad. Een zeer klein aantal uitspraken van lagere rechters en HvJEU is ook meegenomen in de telling. Laten we eens wat feiten op een rij zetten: acht rechtenfaculteiten schrijven in totaal 400 vermogensrechtelijke arresten voor. De oudste uitspraak is van 1905 en de nieuwste van 2014. Er worden veel nieuwere uitspraken voorgeschreven (mean: 1997).

jaartallen tabel

verdeling in jaartallen van de 400 arresten.

Maar niet alleen de verdeling in jaartallen is scheef. Ook de spreiding qua aantallen ‘citaties’ in het voorgeschreven studiemateriaal is scheef. Van de 400 arresten wordt slechts 36% op meer dan één faculteit tegelijk voorgeschreven. Slechts 50 worden voorgeschreven op vier of meer faculteiten. En de top wordt snel smaller: er zijn slechts 15 arresten die de tand des tijds overleven en op zes of meer faculteiten worden voorgeschreven, slechts vier arresten die op zeven faculteiten en slechts twee arresten die op acht faculteiten voorgeschreven zijn: Kelderluik en Haviltex. De ‘citaties’ zijn dus piramidevormig. Vandaar dus ‘de piramide van de Kazernestraat’. De top van de piramide ziet er als volgt uit (de 30 hoogst genoteerde arresten):

aantal faculteiten dat het arrest voorschrijft naam arrest jaartal
8 HR Kelderluik 1965
8 HR Haviltex 1981
7 HR Jansen/Jansen 2000
7 HR CBB/JPO Projecten 2005
6 HR Baris / Riezenkamp 1957
6 HR Tandarts 1958
6 HR Bunde/Erkens; Misverstand 1976
6 HR Hofland/Hennis 1981
6 HR Dépex/Curatoren van Bergel e.a. 1991
6 HR Portacabin 1997
6 HR Geurtzen/Kampstaal 1999
6 HR Kinheim/Pelders 2000
6 HR Bramer/Hofman 2002
6 HR Oryx/Van Eesteren 2004
6 HR Pensioenfonds DSM/Fox 2004
5 HR Blaauboer/Berlips 1905
5 HR Booy/Wisman 1966
5 HR Pos/Van den Bosch 1967
5 HR Hoogovens/Matex 1979
5 HR Plas/Valburg 1982
5 HR Breda/Antonius 1990
5 HR Van Geest/Nederlof 1990
5 HR Mulder q.q./CLBN 1995
5 HR Mol c.s./Meijer Beheer 2000
5 HR Oerlemans/Driessen 2001
5 HR Taxibus 2002
5 HR Endlich/Bouwmachines 2004
5 HR Jetblast 2004
5 HR Nefalit-Karamus 2006
4 HR Saladin/HBU 1967

Als we ons die 400 arresten voorstellen als een piramide, waarbij de top bestaat uit ‘de meest geciteerde arresten’ – de door acht faculteiten voorgeschreven arresten – en de bodem uit de arresten die slechts door één faculteit worden voorgeschreven, dan kunnen we constateren dat slechts heel weinig arresten de top bereiken. Kennelijk produceert de Hoge Raad als ‘veelschrijver’ slechts enkele uitschieters die veel ‘verwijzingen’ opleveren; het gros wordt slechts door weinigen aangehaald en bereikt niet de top van de piramide. Oudere arresten die niet gesneuveld zijn op de overlevingstafel, maken grotere kans om op meer dan één faculteit te worden voorgeschreven dan jongere arresten (correlatie tussen leeftijd van het arrest en het aantal ‘citerende’ faculteiten; : R = – 0.194, n= 400, p<0.001). Ik zou dat een maat voor impact noemen: de blijvende waarde van een gerijpt arrest. piramide Wat vertelt ons dit nu? Ik noem een tweetal gedachten die bij mij opkomen. Allereerst: we associëren ‘autoriteit’ met anciënniteit: de oude arresten hebben blijvende impact, anders zouden ze niet (meer) voorgeschreven worden. Maar als meting uitwijst dat twee arresten van na 2010 er uit springen omdat zij nu al op vier faculteiten worden voorgeschreven (Lundiform en Intergamma), is dat dan niet ook een maat voor impact? arresten oud en nieuw In de tweede plaats:iedereen die iets weet van vermogensrecht zal begrijpen waarom Kelderluik en Haviltex zo belangrijk worden gevonden. De meting levert in dat opzicht dus een evidentie op. Maar misschien is de meting juist belangrijker om objectief inzichtelijk te maken dat arresten X, Y en Z niet door iedereen belangrijk worden gevonden. Sterker nog: elke faculteit heeft eigen ‘favorieten’. Er bestaat geen ‘landelijk overleg’ voor het voorschrijven van arresten en het bestaan van de top-tien van meest voorgeschreven arresten duidt dus op een kleine kern van gedeelde motieven voor het voorschrijven. Maar voor het merendeel van de gevallen hanteren we als docenten vanuit onze eigen ervaring en voorkeuren een eigen ‘beleid’ om arresten wel of niet voor te schrijven. En laten we wel wezen: één verwijzing is geen verwijzing…


 Verwijzingen

  • Nadere literatuur: W.H. van Boom, ‘Door meten tot weten’ – over rechtswetenschap als kruispunt, oratie Leiden 2015 (te verschijnen bij BJu)
  • Met dank aan de verschillende rechtenfaculteiten voor het verstrekken van de informatie en aan Janna Vermolen voor dataverwerking

Privaatrecht in het laboratorium

Onderzoek naar de praktische werking van privaatrecht kan bijdragen aan onze kennis over de rechtswerkelijkheid en is nuttig om veronderstellingen van beleidsmakers, rechters en academici op houdbaarheid te toetsen. Een van de manieren om de sociale werkelijkheid te bestuderen, is rechtspsychologisch experimenteel onderzoek. Kan dergelijk onderzoek ook een bijdrage leveren aan de bestudering van ons privaatrecht? Die vraag staat centraal een recent verschenen boek onder de titel ‘Privaatrecht in het laboratorium’.

In het boek komen onderzoeksvragen aan de orde als: accepteren slachtoffers eerder een schikkingsvoorstel als dit met excuses gepaard gaat? Vertekent juridisch irrelevante informatie het beslissingsproces van rechters? Zijn juristen anders als het gaat om tekstinterpretatie? Is de dreiging van aansprakelijkheid net zo afschrikwekkend als die van strafrecht? Leiden begrijpelijkere contractvoorwaarden tot andere beslissingen? In dit boek worden antwoorden gezocht op deze en andere vragen. Dat gebeurt door middel van rechtspsychologisch experimenteel onderzoek. De auteurs voerden allen zelf een experimenteel onderzoek uit. Zij plaatsen de experimentele bevindingen in een juridisch kader en reflecteren op de bruikbaarheid van experimenten voor de ontwikkeling van het privaatrecht.

Daarmee toont dit boek, dat ik samenstelde samen met twee Rotterdamse (rechts)psychologen, Pieter Desmet en Chris Reinders Folmer, een belangrijk nieuw perspectief op het Nederlandse privaatrecht.

Privaatrecht in het laboratorium

Waarom zou men een boek als dit willen maken? Waarom zou men in het kader van privaatrechtelijk onderzoek door middel van psychologische experimenten willen achterhalen hoe individuen denken, redeneren, beslissen en zich bepaald gedrag voornemen? Wat ons betreft is het antwoord simpel: willen we uitspraken kunnen doen over de werking van bestaande regels en de te verwachten werking van nieuwe rechtsregels, dan moet de rechtswerkelijkheid in kaart worden gebracht. Daarbij is empirisch onderzoek nodig. Zo kan experimenteel onderzoek licht werpen op de vraag of individuen eerder bereid zijn om schikkingsvoorstellen te accepteren als deze gepaard gaan met verontschuldigingen. Het kan kennis opleveren over de invloed van een manier van formuleren van algemene voorwaarden op hoe consumenten de voorwaarden interpreteren. Of het kan kennis opleveren over de vraag of bestaande rechtsregels beter aansluiten bij het rechtsgevoel van burgers dan een alternatieve regel. Zo kunnen we tal van andere voorbeelden noemen. De kennis die dit type onderzoek oplevert, kan beleidsrelevantie hebben. Een regel die blijkt niet te werken, anders te werken of met onbedoelde bijwerkingen te werken, verdient het wellicht om aangepast of vervangen te worden. Die beleidskeuze wordt op die manier een beter geïnformeerde keuze. Dus als men als jurist kennis wil vergaren over de houdbaarheid van beleidstheorieën, de onderliggende veronderstellingen ten aanzien van gedrag of de mogelijke werking van privaatrechtelijke regels in de praktijk, dan dient men kennis te nemen van hetgeen empirisch onderzoek op die punten te bieden heeft. Binnen de empirische methode is het psychologisch experiment een van de gereedschappen die gebruikt kunnen worden om deze kennis te genereren en om zo een bijdrage te leveren aan verdere verbetering en doelbereiking van het recht.

Wat betreft het hoe van dit boek kunnen we het beste de bijdragen laten spreken. Leest men die, dan krijgt men een beeld van wat de experimentele benadering wel en niet vermag. De acht bijdragen zijn ondergebracht in vier thema’s: de beïnvloeding van rechterlijke beslissingen, de determinanten van actiebereidheid, rechtscultuur en morele waarden, en ten slotte verontschuldigingen, rechtssysteem en schikkingsgedrag.

Bij lezing van de bijdragen valt op dat het voorkomt dat een geformuleerde hypothese niet bevestigd kon worden – en dus verworpen moet worden totdat ander onderzoek de hypothese wel weet te bevestigen. Soms wordt in het onderzoek dat in dit boek wordt gerapporteerd, een hypothese níet bevestigd die in ander onderzoek juist wél werd bevestigd. Dan rijst natuurlijk de vraag wat dat verschil verklaart. Soms kan dat het verschil in aantal proefpersonen zijn; het kan bijvoorbeeld gebeuren dat kleine verschillen in gemiddelden opeens streatmentignificant worden als het aantal proefpersonen groter is. Bij sommige experimenten in dit boek wordt echter zo dicht tegen bestaand onderzoek aangeschoven, dat factoren zoals een verschillend aantal proefpersonen geen verklaring bieden. Dan moeten alternatieve verklaringen gezocht worden, en onze auteurs doen dat ook. Mogelijkerwijs ligt de verklaring in bepaalde gevallen in een aangescherpte formulering of een iets andere presentatie. Wellicht is in andere gevallen het cultuurverschil tussen Amerikanen en Nederlanders – daar waar het oorspronkelijke onderzoek Amerikaanse proefpersonen betreft – een verklarende factor. En ten slotte is ook denkbaar dat de studies in dit boek ook daadwerkelijk de uitkomsten van die eerdere studies in twijfel trekken.

Als wij de bijdragen aan dit boek overzien, moeten wij uiteraard vooropstellen dat dit type onderzoek veel beperkingen kent. De auteurs identificeren die beperkingen overigens ook zelf in hun hoofdstukken. De beperkingen betreffen bijvoorbeeld externe validiteit – de mate waarin de gevonden resultaten ook gelden buiten de ‘laboratoriumsetting’. Als in de echte wereld bijvoorbeeld een beslissing door veel andere factoren wordt beïnvloed dan die welke in het experiment onderzocht zijn, is de praktische waarde van het experiment beperkter dan wanneer het experiment geheel natuurgetrouw in het veld is uitgevoerd. In het verlengde daarvan kan als beperking worden genoemd dat men door middel van vragenlijsten geen gedrag kan meten, maar hooguit intenties tot gedrag. Daar komt bij dat sommige van de bijdragen aan dit boek aanleiding geven om te reflecteren op de grenzen van experimenteel psychologisch onderzoek. Men kan proefpersonen vragen hoe zij zich bejegend voelen en op dat punt verschil meten, maar of dat verschil in bejegening ook effect heeft op de vraag of zij juridische actie ondernemen hangt vermoedelijk af van de sterkte van dat effect in verhouding tot andere overwegingen. Met andere woorden: men kan zich honds behandeld voelen, maar als procederen te kostbaar is in termen van tijd en geld, zal de hondse behandeling geen noemenswaardige invloed hebben op de beslissing om al dan niet actie te ondernemen.

De hoofdstukken in dit boek zijn dus geen kant-en-klare beleidsadviezen. Maar dat betekent zeker niet dat (praktijk)juristen zich kunnen veroorloven om dit type onderzoek te negeren. Experimenteel onderzoek zoals in dit boek wordt gerapporteerd, is namelijk een bouwsteen voor een onderzoekslijn die als geheel wel degelijk beleidsrelevantie kan hebben. Als immers door combinatie van experimenteel onderzoek en veldonderzoek, waarbij onder verschillende omstandigheden hetzelfde fenomeen aan onderzoek is onderworpen, een consistente lijn van bevindingen gevonden wordt, dan dringt beleidsrelevantie zich op enig moment namelijk wél op. Daarmee levert dit boek een bijdrage aan zowel het juridisch discours over de empirische bestudering van het privaatrecht als aan het wetenschappelijke debat over uitdagingen en de beperkingen van dat type onderzoek, en bovendien levert het bouwstenen voor privaatrechtsbeleid.

Verwijzingen:

Voor nadere uiteenzetting van het nut en de beperkingen van empirisch onderzoek in het privaatrecht, zie bijvoorbeeld: