Hardnekkige kwesties – Een onvolledig overzicht

In ‘Een korte tijdlijn van beleidsevaluatie in Nederland’, elders op deze website, is duidelijk geworden dat beleidsevaluatie sinds begin van de jaren zeventig een krachtige ontwikkeling heeft doorgemaakt en niet meer is weg te denken uit het openbaar bestuur. Ontwikkelingen buiten Nederland zijn vergelijkbaar. Dat zou kunnen leiden tot tevredenheid bij evaluatoren en andere pleitbezorgers van de evaluatiefunctie. Maar in tal van publicaties – van evaluatoren over vooral de ex post evaluatie – overheerst een zorgelijke toon. Leeuw (2009) noemt een aantal in de literatuur gebruikte krachtige kwalificaties over de sterke groei van evaluatie: ‘evaluation machines’, ‘death by evaluation’, ‘evaluitis’, ‘performance paradox’. Voor de duidelijkheid: deze kwalificaties gaan niet alleen over evaluatie maar ook over auditing, inspectie en dergelijke. Ook in veel Nederlandstalige meta-literatuur over (beleids)evaluatie – waarop wij op een later tijdstip uitgebreider ingaan – komt een wat tobberig beeld naar voren. In Justitiële Verkenningen 2005, 8 (Klein Haarhuis e.a. 2005) wordt gesproken over ‘… het tegenstrijdige fenomeen dat evaluaties een bescheiden rol spelen in het beleidsproces’. Een en ander is als volgt samengevat: ‘The overall situation we face is, therefore, characterised by a booming business in evaluation and look-alike activities on the one hand and on the other the danger, if not the beginnings of diminishing returns of these activities’ (Leeuw 2009).

In de evaluatiekunde en -praktijk worden verscheidene hardnekkige kwesties onderkend, te groeperen in drie categorieën: het ‘teveel’ aan evaluatie, tekortkomingen in de kwaliteit van evaluaties en onvoldoende benutting van evaluatieresultaten.

Het ‘teveel’

Er wordt zo veel geëvalueerd (hier bedoeld met inbegrip van auditing en dergelijke) dat het in de ogen van tal van auteurs te veel is geworden. Omdat dit teveel leidt tot ongewenste neveneffecten. Veel kritieken zijn geleverd op de golf van prestatiemetingen die leiden tot pervers gedrag, namelijk gedrag waarbij organisaties inzetten op het behalen van de prestaties, waarbij het bredere doel van de organisatie uit het oog verloren wordt. Evaluatie en auditing hebben dan een verlammend effect op missie, ambitie en functioneren van de organisatie.
En een signaal van een heel ander type: in de VBTB evaluatie in 2004 is geconcludeerd dat de vijfjaarlijkse evaluatiecyclus leidde tot nogal wat nutteloze evaluaties. In dit verband is er regelmatig op gewezen dat de politiek te snel om evaluatie vraagt, te snel na de start van nieuw beleid. Voor nieuw beleid is tijd nodig om tot uitvoering en vervolgens tot resultaten te komen; een evaluatie die te vroeg plaatsvindt, kan een zinloze evaluatie zijn.

De kwaliteit

De kwaliteit van evaluaties is in het algemeen onvoldoende. Dit werken we uit onder drie noemers: geloofwaardigheid, technische kwaliteit, causaliteit en outcome.

Geloofwaardigheid
In 2004 werd in het kader van de VBTB-evaluatie geconstateerd dat de effecten van beleid meestal niet goed worden ingeschat (beperkte validiteit en betrouwbaarheid van evaluaties), dat de rapportages van onvoldoende kwaliteit zijn en dat de onafhankelijkheid van evaluaties onvoldoende is gewaarborgd. Hoorens en Oortwijn (2005) benadrukken vooral dat laatste punt en stellen dat de geloofwaardigheid van evaluaties te kort schiet; zij beschouwen dit als het kernprobleem. De geloofwaardigheid schiet tekort omdat de objectiviteit van beleidsevaluaties in het geding is. Er kan in de praktijk van beleidsevaluatie sprake zijn van selectiviteit in de opdrachtformulering (door het beleid) van de evaluatie, van relatieve beslotenheid van de procesgang en van het selectief gebruik door het beleid van evaluatieresultaten. Deze factoren leiden ertoe dat voor niet-ingewijden niet navolgbaar is hoe uitkomsten van evaluaties tot stand komen; dit leidt tot twijfel over de robuustheid van resultaten en daarmee tot twijfel over de geloofwaardigheid.
In dit verband kan ook het eerdere pleidooi aangehaald worden om ervoor te zorgen dat evaluatieresultaten niet alleen beschikbaar zijn voor professionals en managers in beleid en uitvoering, maar zeker ook voor degene op wie het beleid betrekking heeft (Leeuw 2000).

Technische kwaliteit
De technische kwaliteit van evaluaties schiet tekort, zoals bleek uit de hier boven aangehaalde VBTB-evaluatie: er zijn hardnekkige kwesties inzake validiteit en betrouwbaarheid en evaluatierapporten zijn vaak onvoldoende van kwaliteit. In het voorwoord van Justitiële Verkenningen 2005, 8 (Klein Haarhuis e.a. 2005) wordt het als volgt geformuleerd: ‘Ook schiet de methodische kwaliteit nogal eens tekort, bijvoorbeeld het feit dat een experimenteel design weinig toepassing vindt. En de relatie tussen beleidsmaatregelen en effecten wordt vaak niet opgehelderd.’
Een onderdeel hiervan is ook dat belangrijke basisinformatie lang niet altijd beschikbaar is: systematische en tijdige monitoring van (basis)gegevens ontbreekt nogal eens.

Causaliteit
In evaluaties is vaak de kern van opgave om uit te vinden of en hoe beleid daadwerkelijk invloed heeft gehad op datgene wat het beleid met de interventie wilde bereiken. Doorgaans kan nog wel gemeten worden of de beoogde resultaten zijn bereikt, maar veel lastiger is om te verklaren hoe de gemeten resultaten tot stand zijn gekomen, en welke rol het beleid hierin heeft gespeeld. Immers, het kan ook zijn dat heel andere factoren en processen dan het beleid(mede) hebben gezorgd voor wat bereikt is. Het is feitelijk onmogelijk om in complexe situaties te analyseren wat het beleid precies heeft bijgedragen, maar doorgaans is het wel mogelijk om ‘dicht in de buurt’ te komen, dat wil zeggen tot beleidsmatig bruikbare inzichten te komen.

Rond het thema causaliteit spelen zich in de internationale evaluatiekundige literatuur al decennialang debatten af over de merites van verschillende onderzoekmethoden, bijvoorbeeld het debat over kwantitatief versus kwalitatief onderzoek (waarbij met kwantitatief bedoeld wordt de (quasi-)experimentele benadering). Enerzijds heeft het inzicht veld gewonnen dat tussen methoden niet goed een hiërarchie in kwaliteit aangebracht kan worden en dat iedere methode zijn eigen kracht heeft, en (dus) dat toepassing van een mix van methoden de voorkeur heeft. Anderzijds blijven methodische discussies gaande. Deze meningsverschillen kunnen hoog oplopen; Leeuw (2009) spreekt dan ook over paradigma-oorlogen, die negatief zijn voor de reputatie van evaluatie.
Een aspect van deze debatten is ook de rol van de evaluator. Er bestaan grote verschillen van inzicht over de rol van de evaluator. De twee tegenpolen zijn deze. Aan de ene kant wordt de onafhankelijkheid van de evaluator benadrukt die inhoudt dat deze zelf de beoordelingscriteria opstelt en toepast. Aan de andere kant is er de opvatting dat de oordeelsvorming berust bij diegenen die de effecten van beleid ondergaan; daarin is de evaluator (niet meer dan) een facilitator in een evaluatieproces.

Outcome
Een laatste element van tekortkomingen in de kwaliteit van evaluaties is dat te veel nadruk gelegd wordt op proces en output en te weinig op outcome, dat wil zeggen de daadwerkelijke maatschappelijke effecten van beleid. Er zijn verscheidene omstandigheden die dit in de hand werken. Zo is de vraag of opdrachtgevers altijd geïnteresseerd zijn in maatschappelijke effecten. Dit geldt voor verantwoordelijke ambtenaren, dit geldt voor politiek verantwoordelijken. Niet altijd wordt – via evaluatie – de confrontatie met de werkelijkheid opgezocht. Zo is de bepaling van de outcome van beleid vaak lastig omdat, naast het beleid, ook tal van maatschappelijke krachten werkzaam zijn en het object van beleid beïnvloeden; de precieze bijdrage van het beleid kan daarmee vaak niet nauwkeurig op worden gespoord (zie ook boven onder causaliteit). En zo bieden vaak de randvoorwaarden niet de ruimte voor de zoektocht naar de outcome: basisinformatie en tijd en geld voor evaluatie.

De randvoorwaarden

Om tot een goede ex post beleidsevaluatie te komen, dient vanuit het beleid aan enkele randvoorwaarden voldaan te zijn. Aan twee daarvan wordt vaak niet voldaan; dit bemoeilijkt vaak het opstellen van een goede evaluatie.
In de eerste plaats – reeds genoemd – betreft het de basisgegevens. Een hardnekkige kwestie is dat er veelal gebrek is aan (historische) basisgegevens. Voor het meten van effecten van beleid moet bekend zijn hoe de te evalueren situatie was voordat het beleid van start ging. Het verschil met de situatie ten tijde van de evaluatie is een kerngegeven voor de evaluatie (doelbereik).
In de tweede plaats betreft het de beleidsdoelen. Een repeterende klacht van evaluatoren is die van de onduidelijkheid in het beleid over de te evalueren beleidsdoelen. Om te kunnen evalueren of doelen bereikt zijn (en waarom wel/niet), is duidelijkheid in het beleid nodig: doelbereik en doeltreffendheid kunnen alleen onderzocht worden als duidelijk is welke de doelen waren. Doorgaans ontbreken die (zie ook de VBTB-evaluatie 2004). Zodat evaluatoren genoodzaakt zijn om zelf een reconstructie te maken van wat met het beleid beoogd werd of zou kunnen zijn.
Dus aan twee voorname randvoorwaarden wordt niet voldaan; dit staat tot op zekere hoogte het uitvoeren van goede evaluaties in de weg.

Het gebruik

Keer op keer blijkt dat het gebruik van evaluatieresultaten te wensen overlaat. In het voorwoord van Justitiële Verkenningen 2005, 8 (Klei Haarhuis e.a. 2005) werd opgemerkt dat ‘.. evaluaties een bescheiden rol spelen in het beleidsproces. Dit heeft te maken met de soms gebrekkige kwaliteit van evaluaties, de soms ongelukkige timing, en ‘.. de kloof tussen onderzoekers enerzijds en beleidsambtenaren en politici anderzijds, botsende denkwerelden, logica’s, belangen en loyaliteiten.’

We noemen twee verschijningsvormen.

> Het kan zijn dat opdrachtgevers selectief (dat wil zeggen: alleen welgevallige) informatie naar buiten brengen, zoals bleek uit het rapport van de Commissie Duijvestein over grote infrastructurele projecten (selectieve informatievoorziening aan de Tweede Kamer). In de woorden van Van Hoesel (2008): ‘Beleidsmakers hebben de neiging vooral de welgevallige resultaten te willen absorberen en tegelijkertijd de minder welgevallige resultaten te negeren of zelfs te ontkrachten.’ Dit raakt aan het eerder genoemde punt van de geloofwaardigheid. Vanuit het beleid kan gestuurd worden – en wordt meer dan eens gestuurd – op vraagstelling, reikwijdte, conclusies en verspreiding van evaluaties. De onafhankelijkheid en objectiviteit – voorwaarden voor geloofwaardigheid – staan op de tocht.

> Beleidsevaluatie wordt vaak ingezet als managementinformatie, informatie aan de hand waarvan managers organisatie- en implementatieprocessen bijsturen. Tegenover evaluatie als managementinformatie staat evaluatie die inhoudelijke verklaringen levert voor de resultaten van beleid, de inhoudelijke redenen waarom beleidsinstrumenten wel of niet succesvol waren. Resultaten van beleid gaan altijd over – veranderend of te veranderen – gedrag van mensen en organisaties. Evaluaties kunnen alleen tot dergelijke verklaringen komen wanneer er aansluiting is met theoretisch kennis over gedrag van mensen en organisaties in de sociale en economische wetenschappen; deze verbinding ontbreekt nu nagenoeg geheel.
Deze inperking van – de praktische uitoefening van de – beleidsevaluatie leidt tot uitkomsten met wat betreft de reikwijdte beperkte bruikbaarheid. (Zie ook Leeuw 2002 en 2009).

Enkele bronnen

A. Crabbé en P. Leroy (2008), The Handbook of Environmental Policy Evaluation. London and Sterling, VA: Earthscan.

Evaluatie VBTB (2004). Brief van de minister van Financiën. TK 2004-2005, 29949, 1

P.H.M. v. Hoesel (2008), Een nieuw paradigma voor beleidsonderzoek? Beleidsonderzoek als brug tussen burger en overheid. Basis 2008, 3

S. Hoorens en W. Oortwijn (2005), Richting een beleidsevaluatie cultuur in Nederland. Identificatie van knelpunten en oplossingrichtingen. Leiden: RAND

C. Klein Haarhuis e.a. (2005), Voorwoord. Justitiële Verkenningen 2005, 8

F. L. Leeuw (2000), Evaluatieonderzoek, auditing en controle in Nederland anno 2000. In: T. Abma en R. in ‘t Veld, Handboek beleidswetenschap. Perspectieven / Thema’s / Praktijkvoorbeelden. Amsterdam: Boom.

F.L. Leeuw (2002), Evaluation in Europe 2000. Challenges to a Growth Industry. Evaluation, 8, 1, pp. 5–12

F.L. Leeuw (2009), Evaluation: a booming business but is it adding value? Evaluation Journal of Australasia, 9,1, pp. 3-9