Evaluierung

Zuverlässige Wirkungsbelege

Die Entwicklungspolitik steht in der Kritik, weil sie nur wenige durchschlagende Erfolge vorweisen kann. Zwar wäre es unfair, alle Übel dieser Welt nur diesem Politikfeld anzulasten und Fragen der Handels-, Sicherheits- oder Technologiepolitik außen vor zu lassen. Allerdings muss sich die Entwicklungspolitik der Tatsache stellen, dass sie bisher ihr eigenes Wirken nicht hinreichend systematisch und kritisch untersucht hat.

[ Von Jörg Faust ]

von Jörg Faust

23.12.2008

Die Entwicklungspolitik hat hohe Ansprüche, indem sie etwa strukturelle Beiträge zur Armutsbekämpfung, zur Demokratieförderung oder zur Friedenssicherung verspricht. Ob und in welchem Ausmaß diese Ziele tatsächlich umgesetzt werden, soll Evaluierung zeigen. Dabei sind drei Funktionen zu erfüllen:
– Lernen durch das Erkennen von beabsichtigten und unbeabsichtigten Wirkungen, was allen Akteuren bei der Politikgestaltung hilft,
– Kontrolle im Sinne von Rechenschaftslegung gegenüber Parlamenten, Steuerzahlern und Öffentlichkeit und schließlich
– Legitimation, weil Wirkungsorientierung und Transparenz die Glaubwürdigkeit eines Politikfeldes stärken.

Das Mikro-Makro-Paradoxon

Ein relevanter Strang der Impact-Analyse ist die makroquantitative Forschung. Sie beruht auf ökonometrischen Ländervergleichen (siehe Box 1). Ihre Ergebnisse sind allerdings ernüchternd, denn die Daten zeigen bis zum Beginn der gegenwärtigen Dekade keine statistisch robuste Wirkung höherer Entwicklungsaufwendungen auf Wachstum oder Armutsreduktion.

Zwar legen zahlreiche Projektevaluierungen bilateraler und multilateraler Institutionen nahe, dass die Ergebnisse der allermeisten Maßnahmen zumindest zufriedenstellend sind. Solche Erfolge auf der Mikroebene sind aber offenbar nicht mit gesamtgesellschaftlichen Wirkungen einhergegangen. Folglich ist von einem Mikro-Makro-Paradoxon die Rede.

Wie kann dieser Widerspruch aufgelöst werden? Eine Antwort lautet, dass die Summe der indirekten und nicht-intendierten Wirkungen von Einzelprojekten auf gesamtgesellschaftlicher Ebene die gewünschten Effekte neutralisieren kann. Zwei solcher nicht-intendierter Wirkungskanäle sind bekannt.
– Wenn eine Volkswirtschaft viel öffentliche Entwicklungshilfe (ODA) bekommt, kann der Devisenstrom den Kurs der nationalen Währung in die Höhe treiben. Dadurch werden Importe billiger und Exporte teurer, dies schadet also der internationalen Wettbewerbsfähigkeit des Landes.
– Hohe ODA-Abhängigkeit wirkt oft negativ auf die
Governance-Strukturen eines Landes. Offenbar setzt ODA zumindest partiell Haushaltsmittel frei, die dann der Alimentierung klientelistischer Strukturen dienen können. Statistische Ländervergleiche stützen zudem die Vermutung, dass Geberfragmentierung negative Governance-Effekte verursacht, weil Entwicklungsländern erhebliche Koordinations- und Verwaltungskosten aufgebürdet werden und qualifiziertes Personal vom Staat zu Geberorganisationen abwandert.

Eine andere Erklärung des Mikro-Makro-Rätsels kritisiert die Qualität der Projektevaluierung. Demnach gibt es für den beanspruchten Erfolg der großen Mehrheit der Entwicklungsmaßnahmen nicht ausreichend empirische Evidenz. Zwar wird in der Entwicklungspolitik viel evaluiert, doch existieren viele organisatorisch-institutionelle oder inhaltlich-methodische Schwächen.

Wichtige organisatorisch-institutionelle Kritikpunkte sind:
– Evaluierungsmaßnahmen waren häufig nur unzureichend in den Projektzyklus integriert, anstatt bereits zu Projektbeginn anzusetzen.
– Geber evaluierten zu oft auf eigene Faust. Das erschwerte Lernprozesse zwischen den Gebern und den örtlichen Partnern.
– Evaluierer – ob freiberufliche Gutachter oder festangestellte Fachleute – hängen wirtschaftlich in der Regel von den Geberorganisationen ab. Folglich sind sie ihrer Kontrollfunktion oft nicht vollständig gerecht geworden.

Wichtige inhaltlich-methodische Kritikpunkte sind dagegen:
– Herkömmliche Evaluierungen untersuchten zu wenig die Wirkungen bestimmter Maßnahmen, sondern beschäftigten sich zu stark mit Input und Output.
– Beanstandet wird die häufig mangelhafte Datenerhebung wie etwa das Fehlen von Baseline-Studien zu Projektbeginn, die methodisch saubere Vergleiche erlauben.
– Ein Mangel ist zudem, dass Evaluierungen bisher zu wenig kontrafaktisch arbeiteten. Die Wirkung eines Eingriffs lässt sich aber nur ermitteln, wenn Vergleichswerte dafür vorliegen, was ohne ihn passiert wäre. Einfache Vorher-Nachher-Vergleiche können leicht zu falschen Schlussfolgerungen führen, weil nicht kontrolliert wird, welche anderen Einflussfaktoren eine Rolle gespielt haben.

Sinnvolle Vergleiche

International zeichnet sich ein allmählicher Trend zu rigorosen Methoden der Impactevaluierung ab. Diese betonen statistische und kontrafaktische Elemente, um Kausalzusammenhänge zwischen einer Intervention und potentiellen Wirkungen festzustellen. Als Königsweg solch rigoroser Verfahren gilt vielen das randomisierte Experiment. Dabei werden bereits zu Projektbeginn nach dem Zufallsprinzip Untersuchungsgruppen und Kontrollgruppen bestimmt (siehe Box 2). Die geplante Intervention findet nur bei der Untersuchungsgruppe statt, aber nicht bei der Kontrollgruppe. Entsprechende Verfahren sind in der Medizin oder bei der Beurteilung von sozialpolitischen Maßnahmen in OECD-Ländern üblich.

Zu Beginn und am Ende werden in jeder Gruppe die entwicklungsrelevanten Daten erhoben, sodass sinnvolle Vorher-Nachher-Vergleiche sowie Vergleiche zwischen den Gruppen möglich sind. Wenn die Gruppen zufällig („randomisiert“) ausgewählt werden und groß genug sind, lassen sich die durchschnittlichen Differenzen ihrer Entwicklung unmittelbar auf den Eingriff zurückführen. Wichtig für eine möglichst exakte Messung ist allerdings auch, dass Wechselwirkungen zwischen den Gruppen weitgehend ausgeschlossen werden sollten.

Trotz ihres Potentials werden randomisierte Experimente oft kritisiert. So heißt es, die Einteilung in „bevorzugte“ Interventionsgruppen und „benachteiligte“ Kontrollgruppen sei in der Entwicklungspolitik aus normativen Gründen nicht angemessen. Dem ist entgegenzuhalten, dass in vielen Fällen die ODA-Ressourcen ohnehin nicht für alle Bedürftigen ausreichen, so dass eine Zufallsauswahl zu Evaluierungs- und Lernzwecken durchaus gerechtfertigt sein kann. Ferner sind solche Experimente unproblematisch, wenn sie zu Beginn eines größeren Programms durchgeführt werden, das später ausgeweitet wird. Denn dann können die Lernerfahrungen der Evaluierung in späteren Phasen genutzt werden.

Gegen randomisierte Experimente wird auch angeführt, sie berücksichtigten nicht den Kontext. Diese Kritik ist gerechtfertigt, wenn ein Experiment nicht in eine qualitative Kontextanalyse eingebettet ist. Grundsätzlich sind randomisierte Experimente, was den Kern der Wirkungsmessung angeht, qualitativen Methoden (wie teilnehmender Beobachtung oder narrativen Interviews) überlegen. Sie sind aber nur sinnvoll, wenn noch vor Beginn eine sorgfältige Kontextanalyse stattfindet. Wenn nicht mit qualitativen Mitteln plausible Wirkungsketten erfasst werden, können meist keine stimmigen Indikatoren für die quantitative Untersuchung gewählt werden. Auch sollte nach einem randomisierten Experiment wieder eine kontextspezifische Untersuchung stattfinden, um die spezifischen Gründe der identifizierten Wirkungen zu verstehen.

Oftmals wird zudem angeführt, randomisierte Experimente seien teuer und planungsintensiv. Sicherlich wird aus Kostengründen immer nur eine begrenzte Anzahl von Projekten mit dieser Methode zu evaluieren sein. Andererseits ist solide Evaluierung aber eben auch nicht en passant zu bewerkstelligen.

Positiv ist zudem sicherlich, dass das Verfahren Durchführungsorganisation dazu zwingt, sich bereits vor der Intervention ausführlich mit der Wirkungsanalyse zu beschäftigen. Randomisierte Experimente machen die Wirkungsmessung zum integralen Bestandteil einer Maßnahme. Evaluierung verkommt nicht zur lästigen, isolierten Pflichtübung am Projektende. Schließlich lassen sich randomisierte Experimente schwieriger manipulieren und sind vergleichsweise transparent.

Anzumerken ist allerdings, dass randomisierte Experimente nur für bestimmte Typen von Interventionen taugen. Dieses Instrument greift nicht, wenn etwa im Rahmen von Budgethilfe die Wirkung von Beratungs- und Dialogprozessen auf nationale Reformpolitik untersucht werden soll. Insofern kann mittels randomisierter Experimente „nur“ die Wirkung einmal umgesetzter Reformen auf Kommunen oder Haushalte, nicht aber die Entstehung dieser Reformen beurteilt werden.

Paris, Accra und die Zukunft

Die Aid-Effectiveness Agenda, die 2005 in Paris formuliert und voriges Jahr in Accra fortgeschrieben wurde, fordert mehr Ausrichtung an Resultaten und Wirkungen („Management for Results”) und wechselseitige Rechenschaftspflicht („mutual accountability”). Evaluierung wird folglich für die internationale Entwicklungszusammenarbeit noch wichtiger. Das hat zum Entstehen zweier internationaler Initiativen beigetragen.
– Das Ende 2006 gegründete Network of Networks of Impact Evaluation (NONIE) setzt sich vornehmlich aus Vertretern von Geberorganisationen und wissenschaftlichen Evaluierungsgesellschaften zusammen. Der Institutionalisierungsgrad ist gering, das Sekretariat ist bei der Independent Evaluation Group der Weltbank angesiedelt. Gemeinsames Anliegen ist die Identifikation und Verbreitung anspruchsvoller Methodenstandards. Allerdings herrscht innerhalb des Netzwerks noch ein Methodenstreit zwischen den Anhängern qualitativ-partizipatorischer Methoden und Vertretern streng quantitativer Ansätze.
– 2008 wurde die International Initiative for Impact Evaluation (3IE) gegründet. Diese hat ebenfalls noch Netzwerkcharakter und ging aus einer Initiative des Center for Global Development in Washington hervor. Mitglieder sind neben einigen bilateralen Geberstaaten auch große NROs wie die Gates-Stiftung sowie einige Entwicklungsländer. Die noch im Entstehungsprozess begriffene 3IE ist auf explizit kontrafaktisch orientierte Evaluierungen ausgerichtet und will Wirkungsstudien nach einem wettbewerbsorientierten Antragsprinzip finanzieren. Beabsichtigt ist auch, die Evaluierungskapazitäten von Entwicklungsländern zu stärken.

Daneben gibt es weitere interessante Entwicklungen. Im Zuge stärkerer Geberharmonisierung und Programmorientierung ist ein Trend zu gemeinsamen Evaluierungen durch mehrere Akteure zu beobachten. So sollen Lernerfahrungen erleichtert und die Transaktionskosten für Entwicklungsländer gering gehalten werden.

Allerdings betont die Paris Declaration on Aid Effectiveness bekanntlich die Ownership der Entwicklungsländer. Daraus folgt, dass sie bei der Steuerung und Auswertung von Wirkungsevaluierungen eine nach Möglichkeit wachsende Rolle spielen sollten. Entsprechend ist es wichtig, die Evaluierungskapazitäten der Entwicklungsländer zu stärken. Das versetzt sie langfristig in die Lage, eigene Lern- und Innovationsprozesse zu initiieren sowie Geberinitiativen mit dem notwendigen Maß an empirisch fundierter, konstruktiver Kritik zu begegnen.

Das gängige Instrument des ökonometrischen Ländervergleichs ist die multivariate Regressionsanalyse. Als abhängige Variable werden in der Regel ökonomische und soziale Indikatoren gewählt (Wirtschaftswachstum, Haushaltseinkommen, Kindersterblichkeit et cetera), die für eine möglichst große Zahl von Entwicklungsländern vorliegen. Überprüft wird dann, ob öffentliche Entwicklungshilfe (ODA) oder andere Erklärungsfaktoren die Entwicklung der Zielgrößen signifkant beeinflussen. Zwar ist die Datenlage in vielen Ländern noch immer unbefriedigend. Dennoch bietet der ökonometrische Ländervergleich Vorteile, weil er verschiedene Einflussfaktoren und Ziele erfasst. Statistisch lassen sich Kausalitätsvermutungen gut überprüfen. Die Verfahren sind kontrafaktisch, weil der Vergleich unterschiedlicher Länder es ermöglicht, die Wirkung unterschiedlicher Interventionsniveaus zu schätzen. Die Verfahren sind vergleichsweise transparent, weil sie meist auf öffentlich zugänglichen Daten beruhen. Mit entsprechendem Methodenwissen kann jeder die Ergebnisse prüfen, ergänzen und verbessern.

Ein Nachteil ist aber die Komplexität ökonometrischer Methoden. Sie setzen viel Spezialwissen voraus. Das kann es Fachleuten schwer machen, politischen Entscheidungsträgern ihre Einsichten zu vermitteln.