Nicht-experimentelle Ergebnisevaluation&quasi-experimentelle Evaluationsdesigns Flashcards
Designs mit einer Gruppe - ein Beobachtungszeitpunkt
Nur Posttest nach einer Maßnahme
Fragestellung: zeigen Teilnehmer nach dem Programm eine Leistung, die zu impliziten oder expliziten Erwartungen an das Programm passt? z.B. werden Straftäter rückfällig oder nicht?
Evaluator weiß aber nicht, ob Teilnehmer sich verbessert haben
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
Designs mit einer Gruppe - zwei Beobachtungszeitpunkte
Prätest & Posttest
Verbesserung lässt sich nicht kausal dem Programm zuordnen (während des Trainins heißt nicht aufgrund des Trainings -> keine Kausalitätsannahme)
eingeschränkte interne Validität
Möglich z.B. selektiver Dropout (nur die Motivierten bleiben im Programm) und dadurch Verbesserung
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?
Welchen Sinn haben Designs mit nur einer Gruppe?
Beantwortung folgender Fragen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?
Posttest-Designs beantworten 1+2
Prä-Posttest-Designs beantworten 1+2+3
Evaluation muss nicht dieselben Fragen beantworten wie Forschung
Wenn Programme günstig & nicht schädlich für die Teilnehmer sind, muss keine super komplizierte Evaluation gemacht werden
Verwendung des Prätest-Posttest-Designs -Haben sich die Programmteilnehmer verändert?
Gab es überhaupt Veränderungen in die erhoffte Richtung
Z.B. weniger alkoholisiertes Autofahren nach Aufklärungsprogrammen
Naive Idee: Statistische Signifikanz zwischen Prä- & Posttest bedeutet, dass das Programm eine Wirkung zeigt
NEIN, es sagt nichts über Kausalität der Veränderungen
Naive Idee 2: Wenn es nicht signifikant ist heißt, dass es keine Veränderung gab
NEIN, kann auch an kleiner Stichprobe und unreliablen Instrumenten liegen
Verwendung des Prätest-Posttest-Designs - Haben sich die Programmteilnehmer GENUG verändert?
Selbst wenn Signifikanz besteht, so besteht trotzdem noch die Frage, ob der Effekt groß genug ist, dass es für die Teilnehmer einen wirklichen Unterschied im Alltag macht
Evaluatoren sollten sensibel gegenüber bedeutungsvollen Veränderungen sein und nicht nur gegenüber statistischer Signifikanz -> Praktische Relevanz
Schwer zu beantworten, ab wann praktische Relevanz besteht
Man könnte z.B. Kosten-Nutzen-Kalkulationen machen
Verwendung des Prätest-Posttest-Designs - Veränderungen im Zusammenhang mit Programmaufwand & Teilnehmer-Eigenschaften
Programmaufwand
Neben der Beobachtung der allgemeinen Veränderung bei den Teilnehmer (s.o.), kann man die Veränderung auch in Relation zu der erhaltenen Leistung beziehen
Z.B. Zustand eines Patienten in Relation zu Behandlungsaufwand
Teilnehmer Eigenschaften
Man kann die Veränderung in Relation zu Eigenschaften der Teilnehmer setzen
Z.B. Frauen vs. Männer; Altersgruppen etc.
Stellen sich bestimmte Eigenschaften als relevant heraus, sollten sie in zukünftige Studien einbezogen werden
Statistische Herangehensweise
Idee: (Posttestwert – Prätestwert) = Veränderungsscore mit Alter usw. korrelieren
sollte man nicht machen. Um zu verstehen warum bräuchte man fundiertere statistische Kenntnisse, als dem Leser zugetraut wird (das steht da wirklich :D) Im Prinzip ist es bei Leuten, die im Prätest schlecht sind wahrscheinlicher sich zu verbessern als für Leute, die von Anfang an gut sind
Besser: Residualisierte Veränderungsscores
1. Schritt: Regression Prätestwert=Prädiktor ; Posttestwert=Kriterium
Für jeden Teilnehmer wird der erwartete Posttestwert vorhergesagt dann wird geguckt wie weit dieser Wert vom tatsächlichen Posttestwert abweicht (Residuale Veränderung)
2. Schritt: Regression Prätestwert=Prädiktor , Anzahl Behandlungseinheiten=Kriterium
Für jeden Teilnehmer wird die erwartete Anzahl an Behandlungseinheiten vorhergesagt dann wird geguckt wie weit dieser Wert von der tatsächlichen Anzahl abweicht (Residuale Anzahl Behandlungseinheiten)
3. Schritt: Korrelation(Residuale Veränderung / Residuale Anzahl Behandlungseinheiten)
Beispiel 0.72 die Teilnehmer, die mehr Behandlungseinheiten hatten haben sich auch mehr verbessert, unabhängig von ihrem Prätestwert
Anmerkungen: Interne Validität
3.4 Interaktion der Gefahren für die interne Validität
Selektion durch Reifungs-Interaktion: z.B. Eltern die nach Fördermöglichkeiten für ihre Kinder suchen (Selektion), könnten Kinder haben, die sich eh schon schneller entwickeln als andere Kinder (Reifung)
3.5 Gefahren für die interne Validität sind zweischneidige Schwerter
Evaluator sollte prüfen, ob der signifikante Effekt des Programms an den Gefahren für die interne Validität liegen könnte ( Programm ist eigentlich gar nicht effektiv) Es könnte aber auch ein nicht signifikanter Effekt trotz reliabler Messung und großer Stichprobe heißen, dass das Programm eigentlich effektiv ist und dieser Effekt durch die Gefahren für die interne Validität verschleiert wird.
Wie kann man Bedrohungen der Konstruktvalidität minimieren?
(1) Zwischen Information zur Programmevaluation und Information zu Behandlungsentscheidungen unterscheiden
(2) Teilnehmern klar machen, dass das was sie sagen irgendwie validiert wird
(3) Interviewer sollten Erfahrung mit dem Programm und den Problemen der Teilnehmer haben
(4) Wenn sich Teilnehmer selbst einschätzen sollen, explizit eine Referenzgruppe mit angeben
(5) Verhaltens-Ankerpunkte z.B. „Ich bin so depressiv, dass ich nichts mehr schaffe“ statt „Ich bin sehr depressiv“
(6) (Manche sagen, man sollte Prätestinfos lieber retrospektiv erfragen)
Überinterpretation der Ergebnisse von Designs mit einer Gruppe
Signifikanzfischen -> nach Signifikanzen zwischen Programm und allen möglichen Teilnehmereigenschaften suchen
Mit Kreativität kann man jedes Ergebnis irgendwie theoretisch begründen
Evaluation wird selten repliziert Aussagekraft eines einzelnen Ergebnisses möglicherweise nicht so groß
-> Ergebnisse immer vorsichtig interpretieren
Nützlichkeit von Designs mit einer Gruppe
Sie sind günstiger und einfacher durchzuführen
Verwendung
(1) Beurteilung des Nutzens einer komplexeren Evaluation
(2) Variablen finden, denen der Erfolg des Programms zugeschrieben werden kann
(3) Um den Weg für aufwendigere Evaluationsdesigns zu ebnen (die Durchführer des Programms auf komplexere Evaluation vorbereiten)
6.1 Überprüfung ob sich weitere Evaluation lohnt
Wenn sich gar keine Verbesserung/ der erwünschte Effekt im Ein-Gruppen-Design zeigt ist das Programm wahrscheinlich eh Müll und man muss keine aufwendige Evaluation machen
Wenn doch kann man mit dem Ein-Gruppen-Design beim Auftraggeber vielleicht schon den Weg für weitere Evaluation ebnen
6.2 Verbesserung in Korrelation mit anderen Variablen
Z.B. Anzahl der Behandlungseinheiten oder Eigenschaften der Teilnehmer
Wenn nur Personen profitieren, die vorher schon ganz gut waren ist das Programm eh Müll
Wenn unterschiedliche Personen profitieren könnte man weitere Evaluation machen
6.3 Weg für weitere Evaluation ebnen
Beginn mit Ein-Gruppen-Design könnte Akzeptanz von Evaluation bei Teilnehmern erhöhen, so dass man danach noch mehr machen kann
Ein-Gruppen-Designs sind für die meisten Menschen am wenigsten „einschüchternd“
Auftraggeber lassen ihre Institution nicht unbedingt gerne mit anderen Institutionen vergleichen, ebenso wenig Teilnehmer
Wie kann man die Validität von Evaluationsstudien erhöhen? (Um kausale Beziehungen zu demonstrieren und Alternativerklärungen auszuschließen)
1) Anzahl der Messzeitpunkte
Beobachtung von Teilnehmer zu zusätzlichen Zeitpunkten vor und nach dem Programm
2) Vergleichsgruppe
Beobachten von zusätzlichen Personen, die das Programm nicht erhalten haben
3) Untersuchung anderer Variablen
Verwenden von verschiedene Variablen, von denen von einigen angenommen werden kann, dass sie durch das Programm beeinflusst werden und von einigen, dass sie durch das Programm nicht beeinflusst werden
Time-series-Design (Zeitreihendesign)
Verwendung vieler Informationen über eine Reihe von Zeitintervallen
Anliegen von Programm Evaluatoren: Stabile base-line Messungen vor einer Intervention und die Dokumentation von sowohl Veränderungen als auch ihrer Stabilität
Sowohl in Verhaltensanalyse als auch in Ökonomie: Untersucher erhält eine Beobachtung/einen Wert für jede Variable für jedes Zeitintervall
Informationen über lange Zeit sammeln verbessert interne Validität
(Mindest)Bestandteile einer Time-Series Untersuchung:
- Festlegen einer Einzel-Einheit
- eine Vielzahl von Beobachtungen wird gemacht
- über eine Anzahl von Zeitintervallen
- die einer kontrollierten oder natürlichen Intervention vorausgehen oder folgen
Interrupted Time Series (Unterbrochene Zeitserie):
Eine bestimmte Intervention tritt zu einem bestimmten Zeitpunkt auf. Der Evaluator untersucht, ob diese Unterbrechung eine Einfluss hat
Fragestellung:
Haben Reifung und Geschichte einen Einfluss auf die AV?
Nichtäquivalente Kontrollgruppendesigns
Verbesserte Interpretierbarkeit von Evaluation durch Vergrößerung der Anzahl an Gruppen, die beobachtet werden
Pretest-Posttest Design mit weiterer Gruppe (Vergleichsgruppe), die keine Intervention erhält (aber ansonsten den gleichen Bedingungen ausgesetzt ist) = Nichtäquivalente Kontrollgruppen Design
Größter Schwachpunkt eines Nichtequivalente Kontrollgruppen-Designs: Auswahl einer Vergleichsgruppe, die nicht ausreichend ähnlich zu der Programm-Gruppe (=Experimentalgruppe) ist, um valide Interpretationen treffen zu können (z.B. Die die sich aussuchen, am Programm teilzunehmen, Reifen schneller als die in der Kontrollgruppe –> Super-Eltern die ihre Super-Kinder super fördern wollen, und weil es Super-Kinder sind bekommen die sowieso schon viel mehr Aufmerksamkeit zuhause als Normalo-Kinder)
Lösung: Matchen von Kontrollgruppe und Experimentalgruppe (gleiche/ähnliche Werte in bestimmten Variablen) –> Gut für Auswahl von Vergleichsgruppen, aber nicht für deren Bildung (sollte zufällig erfolgen)
Fazit: Nichtäquivalente Kontrollgruppen-Designs sind besonders anfällig für Regressions-Effekte, wenn die Gruppen sich systematisch in einigen Dimensionen unterscheiden
Aber auch viele preexisting Unterschiede haben Einfluss auf die Vergleichbarkeit von Kontrollgruppe und Experimentallgruppe in ihren Pretest-Scores (z.B. Vergleich zweier Klassen: Ist eine Unterrichtsmethode erfolgreicher? In Kontrollgruppe könnte die Lehrerin früher bereits Elemente dieser Methode benutzt haben)