Nicht-experimentelle Ergebnisevaluation&quasi-experimentelle Evaluationsdesigns Flashcards
Designs mit einer Gruppe - ein Beobachtungszeitpunkt
Nur Posttest nach einer Maßnahme
Fragestellung: zeigen Teilnehmer nach dem Programm eine Leistung, die zu impliziten oder expliziten Erwartungen an das Programm passt? z.B. werden Straftäter rückfällig oder nicht?
Evaluator weiß aber nicht, ob Teilnehmer sich verbessert haben
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
Designs mit einer Gruppe - zwei Beobachtungszeitpunkte
Prätest & Posttest
Verbesserung lässt sich nicht kausal dem Programm zuordnen (während des Trainins heißt nicht aufgrund des Trainings -> keine Kausalitätsannahme)
eingeschränkte interne Validität
Möglich z.B. selektiver Dropout (nur die Motivierten bleiben im Programm) und dadurch Verbesserung
Fragestellungen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?
Welchen Sinn haben Designs mit nur einer Gruppe?
Beantwortung folgender Fragen:
1) Wie ist die Leistungsfähigkeit in Bezug auf die Zielkriterien am Ende des Programms?
2) Wird der Minimalstandard an erwartete Ergebnisse erreicht?
UND
3) Wie sehr haben sich die Teilnehmer während der Teilnahme am Programm verändert?
Posttest-Designs beantworten 1+2
Prä-Posttest-Designs beantworten 1+2+3
Evaluation muss nicht dieselben Fragen beantworten wie Forschung
Wenn Programme günstig & nicht schädlich für die Teilnehmer sind, muss keine super komplizierte Evaluation gemacht werden
Verwendung des Prätest-Posttest-Designs -Haben sich die Programmteilnehmer verändert?
Gab es überhaupt Veränderungen in die erhoffte Richtung
Z.B. weniger alkoholisiertes Autofahren nach Aufklärungsprogrammen
Naive Idee: Statistische Signifikanz zwischen Prä- & Posttest bedeutet, dass das Programm eine Wirkung zeigt
NEIN, es sagt nichts über Kausalität der Veränderungen
Naive Idee 2: Wenn es nicht signifikant ist heißt, dass es keine Veränderung gab
NEIN, kann auch an kleiner Stichprobe und unreliablen Instrumenten liegen
Verwendung des Prätest-Posttest-Designs - Haben sich die Programmteilnehmer GENUG verändert?
Selbst wenn Signifikanz besteht, so besteht trotzdem noch die Frage, ob der Effekt groß genug ist, dass es für die Teilnehmer einen wirklichen Unterschied im Alltag macht
Evaluatoren sollten sensibel gegenüber bedeutungsvollen Veränderungen sein und nicht nur gegenüber statistischer Signifikanz -> Praktische Relevanz
Schwer zu beantworten, ab wann praktische Relevanz besteht
Man könnte z.B. Kosten-Nutzen-Kalkulationen machen
Verwendung des Prätest-Posttest-Designs - Veränderungen im Zusammenhang mit Programmaufwand & Teilnehmer-Eigenschaften
Programmaufwand
Neben der Beobachtung der allgemeinen Veränderung bei den Teilnehmer (s.o.), kann man die Veränderung auch in Relation zu der erhaltenen Leistung beziehen
Z.B. Zustand eines Patienten in Relation zu Behandlungsaufwand
Teilnehmer Eigenschaften
Man kann die Veränderung in Relation zu Eigenschaften der Teilnehmer setzen
Z.B. Frauen vs. Männer; Altersgruppen etc.
Stellen sich bestimmte Eigenschaften als relevant heraus, sollten sie in zukünftige Studien einbezogen werden
Statistische Herangehensweise
Idee: (Posttestwert – Prätestwert) = Veränderungsscore mit Alter usw. korrelieren
sollte man nicht machen. Um zu verstehen warum bräuchte man fundiertere statistische Kenntnisse, als dem Leser zugetraut wird (das steht da wirklich :D) Im Prinzip ist es bei Leuten, die im Prätest schlecht sind wahrscheinlicher sich zu verbessern als für Leute, die von Anfang an gut sind
Besser: Residualisierte Veränderungsscores
1. Schritt: Regression Prätestwert=Prädiktor ; Posttestwert=Kriterium
Für jeden Teilnehmer wird der erwartete Posttestwert vorhergesagt dann wird geguckt wie weit dieser Wert vom tatsächlichen Posttestwert abweicht (Residuale Veränderung)
2. Schritt: Regression Prätestwert=Prädiktor , Anzahl Behandlungseinheiten=Kriterium
Für jeden Teilnehmer wird die erwartete Anzahl an Behandlungseinheiten vorhergesagt dann wird geguckt wie weit dieser Wert von der tatsächlichen Anzahl abweicht (Residuale Anzahl Behandlungseinheiten)
3. Schritt: Korrelation(Residuale Veränderung / Residuale Anzahl Behandlungseinheiten)
Beispiel 0.72 die Teilnehmer, die mehr Behandlungseinheiten hatten haben sich auch mehr verbessert, unabhängig von ihrem Prätestwert
Anmerkungen: Interne Validität
3.4 Interaktion der Gefahren für die interne Validität
Selektion durch Reifungs-Interaktion: z.B. Eltern die nach Fördermöglichkeiten für ihre Kinder suchen (Selektion), könnten Kinder haben, die sich eh schon schneller entwickeln als andere Kinder (Reifung)
3.5 Gefahren für die interne Validität sind zweischneidige Schwerter
Evaluator sollte prüfen, ob der signifikante Effekt des Programms an den Gefahren für die interne Validität liegen könnte ( Programm ist eigentlich gar nicht effektiv) Es könnte aber auch ein nicht signifikanter Effekt trotz reliabler Messung und großer Stichprobe heißen, dass das Programm eigentlich effektiv ist und dieser Effekt durch die Gefahren für die interne Validität verschleiert wird.
Wie kann man Bedrohungen der Konstruktvalidität minimieren?
(1) Zwischen Information zur Programmevaluation und Information zu Behandlungsentscheidungen unterscheiden
(2) Teilnehmern klar machen, dass das was sie sagen irgendwie validiert wird
(3) Interviewer sollten Erfahrung mit dem Programm und den Problemen der Teilnehmer haben
(4) Wenn sich Teilnehmer selbst einschätzen sollen, explizit eine Referenzgruppe mit angeben
(5) Verhaltens-Ankerpunkte z.B. „Ich bin so depressiv, dass ich nichts mehr schaffe“ statt „Ich bin sehr depressiv“
(6) (Manche sagen, man sollte Prätestinfos lieber retrospektiv erfragen)
Überinterpretation der Ergebnisse von Designs mit einer Gruppe
Signifikanzfischen -> nach Signifikanzen zwischen Programm und allen möglichen Teilnehmereigenschaften suchen
Mit Kreativität kann man jedes Ergebnis irgendwie theoretisch begründen
Evaluation wird selten repliziert Aussagekraft eines einzelnen Ergebnisses möglicherweise nicht so groß
-> Ergebnisse immer vorsichtig interpretieren
Nützlichkeit von Designs mit einer Gruppe
Sie sind günstiger und einfacher durchzuführen
Verwendung
(1) Beurteilung des Nutzens einer komplexeren Evaluation
(2) Variablen finden, denen der Erfolg des Programms zugeschrieben werden kann
(3) Um den Weg für aufwendigere Evaluationsdesigns zu ebnen (die Durchführer des Programms auf komplexere Evaluation vorbereiten)
6.1 Überprüfung ob sich weitere Evaluation lohnt
Wenn sich gar keine Verbesserung/ der erwünschte Effekt im Ein-Gruppen-Design zeigt ist das Programm wahrscheinlich eh Müll und man muss keine aufwendige Evaluation machen
Wenn doch kann man mit dem Ein-Gruppen-Design beim Auftraggeber vielleicht schon den Weg für weitere Evaluation ebnen
6.2 Verbesserung in Korrelation mit anderen Variablen
Z.B. Anzahl der Behandlungseinheiten oder Eigenschaften der Teilnehmer
Wenn nur Personen profitieren, die vorher schon ganz gut waren ist das Programm eh Müll
Wenn unterschiedliche Personen profitieren könnte man weitere Evaluation machen
6.3 Weg für weitere Evaluation ebnen
Beginn mit Ein-Gruppen-Design könnte Akzeptanz von Evaluation bei Teilnehmern erhöhen, so dass man danach noch mehr machen kann
Ein-Gruppen-Designs sind für die meisten Menschen am wenigsten „einschüchternd“
Auftraggeber lassen ihre Institution nicht unbedingt gerne mit anderen Institutionen vergleichen, ebenso wenig Teilnehmer
Wie kann man die Validität von Evaluationsstudien erhöhen? (Um kausale Beziehungen zu demonstrieren und Alternativerklärungen auszuschließen)
1) Anzahl der Messzeitpunkte
Beobachtung von Teilnehmer zu zusätzlichen Zeitpunkten vor und nach dem Programm
2) Vergleichsgruppe
Beobachten von zusätzlichen Personen, die das Programm nicht erhalten haben
3) Untersuchung anderer Variablen
Verwenden von verschiedene Variablen, von denen von einigen angenommen werden kann, dass sie durch das Programm beeinflusst werden und von einigen, dass sie durch das Programm nicht beeinflusst werden
Time-series-Design (Zeitreihendesign)
Verwendung vieler Informationen über eine Reihe von Zeitintervallen
Anliegen von Programm Evaluatoren: Stabile base-line Messungen vor einer Intervention und die Dokumentation von sowohl Veränderungen als auch ihrer Stabilität
Sowohl in Verhaltensanalyse als auch in Ökonomie: Untersucher erhält eine Beobachtung/einen Wert für jede Variable für jedes Zeitintervall
Informationen über lange Zeit sammeln verbessert interne Validität
(Mindest)Bestandteile einer Time-Series Untersuchung:
- Festlegen einer Einzel-Einheit
- eine Vielzahl von Beobachtungen wird gemacht
- über eine Anzahl von Zeitintervallen
- die einer kontrollierten oder natürlichen Intervention vorausgehen oder folgen
Interrupted Time Series (Unterbrochene Zeitserie):
Eine bestimmte Intervention tritt zu einem bestimmten Zeitpunkt auf. Der Evaluator untersucht, ob diese Unterbrechung eine Einfluss hat
Fragestellung:
Haben Reifung und Geschichte einen Einfluss auf die AV?
Nichtäquivalente Kontrollgruppendesigns
Verbesserte Interpretierbarkeit von Evaluation durch Vergrößerung der Anzahl an Gruppen, die beobachtet werden
Pretest-Posttest Design mit weiterer Gruppe (Vergleichsgruppe), die keine Intervention erhält (aber ansonsten den gleichen Bedingungen ausgesetzt ist) = Nichtäquivalente Kontrollgruppen Design
Größter Schwachpunkt eines Nichtequivalente Kontrollgruppen-Designs: Auswahl einer Vergleichsgruppe, die nicht ausreichend ähnlich zu der Programm-Gruppe (=Experimentalgruppe) ist, um valide Interpretationen treffen zu können (z.B. Die die sich aussuchen, am Programm teilzunehmen, Reifen schneller als die in der Kontrollgruppe –> Super-Eltern die ihre Super-Kinder super fördern wollen, und weil es Super-Kinder sind bekommen die sowieso schon viel mehr Aufmerksamkeit zuhause als Normalo-Kinder)
Lösung: Matchen von Kontrollgruppe und Experimentalgruppe (gleiche/ähnliche Werte in bestimmten Variablen) –> Gut für Auswahl von Vergleichsgruppen, aber nicht für deren Bildung (sollte zufällig erfolgen)
Fazit: Nichtäquivalente Kontrollgruppen-Designs sind besonders anfällig für Regressions-Effekte, wenn die Gruppen sich systematisch in einigen Dimensionen unterscheiden
Aber auch viele preexisting Unterschiede haben Einfluss auf die Vergleichbarkeit von Kontrollgruppe und Experimentallgruppe in ihren Pretest-Scores (z.B. Vergleich zweier Klassen: Ist eine Unterrichtsmethode erfolgreicher? In Kontrollgruppe könnte die Lehrerin früher bereits Elemente dieser Methode benutzt haben)
Regression-Diskontinuitäts Design
Es gibt eine Situation, in der der Vergleich von nicht-äquivalenten Gruppen noch besser funktioniert, als bisher präsentiert :))!! WUhu
Und zwar: Wenn die Eignung für ein Programms auf einer kontinuierlichen Variable basiert (z.B. Einkommen, Level an Behinderung) kann das Regressions-Diskontinuitätsdesign verwendet werden
Wenn nun der Regressionskoeffizient für 2) statistisch signifikant ist –> Programm war effektiv (es besteht also eine Diskontinuität in der Beziehung von Prä- und Posttest)
2= Variable die Zugehörigkeit kodiert -> (experimental/Kontroll)
Beobachtung anderer abhängiger Variablen -> Control Construct Design
Es ist möglich, die Validität von Interpretationen zu vergrößern, indem man weitere abhängige Variablen betrachtet, von denen man ausgeht, dass sie nicht/kaum durch das Programm verändert werden –> Das nennt man: Control Construct Design
Zusätzliche Variablen müssen:
1. In die gleiche Gefährdung der internen Validität wie die Outcome-Messung haben
2. Dürfen nicht durch das Programm beeinflusst sein
Beispiel: Untersuchung zu medienbasierter Gesundheitskampagne. Es wurde eine Befragung am Uni-Campus durchgeführt, aber zu Kontrollkonstrukten, die nicht Teil der Kampagne waren, aber auch gesundheitsbezogen
Kombination von Methoden, um die interne Validität zu erhöhen
5.1 Time-Series und Nichtäquivalente Vergleichsgruppen
Die am besten interpretierbaren quasiexperimentellen Designs sind die, die die zuvor vorgestellten Ansätze kombinieren
Riecken und Boruch: Tests auf Signifikanz sind weniger wichtig als das qualitative Verstehen der verschiedenen Gefährdungen, die auf die Validität der kausalen Schlüsse über den Einfluss einer Intervention Einfluss nehmen.
Ein Schlüssel zu validen Interpretationen auf Grundlage von Beobachtungen ist die Möglichkeit zur Wiederholung von Beobachtungen –> Studie replizieren
Ein Time-Series Design mit einer Vergleichsgruppe, die die selbe Intervention wie die Experimentalgruppe erhält aber zu einem späteren Zeitpunkt, ermöglicht weitere Sicherheiten gegen Validitäts-Gefährdungen (Figure 9.7). Nach Cook und Campbell nennt man ein solches Design “interrupted time series with switching replications”
Bei einem solchen Verlauf muss man kaum was statistisch analysieren [rechnen, iiiih!]
5.2 Das Patch-Up Design [quasi “Flicken-Design”]
Analyse der Kontexts eines Programms ermöglicht Identifikation möglicher Gefährdungen der internen Validität
Möglichkeit weitere Vergleichsgruppen zu bilden –> Bis die am plausibelsten konkurrierenden Interpretationen eliminiert sind
Beispiel: Ist Auslandsprogramm für Entwicklung von Studenten erfolgreich?
o Problem: Vergleich von Studenten, die im Ausland waren und denen, die es nicht waren –> Selektionseffekte (nur bestimmte Studenten [Ritchbitch, Blingbling] gehen ins Ausland)
o 2. Problem: Vergleich von Studenten die im Ausland waren und solchen, die es vorhaben –> Reifeeffekte (die, die noch nicht im Ausland waren, sind jünger)
o Lösung: Einfach beide Gruppen als Vergleich wählen!
o Falls Selbst-Selektion zu höheren Werte führt, sollte die obere Reihe höhere Werte haben
o Falls Reifung zu höheren Werten führt, sollte die rechte Spalte höhere Werte haben
o Falls das Programm einen Einfluss hat, sollte die rechte obere Gruppe (Senioren im Ausland…Rentnerreise. Nein wir sprechen natürlich von Studenten) einen besonders hohen Wert haben
Weite Verbreitung von quasi-experimentellen Evaluationsdesigns. Ermöglichen Evaluator notwendige Information zu generieren, um die möglichen Ursachen von Veränderungen bei Programmteilnehmern zu isolieren
Aaaaber: Die Verwendung solcher quasi-experimentellen Evaluationsdesigns ist nicht einfach! Der Evaluator muss für jede Untersuchung überlegen, welche Gefahren für die interne Validität berücksichtigt werden müssen :O
So ganz allgemein zum Abschluss: Wenn es möglich ist, sollte man eine experimentelle Untersuchung machen (da kann man super Gefahren für die interne Validität kontrollieren)