Evaluationsforschung Flashcards
Was bedeutet “Evaluation”? Was bedeutet “wissenschaftliche Evaluation”?
Evaluation ist die Bewertung eines Sachverhalts/Gegenstands/Leistung durch Laien
Wissenschaftliche Evaluation ist die wissenschaftlich fundierte Bewertung eines klar definierten Evaluationsgegenstands durch Expert*innen.
- anwendungsbezogen
- oft auftraggeberfinanziert
- bzgl. geplanter oder bereits realisierter Maßnahmen
- oft politisch kontrovers diskutierte Themen
Wie grenzt sich die Evaluationsforschung von der Grundlagenforschung und der Interventionsforschung ab?
Grundlagenforschung - Entwicklung & Überprüfung wissenschaftlicher Theorien (Grundlagenwissenschaftliche Theorien - Beschreibung, Erklärung, Vorhersage von Sachverhalten)
Interventionsforschung - anwendungsorientiert; Entwicklung & Überprüfung technologischer Theorien
(Technologische Theorie - Beschreibung, Erklärung, Vorhersage von Interventionen)
Evaluationsforschung - anwendungsorientiert; Bewertung von Maßnahmen, Programmen, anderen Gegenständen; Entwicklung, Prüfung von Programmtheorien
(Programmtheorie - Unterform technologischer Theorien; Erklärung der Wirkungsweise des Evaluationsgegenstands)
Evaluation - Definition
= systematische Bewertung eines
klar definierten Evaluationsgegenstands, dessen Konzept, Umsetzung, Nutzen und Wirksamkeit,
innerhalb eines spezifischen individuellen/gesellschaftlichen/organisationalen/politischen Kontextes
anhand präziser, vorher festgelegter, offengelegter Bewertungskriterien
durch Expert:innen
mithilfe wissenschaftlicher Methoden
um eine oder mehrere Zielsetzungen des Auftraggebers zu erreichen
Was sind die 4 Evaluationsgegenstände?
–> Erläuterung am Beispiel der ADHS-Therapie
Produkt - Ergebnis eines Produktionsprozesses (z.B., industriell, landwirtschaftlich, pädagogisch, wissenschaftlich)
–> ADHS-Therapie: Wirksamkeit der Therapie?
Prozess - Abfolge von Schritten zu einem bestimmten Ziel (z.B., Arbeitsabläufe am Fließband; Lebensmittelherstellung)
–> ADHS-Therapie: Therapieverlauf (Wie läuft die Therapie im dt. Gesundheitssystem ab? Welche Schritte könnten optimiert werden?)
Programm/Projekt - Interventionsmaßnahme (z.B., Verbesserung der Arbeitszufriedenheit)
–> ADHS-Therapie: Was bringt eine Programm zur Versorgungsoptimierung an Schulen? –> Interventionsmaßnahme
Politik - Gesetze und Verordnungen (z.B., Arbeitsplatzsicherheit, Lebensmittelhygiene, Bildungswesen)
–> ADHS-Therapie: Gesetz zur Sicherung der Versorgung: Wie kann die Politik die Versorgung sicherstellen? Besteht gesetzlicher Regelungsbedarf oder muss stattdessen die Umsetzung optimiert werden?
Was können Evaluationskriterien sein?
Bedarf - Entspricht die Maßnahme den Bedürfnissen der Zielgruppe?
Konzept und Design - Ist die Maßnahme sinnvoll/evaluierbar? Was ist die theoretische/empirische Grundlage? –> Qualität des Interventionskonzepts (Validität); State-of-the-art
Prozess - Wie wurde die Maßnahme praktisch umgesetzt und durchgeführt? –> Qualität der Einführung und Implementation; Ausführungsintegrität
Ergebnis - Hat die Maßnahme die gewünschten Effekte?
–> Wirksamkeit/Effektivität, Transfererfolg (pos. Effekte in anderen Bereichen), Kosten-Nutzen-Bilanz/Effizienz, Akzeptanz (d. Betroffene)/ Nachhaltigkeit
Was sind Zielsetzungen einer Evaluation? (3 versch. Interventionen mit versch. Zielsetzungen)
Zustandsevaluation = Wie ist der aktuelle Zustand des Evaluationsgegenstands?
–> Produkt: Leistung der Schüler der 8. Klasse im Fach Mathematik
–> Prozess: Eigenschaften der Arbeitsprozesse in einem Unternehmen
–> Programm: Qualität einer geplanten Interventionsmaßnahme
–> Politik: Gesetzlicher Regelungsbedarf im Bereich der Kurzarbeit
- 1 Messzeitpunkt (i.d.R. summative Orientierung)
- Vergleich mit Kriterium (Ist vs. Soll)
Veränderungsevaluation = Zustandsvergleich über die Zeit
–> Mehrere Diagnosen: Frage nach dem Entwicklungstrend - Verständnis von Situationen und Prozessen
–> Prognose: Vorhersage des zukünftigen Zustands - vorausschauende Steuerung
–> Retrognose: Vergleich aktueller und vergangener Zustand - rückblickende Wirkungskontrolle
- 2 Messzeitpunkte (Vergleich mit Prognose/Retrognose)
- Ziel: Beschreibung und Bewertung der Veränderung
- Kriterien: beliebig
Wirksamkeitsevaluation = Zustandsvergleich vor und nach einer Intervention
- 2 Messzeitpunkt
- Ziel: Prüfung auf Veränderung
- Kriterium: beliebig
Prospektive vs. formative vs. summative Evaluation
Prospektive Evaluation = Evaluation vor einer Maßnahme – antizipatorisch
Formative Evaluation = Evaluation während einer Maßnahme – prozessbegleitend
Summative Evaluation = Evaluation nach einer Maßnahme – ergebnisbewertend
Was ist das Zeil der formativen Evaluation und wie wird diese durchgeführt (was und wie wird erhoben)?
Ziel: Verbesserung der Maßnahme (konkrete Handlungsempfehlungen)
- Erhebung in regelmäßigen Abständen (–> Anpassung bei Fehlentwicklungen)
- zusätzliches Sammeln von subjektiven Eindrücken der Betroffenen
- enge Zusammenarbeit mit Programmleitung
Was ist das Ziel der summativen Evaluation und wie wird diese durchgeführt (was und wie wir erhoben)?
Ziel: Nutzenbestimmung einer Maßnahme; Entscheidungshilfe für Geldgeber, Aufsichtsbehörden, Legislative
- kann sich auf Konzeption, Durchführung, Wirksamkeit und Effizienz beziehen
- wissenschaftlich besonders solide
- eher unabhängig
Was zeichnet den qualitativen Ansatz der Evaluation aus?
Ziel: Exploration –> befasst sich mit dem Sinnverstehen
Qualitätskriterium: inhaltliche Validität
Methoden: nicht standardisiert
Vergleich: normativ
Was zeichnet den quantitativen Ansatz der Evaluation aus?
Ziel: Beschreibung –> befasst sich mit der Messung
Qualitätskriterien: Reliabilität, Validität, Objektivität
Methoden: standardisiert
Vergleich: empirisch
Was war die Intervention, die von Chalfin et al. 2022 in Rahmen einer Evaluation untersucht wurde?
Was waren die Bewertungskriterien und wie ist die Evaluation einzuordnen?
Intervention: Mobile Straßenlampen in New York City
Ziel: Verringerung der Verbrechensrate
Bewertungskriterien:
- Validität (Erkenntnisgewinn)
- Akzeptanz (z.B., können Anwohner nachts noch schlafen; fühlen sich Anwohner überwacht)
- Wirkung (Effektivität, praktische Relevanz des Effekts)
- Nebenwirkungen (z.B., Lichtverschmutzung, Natur/Umwelt)
- Kosten-Nutzen-Bilanz (Effizienz)
Einordnung der Evaluation:
- Summative Evaluation; Wirksamkeitsevaluation
- eher quantitativer Ansatz (Messung der Verbrechensrate; obwohl auch Erkenntnisgewinn ein Teilziel war)
- Feldexperiment
- Evaluationsgegenstand: Produkt und/oder Projekt
- Evaluationskriterium: Ergebnis
Welche Aspekte können/sollten bezüglich der Annahme eines Evaluationsauftrags Bedenken bereiten?
Zielsetzung:
- versteckte Agenda (keine klare oder nicht offen kommunizierte Zielvorstellung; Imagepflege; nachträgliche Rechtfertigung bereist gefallener Entscheidungen; Verzögerungstaktik - Kritiker ruhig stellen, Entscheidungen aufschieben)
Ethische Bedenken:
- Ziel des Projekts widerspricht persönlichen Zielen/Werten
- ethische Bedenken hinsichtlich Durchführung (z.B., Verletzung der Intimsphäre der Teilnehmenden, sanktionierte Freiwilligkeit der Teilnahme, Gefahr des körperlichen/seelischen Schadens für Teilnehmende)
Wichtige Aspekte des Evaluationskontexts, die vor der Annahme eines Evaluationsauftrags berücksichtigt werden sollten (können positiv oder negativ sein)
Ressourcen:
- Evaluation als Auftragsforschung –> Ergebnis bestimmt durch die vom Auftraggeber bereitgestellten Ressourcen: Personal, Material, Ausstattung, Freistellung der Beteiligten, Unterstützung durch Programmleitung / internes Personal
–> Reichen die Ressourcen?
Rahmenbedingungen:
- Verschiedene Beteiligte: Gibt es ggf. widersprüchliche Standpunkte beteiligter Parteien
- Konflikte als Hintergrund einer Evaluation: Ggf. kann der/die Evaluator*in zum Sündenbock gemacht werden
- Konzeptuelle & organisationale Struktur: Je stärker diversifiziert/ dezentralisiert wird, desto aufwändiger und komplexer die Evaluation (multiple Dienstleistungen, Zielgruppen, Kooperationen)
Rolle des/der Evaluatorin:
- Beziehung zwischen Evaluatorin und Auftraggeberin: unabhängige Evaluation (Evaluatorin ist verantwortlich) vs. partizipative Evaluation (Evaluatorin berät, Auftraggeberin ist verantwortlich)
- Soziale Kompetenz im Austausch mit allen Beteiligten und Betroffenen: Hintergründe, Ursachen, Erwartungen in Erfahrung bringen; genaues Vorgehen, Zwischenziele, Gesamtziel präzisieren und operationalisieren; Koordination mit & Compliance der Durchführenden
- Fachliche, breite methodische und statistische Kenntnisse: Interdisziplinäre Teamarbeit erforderlich? Verantwortung für Methodik, Validität, Interpretierbarkeit der Ergebnisse klären
CIPP-Evaluationsmodell – Aufbau & Funktion
= Rahmenmodell, um eine Evaluation anzuleiten
Context = Umfeldanalyse – Was sollen wir tun? (Analyse der Bedürfnisse der Zielgruppe; Ziele formulieren/anpassen)
Input = Inputanalyse – Wie sollen wir es tun? (Prüfung der für die Durchführung benötigten Mittel und Ressourcen)
Process = Prozessanalyse – Tuen wir es wie geplant? (Laufende Überprüfung der Umsetzung, dazu gehört auch die Beteiligung und Akzeptanz der Zielgruppen)
Product = Produktanalyse – Hat das Programm funktioniert? (Prüfung der Zeilerreichung, dazu gehört auch die Erfassung nicht angestrebter Effekte)
Das CIPP-Evaluationsmodell orientiert sich am zeitlichen Verlauf einer Maßnahme und betrachtet einzelne Bedingungen, die das Gesamtergebnis beeinflussen, um Entscheidungen zu treffen.
Ebenen-Modell – Aufbau & Funktion
4 bzw. 6-Ebenen-Modell = Rahmenmodell, um eine Evaluation anzuleiten
Nach Kirkpatrick (1959):
- Reaktion
- Lernen
- Verhalten
- Ergebnisse
Nach Schenkel (2000):
- Produktebene: Konzeption & Qualität des Produkts (Wie bewerten Expert*innen die Maßnahme?)
- Reaktionsebene: Akzeptanz, Compliance, Zufriedenheit, Nutzungsbereitschaft, Nützlichkeit (Wie reagieren die Betroffenen auf die Maßnahme?)
- Lernebene: Erfolge auf Wissens- und Kompetenzebene (Ist die Maßnahme wirksam?)
- Handlungsebene: Erfolge auf Ebene des beobachtbaren Verhaltens (Hat sich das Verhalten der Betroffenen verändert?)
- Erfolgsebene: Effizienz (Was ist das Gesamtergebnis der Maßnahme? Welchen Nutzen hatte die Maßnahme für das System?)
- ROI-Ebene (return of investment): Langfristige Gewinne, Kosten-Nutzen-Beurteilung (Hat sich die Maßnahme langfristig wirtschaftlich/gesellschaftlich belohnt?)
Feedbackschleifen zwischen allen Ebenen
Optimierungsschleife von ROI-Ebene zur Produktebene
Was sind die 11 Schritte der Evaluation?
- Evaluationsbedarf
- Evaluationsauftrag
- Evaluationsgrundlagen
- Rahmenbedingungen
- Methodische Projektplanung
- Durchführung der Evaluation
- Datenauswertung
- Präsentation und Berichtlegung
- Dissemination der Ergebnisse
- Nutzung der Ergebnisse
- Bewertung der Evaluation
Was sind Stakeholder im Kontext der Evaluation und welche Unterkategorien gibt es?
Stakeholder = an der Evaluation beteiligte Personen, die individuelle Interessen mit der Evaluation verbinden
Program beneficiaries = Personen, die direkt/indirekt von Nutzung und Wirkung des Evaluationsgegenstands betroffen sind
Program developers and providers = Personen, die an Entwicklung, Umsetzung und Optimierung des Evaluationsgegenstands beteiligt sind
Datenbox-Konzeption nach Cattel
Drei Dimensionen:
- Personen P
- Variablen X
- Messzeitpunkt T
Mögliche Messungen:
Person x Variable
- Variable über Personen; Messzeitpunkt fix (R-Technik)
- Personen über Variable; Messzeitpunkt fix (Q-Technik)
Person x Messzeitpunkt
- Personen über Messzeitpunkte; Variable fix (S-Technik)
- Messzeitpunkte über Personen; Variable fix (T-Technik)
Variable x Messzeitpunkt
- Variablen über Messzeitpunkte; Person fix (P-Technik)
- Messzeitpunkte über Variablen; Person fix (Q-Technik)
Kennwerte zur Beschreibung von Ist-Zuständen: Gruppenvariablen, Personenvariablen, aggregierte Personenvariablen
Gruppenvariablen = Variablen, die nur auf die Gruppe sinnvoll anwendbar sind
- Häufigkeitsindikatoren (z.B., Gruppengröße, Geschlechterverhältnis)
- Eigenschaften der Gruppe (z.B., Gruppenalter, Aufgabe/Funktion)
Personenvariablen = Varaiblen, die nur auf die Person sinnvoll anwendbar sind
- psychologische Variablen (z.B., Leistung, Zufriedenheit)
Aggregierte Personenvariablen = Personenvariablen, die auf Gruppenebene aggregiert wurden
- einzelne Werte von Personenvariablen beschreiben einzelne Personen, Werte aggregierter Personenvariablen können eine Gruppe charakterisieren (z.B., Mittelwert)
(ein Wert einer Gruppenvariable charakterisiert auch eine Gruppe, kann aber nicht (sinnvoll) einer einzelnen Person zugewiesen werden) - Problem: Aggregation nicht linearer Funktion (z.B., Lernkurve) –> Auswertung mithilfe hierarchischer Modelle
Kennwerte zur Beschreibung von Ist-Zuständen: Prävalenz, Lebenszeitprävalenz, Inzidenz
Prävalenz = Anzahl von Personen mit positiver Diagnose (aktuell bestehende Fälle)
Lebenszeitprävalenz = Anzahl von Personen, die im Leben (mind. einmal) positiv diagnostiziert werden
Inzidenz = Anzahl neu hinzukommender Fälle (neu auftretende Fälle in einem Jahr)
Arten von Vergleichskriterien und wozu werden sie in einer Zustandsevaluation benötigt?
Ziel einer Zustandsevaluation: Bewertung (Statusdiagnose)
–> Es wir ein Kriterium benötigt.
Normativer Vergleich = Vergleich mit vorher festgelegtem Kriterium
- Vergleich mit Ideal- oder Kriterialnorm: Vergleich mit festgelegtem (begründetem, realistischem) Kriterium
- Vergleich mit Realnorm: Vergleich mit Durchschnittswert, der eine “normale” Situation repräsentiert
Empirischer Vergleich = Vergleich zweier unterschiedlicher Ist-Zustände
- Sozialer Vergleich (soziale Bezugsnorm): Vergleich mit anderen Personen/Gruppen
- Temporaler Vergleich (individuelle Bezugsnorm): Vergleich mit derselben Person/Gruppe zu anderem Zeitpunkt
Wie wird statistische Bedeutsamkeit im Einzelfall und auf Gruppenebene etabliert?
Einzelfall: Normvergleich, Prozentränge (z.B., IQ-Wert)
Gruppenebene: Statistische Tests für Gruppenvergleiche
- Vergleich Stichprobe & Population (z.B., t-Test für eine Stichprobe bei Idealnorm oder Realnorm)
- Vergleich mehrerer Gruppen (z.B., t-Tests oder ANOVAs für soziale und temporale Vergleiche)
Wie wird die praktische Bedeutsamkeit eines Interventionseffektes etabliert?
Effektgröße = von Stichprobengröße unabhängiger Kennwert
Interpretation = von Objekt, Kriterium, Ziel etc. abhängige Einordnung und Deutung
Beispiel: Wirksamkeit von Aspirin bei Prävention von Herzinfarkten
- EG (1 Aspirin täglich): 0,94% Herzinfarkte
- KG (0 Aspirin täglich): 1,71% Herzinfarkte
–> sehr kleine Effektgröße (<1%), aber hohe praktische Bedeutsamkeit (etwa doppelt so viele Herzinfarkte in KG als in EG –> Deutung)