Metaanalyse Flashcards
Was ist eine Metaanalyse?
= Gruppe von Verfahren zur systematischen quantitativen Zusammenfassung von Untersuchungsergebnissen
Zusammenfassung von Primärstudien eines Themas zu Metadaten mithilfe statistischer Mittel
–> Forschungssynthese, Interpretative Aggregation zu einer Gesamtaussage, Studien als Untersuchungseinheit
Bei der Metanalyse wird nicht mit den Originaldatensätzen gearbeitet, sondern ausschließlich mit mit den Ergebnisberichten der Primärstudien.
Narratives Review vs. systematisches Review vs. Metaanalyse
+ Vorteile der Metaanalyse
Narratives Review (literature review): Vorstellung/Vergleich/kritische Diskussion der einschlägigen Literatur
Systematisches Review: kritische Würdigung früherer Forschungsdaten
–> Problem: begrenzte kognitive Kapazitäten & Subjektivität und Intransparenz
Metanalyse: Rechnerische Zusammenfassung von statistischen Befunden (Effektgrößen)
- transparente Regeln für Suche nach Studien
- festgelegte Kriterien für Inklusion/Exklusion
- Angabe & Definition der Kriterien und Vergleichsdimensionen
- intersubjektiv nachvollziehbare Kodierung von Studien und Moderatorvariablen & Gewichtung und statistische Analyse der Studienergebnisse
Nachteil: Kriterien verringern Anzahl der aufgenommenen Studien
Beispiele für den Erkenntnisgewinn durch eine Metaanalyse
- gleicht Unsicherheiten (A und B Fehler) in Primärstudien aus –> “Mittelwert” aus bisherigen Studien zum einem Gegenstandsbereich
- kann Problem einer niedrigen Teststärke lösen (großer, unvermeidbarer B Fehler in Primärstudien)
-> liefern wissenschaftliche Grundlage für Entscheidungen im Anwendungskontext
-> wichtiger Schritt von der Grundlagenforschung zur technologischen Forschung & Anwendung
Ziele der Metaanalyse
Gesamteffekt = gewichteter Mittelwert der Effektgrößenmaßen der einzelnen Primärstudien welcher den Gesamteffekt in der Population schätzt
–> Signifikanztest für den Gesamteffekt
–> Effektgrößenschätzung des Gesamteffekts (Punkt- & Intervallschätzung)
Moderatorvariable = Variable C, von der abhängt, wie der Effekt einer Variable A auf eine Variable B ausfällt
–> kategoriale oder kontinuierliche Moderatorvariable
–> Moderator-/Subgruppenanalyse = Identifikation derjenigen Moderatoren, die den Effekt stärker oder schwächer ausfallen lassen
–> bei heterogenen Primäreffektgrößen
9 Schritte der Metaanalyse (Döring, 2023)
(1) Formulierung der Forschungsfrage der Metaanalyse
- Definition der Fragestellung und Festlegung transparenter Kriterien zur Auswahl der Studien
(2) Such nach inhaltlich einschlägigen Primärstudien
(3) Auswahl und Kodierung der methodisch geeigneten Primärstudien
- systematische Extraktion der nötigen Information aus den Studien; explizite Angabe und Definition der Kriterien & Vergleichsdimensionen; intersubjektiv nachvollziehbare Kodierung von Studien & Moderatorvariablen
(4) Wahl des metaanalystischen Modells
(5) Berechnung einheitlicher Effektgrößenmaße für alle Primärstudien
(6) Berechnung & Signifikanzprüfung des Gesamteffekts
- intersubjektiv nachvollziehbare Gewichtung & statistische Analyse der Studienergebnisse
(7) Prüfung der Homogenität der einzelnen Effektgrößen der Primärstudien
(8) Moderator-/Subgruppenanalyse bei Heterogenität der Effektgrößen
(9) Ergebnisinterpretation und -präsentation der Metananalyse
Homogene und heterogene Effektgrößen
Effektgröße = statistische Kennzahl für Größe und Richtung eines empirischen Effekts (z.B., Mittelwertsdifferenz, Gruppenunterschied, Korrelation etc.)
Homogene Effektgrößen: alle Effekte sind in etwa gleich groß und gleichgerichtet
Heterogene Effektgrößen: einige Effekte fallen größer/kleiner aus und/oder gehen in untersch. Richtungen
–> bei heterogenen Effektgrößen: Überprüfung auf Moderatorvariable(n)
Warum zählt man bei der Metaanalyse nicht einfach die Anzahl der signifikanten und nicht-signifikanten Ergebnisse?
Warum aggregiert man nicht einfach die p-Werte?
Die Signifikanz (p-Wert) ist abhängig von Effektgröße und Stichprobenumfang. Ein nicht-signifikantes Ergebnis bedeutet nicht, dass es keinen Effekt gibt. –> keine b-Fehlerkontrolle
Es interessiert die Größe des Effekts und nicht die (Nicht-)Existenz eines beliebig großen Effekts. Außerdem können gleiche Effektgrößen untersch. p-Werte und gleiche p-Werte untersch. Effektgrößen aufweisen. Es besteht auch ein negativer Zusammenhang zwischen p-Wert und Effektgröße. (Auf der Interpretationsebene: Ein größerer Effekt (besser), ist mit einem höheren p-Wert (schlechter) assoziiert.)
Typische grafische Formen der Ergebnisdarstellung in Metaanalysen
- Flowchart (Ablaufdiagramm)
- Forest-Plot (Effektstärke (y) der einzelnen Studien (x) inklusive Konfidenzintervall und allg. common-effects model & random-effects model)
- Bubble-Plot mit kategorialem/kontinuierlichem Moderator (x-Moderator; y-Effektgröße)
- Funnel-Plot (x-Effektgröße; y-Precision)
Literaturrecherche - Ausgangspunkt, Kriterien, Ziel
Ausgangspunkt: Problemstellung/Fragestellung der Metaanalyse
Kriterien:
Inhaltlich: ergeben sich aus Fragestellung
Methodisch: ergeben auch aus Anforderungen an Qualität der Studien (z.B., randomisierte Zuweisung)
Ziel: Finden aller relevanten Studien, die die Kriterien erfüllen
–> Ist die gefundene Stichprobe repräsentativ? (bei Untersuchung von Teilgruppen, müssen Moderatoren schon im Voraus bekannt sein)
–> Mögliche Beschränkung? (z.B., nur Studien, die nach der letzten Metaanalyse publiziert wurden)
–> Umfang/Breite der untersuchten Studienpopulation beeinflusst Interpretierbarkeit der Ergebnisse
Quellen (Vorgehen) bei der Literaturrecherche
- Stichwortrecherche in elektronischen Datenbanken
- Referenzen in Reviews
- Referenzen in einzelnen Studien
- Einschlägige Fachzeitschriften
- Programme und Abstractbände von Tagungen und Konferenzen
- Kontaktieren von Autor*innen einschlägiger Studien (z.B., (noch) unveröffentlichte Datensätze)
- Forschungsorganisationen
Publikationsbias in der Literaturrecherche für die Metaanalyse
= statistisch verzerrte Darstellung der Datenlage in wissenschaftlichen Zeitschriften infolge einer bevorzugten Veröffentlichung von Studien mit positiven Befunden/signifikanten Ergebnissen
- größere Stichproben liefern präzisere Schätzungen (kleinere Standardfehler) & kleinere Stichproben liefern (trotz vorhandenem Effekt) manchmal nicht signifikante Ergebnisse, die dann nicht veröffentlich werden
–> Verzerrung metaanalytischer Ergebnisse (die Ergebnisse der Studien mit kleineren Stichproben würden die Effektgröße verringern)
Datenextraktion und (Moderator-)Kodierung
+ methodische Aspekte
Datenextraktion = Auswahl der Primärstudien & Berechnung der Effektgrößen
Kodierung = Anwendung eines Kodierschemas zur Einteilung der Primärstudien
–> standardisierter Fragebogen mit geschlossenen Fragen (“an die Studie”)
Methodische Aspekte:
- sorgfältige Entwicklung des Kodierschemas
- Training der Kodierer
- Bestimmung von Vollständigkeit, Reliabilität und Validität der Kodierung
Kriterien für die Wahl eines Effektgrößenmaßes & Konvertierung versch. Effektgrößenmaße
Kriterien:
- Effektgrößenmaß soll aus den Angaben der meisten Studien ermittelbar sein (keine Reanalysen) –> z.B., Cohens d, da Mittelwert und Standardabweichung stets berichtet werden
- Effektgrößenmaß soll inhaltlich interpretierbar sein bzw. für alle Forschenden in diesem Gebiet direkt verständlich sein
Konvertierung: versch. Effektgrößenmaße können ineinander überführt werden (z.B., Cohens d in Cohens f oder r)
Maße der Effektgröße für Mittelwertunterschiede
D=X(mittel)1-X(mittel)2
- unstandardisierte Mittelwertsdifferenz (Vergleich von zwei Mittelwerten in Einheiten der Rohdaten)
- sinnvoll, wenn: alle Studien dieselbe AV/Skala verwenden; die Skala selbst bedeutungsvoll ist; die Skala inhaltlich interpretiert werden kann
Cohens d = (X(mittel)1-X(mittel)2) / S
- standardisierte Mittelwertdifferenz (Vergleich von zwei Mittelwerten in Standardabweichungseinheiten)
- sinnvoll, wenn: verschiedene AVs/Skalen verglichen werden
- Vorteil: Interpretierbarkeit in SD-Einheiten (unabhängig von Skala)
- Problem: Tendenz, die wahre Effektgröße in der Population zu überschätzen
- Korrektur: Hedges’ g
Stichprobenumfang, Standardfehler
Stichprobenumfang = N = Anzahl der ausgewählten Untersuchungsobjekte in einer Primärstudie
Standardfehler = SE = Sigma(Xmittel) = Sigma(X)/Wurzel aus N = SD der Stichprobenkennwerteverteilung
Fehlervarianz, Präzision & Konfidenzintervall
Fehlervarianz = V = quadrierte Sigma(Xmittel) = quadrierter Standardfehler (liefert Information über die Präzision, mit der die Effektgröße in einer gegebenen Studie geschätzt wurde)
Präzision = 1/V = 1/quadriertes Sigma(Xmittel) = Kehrwert (Inverse) der Fehlervarianz
Wie hängt die Präzision einzelner Primärstudien mit der Berechnung des Gesamteffekts der Metaanalyse zusammen?
Präzision = 1/V = 1/quadriertes Sigma(Xmittel) = Kehrwert (Inverse) der Fehlervarianz
- abhängig von Stichprobenumfang und Design der Untersuchung
- wird verwendet, um die Gesamteffektgröße zu berechnen –> Gewichtung der einzelnen Effektgrößen
- Effekt mit kleiner Varianz –> hohe Präzision –> erhält größeres Gewicht bei Berechnung des Gesamteffekt
- Effekt mit großer Varianz –> niedrige Präzision –> erhält kleineres Gewicht bei Berechnung des Gesamteffekts
Konfidenzintervall für die wahre Effektgröße einer Primärgröße
Konfidenzintervall = CI = [d-1.96SE, d+1.96SE], SE=Standardfehler
–> Intervall, in dem mit einer Wahrscheinlichkeit von 95% die wahre Effektgröße
Einflussfaktoren der Präzision
Stichprobenumfang:
- größere Stichprobe –> kleinere Varianz (SE, CI) der Effektgröße –> größere Präzision
Studiendesigns:
- abhängige Stichproben mit hoher Korrelation –> kleinere Varianz (SE, CI) der Effektgröße –> größere Präzision
Effektgrößen mit größerer Präzision wird in der Metaanalyse stärker gewichtet.
Berechnung der Effektgrößen D, Cohens d, Hedges’ g (Effektgröße und Varianz)
Lösung in Handygalerie
Funktion des Funnel-Plots
Funnel-Plot / Beggs Plot = Art des Scatterplots zur Entdeckung von Publikationsbias in Metaanalysen
Visuelle Inferenz (über Asymmetrie):
x-Achse: Maß der Effektgröße (z.B., Hedges’ g, log-Odds-Ratio)
y-Achse: Maß der Studiengüte (v.a. Standardfehler, Stichprobenumfang, Präzision)
–> Datenpunkte sollten sich wie ein Trichter/Dreieck anordnen
Statistische Inferenz (über Intercept und Slope):
- Test des Intercepts einer linearen Regression der Effektgröße/Standardfehler auf ihre Präzision
–> Intercept = 0: kein Hinweis auf Publikationsbias
–> Intercept > 0: Hinweis auf Publikationsbias - Test des Slopes einer linearen Regression der Effektgröße auf ihre Standardfehler
–> Slope = 0: kein Hinweis auf Publikationsbias
–> Slope > 0: Hinweis auf Publikationsbias
(Wenn Slope = 0, dann sind die Effektgrößen jedes Standardfehlers gleichmäßig um die mittlere Effektgröße gestreut. (Koordinatensystem drehen))
Effektmodelle der Metaanalyse
= Modell zur Bestimmung der Gewichtungsfaktoren der Ergebnisse der einzelne Primärstudien (zur Bestimmung des Gesamteffekts)
Fixed-effects-Modell:
- Studien bilden einen wahren Populationseffekt ab (daher eher: fixed-effect-Modell im Singular oder common-effect Modell)
- Eine Quelle der Varianz: unterschiedliche Effektgrößen wegen Stichprobenfehler
- In Gewichtung geht nur der Stichprobenumfang ein.
- kleine Stichprobe in Primärstudie –> großer Stichprobenfehler –> geringe Gewichtung in Metaanalyse
Random-effects-Modell:
- In jeder Studie ist der wahre Populationseffekt unterschiedlich groß (daher: Random-effects-Modell im Plural).
- Zwei Quellen der Varianz: unterschiedliche Effektgrößen wegen unterschiedlichen Studien und Stichprobenfehler.
- kleine Stichprobe in Primärstudie –> großer Stichprobenfehler –> geringe Gewichtung in Metaanalyse
- abweichender Effekt in Primärstudie –> wichtige Information –> höhere Gewichtung in Metaanalyse
–> in Gewichtung geht der Stichprobenumfang und die Abweichung einer Primärstudie von anderen Primärstudien ein
Mixed-effects-Modell
–> beide Modelle gemischt
Was ist ein wahrer Effekt? Was ist ein Stichprobenfehler?
Welche Annahme unterliegt dem wahren Effekt und dem Stichprobenfehler innerhalb eines fixed-effect(s)-Modells?
wahrer Effekt = unbekannte Effektgröße in der Population
Annahme - wahrer Effekt: Es gibt eine wahre Effektgröße theta, die allen Studien zugrunde liegt. Dieser wahre Effekt ist also konstant über Studien hinweg.
Stichprobenfehler = Abweichung der beobachteten Effektgröße von der wahren Effektgröße
Annahme - Stichprobenfehler: Fehler (Epsilon) variieren zwischen Studien und sind normalverteilt. Bei unendlich großen Stichproben sollte der in einer Studie beobachtete Effekt gleich dem wahren Effekt sein.
Y(i) = theta + epsilon(i)
Welche Annahme unterliegt dem wahren Effekt und dem Stichprobenfehler innerhalb eines random-effects-Modells?
Wahre Effekte = unbekannte Effektgrößen in der Population
Annahme - wahre Effekte: Jede Studie hat ihre eigene wahre Effektgröße theta(i), die aus einer Verteilung der wahren Effektgrößen mit Mittelwert mü stammt. Die Größe des wahren Effekts unterscheidet sich zwischen Studien und hängt z.B., von Eigenschaften der Studie oder der Stichprobe ab.
Stichprobenfehler = Abweichung der beobachteten Effektgröße von der wahren Effektgröße
Annahme - Stichprobenfehler Epsilon:
- Fehler Epsilon(i) variieren zwischen Studien. Bei unendlich großen Stichproben sollte der in einer Studie beobachtete Effekt gleich dem wahren Effekt sein.
Zeta(i): Abweichung des wahren Effekts der Studie i vom Gesamtmittelwert der Verteilung
Wie setzt sich die beobachtete Effektgröße in Studie i (Yi) zusammen?
–> Formel
+ Formel für Epsilon & Zeta
Yi = mü + zeta(i) + epsilon(i)
epsilon(i) = Yi - theta(i)
zeta(i) = theta(i) - mü
Yi = beobachtete Effektgröße in Studie i
mü = Mittelwert der Verteilung der wahren Effekte
zeta(i) = Abweichung der wahren Effektgröße vom Gesamittelwert mü
epsilon(i) = Abweichung der beobachteten Effektgröße von der wahren Effektgröße der Studie i (theta(i))
theta(i) = wahre Effektgröße (wahrer Wert) in Studie i
Welche Varianzen werden im random-effects-Modell definiert?
Varianz zwischen den Studien Tau^2
Varianz innerhalb der Studien V(Yi)
Berechnung der mittleren Effektgröße, Varianz und Testgröße im fixed-effect(s)-Modell und im random-effects-Modell
Lösung in Handygalerie
Modell mit festem Effekt / fixed-effect(s)-Modell – Ziel, Vorgehen, Anwendungsfall, Beispiel (Wirkung eines Migränemedikaments)
Ziel: Schätzung eines wahren Effekts
Vorgehen: kleine Studien erhalten kleines Gewicht
Anwendungsfall: wenn alle Studien identisch sind und man sich für den Effekt in einer Population interessiert oder wenn die Anzahl der Studien gering ist
Beispiel: Studien zur Wirkung eines Migränemedikaments (nur Patient*innen mit einer bestimmten Migräneform und alle erhalten die gleiche Dosierung)
Modell mit Zufallseffekten / random-effects-Modell – Ziel, Vorgehen, Anwendungsfall, Beispiel - Wirkung eines Migränemedikaments
Ziel: Schätzung des Mittelwerts einer Verteilung von wahren Effekten
Vorgehen: kleine Studien erhalten größeres Gewicht (als bei fixed-effects-Modell), da sie u.U. wichtige Information enthalten
Anwendungsfall: wenn die Studien von unterschiedlichen Forscherteams durchgeführt oder unterschiedliche Populationen untersucht wurden
- falls unterschiedliche Populationen relevant sind –> Metaanalyse innerhalb der Subgruppe
Beispiel: Studien zur Wirkung eines Migränemedikaments mit Patient*innen mit unterschiedlichen Migräneformen oder unterschiedlichen Dosierung
Wann kommt die Homogenitätsanalyse zum Einsatz?
Zuerst: Berechnung der mittleren Effektgröße – Fokus auf Mittelwert
—> Die Varianz der wahren Effekte (Tau^2) wird im Modell mit Zufallseffekten nur verwendet, um die mittlere Effektgröße verzerrungsfrei zu schätzen.
Im Anschluss: Homogenitätsanalyse – Fokus auf die Varianz der wahren Effekte (Tau^2?)
Welche Funktion erfüllt die Homogenitätsanalyse?
Funktion: untersucht, Effektgrößen homogen vs. heterogen sind
Inhaltliche Frage: Sind die Effekte über alle Studien hinweg gleich groß? Oder gibt es relevante Moderatorvariablen?
Statistische Frage: Ist die Varianz der wahren Effektgrößen größer als die Fehlervarianz?
Gesamtvarianz = Varianz der wahren Effekte + Fehlervarianz
Fester Effekt:
Varianz des wahren Effekts = Unterschiede zwischen Gruppen von Effektgrößen
Zufallseffekte:
Varianz des wahren Effekts = Unterschiede zischen Gruppen von Effektgrößen + Unterschiede zwischen Effektgrößen innerhalb der Gruppen
Vorgehen bei der Homogenitätsanalyse
(1) Berechnung der beobachteten Gesamtvarianz Q (Modell mi festen Effekten)
–> siehe Q auf Zettel (Handygalerie)
(2) Schätzung der erwarteten Gesamtvarianz unter Homogenitätsannahme
- bei Homogenität erwartete Gesamtvarianz: df=k-1
(3) Schätzung der Größe der Heterogenität (d.h. der Varianz wahrer Effekte)
- Heterogenität = Q-df = Differenz zwischen beobachteter und per Zufall erwarteter Gesamtvarianz
- bei negativer Differenz –> Tau^2=0
- Anteil der Heterogenität an Gesamtvarianz = I^2=(Q-df)/Q
(4) Signifikanzprüfung (Homogenitätstest)
- Wie wahrscheinlich ist eine Gesamtvarianz extremer als Q unter der H0? (H0: Homogenität)
- Chi-Square Test von Q mit df=k-1
- Ergebnis abhängig von: Varianz innerhalb, Varianz zwischen Studien und Anzahl der Studien
Wie weit verbreitet und wie groß ist die Heterogenität in Metaanalysen?
Verbreitung: Heterogenität in 96% der Metaanalysen
Größe: Heterogenität ca. 3x so groß wie Stichprobenfehler
Was sind die Probleme der Homogenitätsanalyse und wie kann man sie lösen?
Problem 1: Homogenitätstest hat geringe Power
–> ein nicht signifikanter Q-Test bedeutet nicht, dass Heterogenität abwesend ist (Ergebnis ist abhängig von: Varianz innerhalb und zwischen den Studien und der Anzahl der Studien –> geringe Teststärke bei geringer Studienzahl und großer Varianz innerhalb der Studien, z.B., wegen kleiner Stichproben)
Lösung: Anteil Heterogenität an Gesamtvarianz anschauen –> Ist I^2=(Q-df)/Q groß oder klein?
Problem 2: Vergleich von Äpfeln und Birnen – Metaanalysen vergleichen verschiedene “wahre” Effekte
Lösung: Moderatorvariablen können Heterogenität erklären
Welche Funktion hat die Moderatoranalyse und wann wird sie angewandt?
Homogenitätsanalyse ist sig. –> Effektgrößen sind heterogen
–> es gibt systematische Varianz zwischen den Studien
–> die Effekte in einigen Studien (einer Subgruppe) unterscheiden sich von denen in anderen Studien (einer anderen Subgruppe)
Möglicherweise können Moderatorvariablen diese Unterschiede erklären:
- pot. Moderatoren: alle Eigenschaften der Studie (Treatment, Untersuchungsmethode etc.)
Funktion:
Vergleich der mittleren Effektgröße der Subgruppen = Prüfen der Hypothese, dass die Moderatorvariable (k)einen Einfluss auf die Effektgröße der Studie hat
Wie werden Subgruppen im Modell mit festem Effekt miteinander verglichen (Moderatorenanalyse)?
Vergleich zweier Gruppen von Studien: z-Test
- H0: Die wahre Effektgröße theta ist für beide Gruppen gleich.
- Vorgehen:
– Berechnung der Differenz der Mittelwerte & des Standardfehlers dieser Differenz
– Ermittlung des z-Werts (=Diff/SE(Diff))
– Ermittlung des p-Werts
Vergleich mehrerer Gruppen von Studien: Q-Test
(ähnlich wie ANOVA)
- H0: Die wahre Effektgröße theta ist für alle Gruppen gleich.
- Q(gesamt) = Q(zwischen) + Q(innerhalb)
- Signifikanzprüfung von Q(zwischen): Chi-Square Test mit df = Anzahl Gruppen - 1
Wie werden Subgruppen im Modell mit Zufallseffekten miteinander verglichen (Moderatorenanalyse)?
Gleiches Vorgehen wie im Modell mit festen Effekten nur mit anderen Schätzern für mittlere Effekte und Varianzen/Gewichten (z-Test bzw. Q-Test). Die Annahme ist, dass Heterogenität vorliegt, also dass die Subgruppen unterschiedliche Verteilungen der wahren Effekte aufweisen.