M1 F5 Flashcards
Was setzt die Prüfung von Veränderungshypothesen voraus?
Dass die abhängigen Variablen mindestens einmal vor (sogenannter Prätest) und einmal nach (Posttest) den Interventionen mit geeigneten Datenerhebungsmethoden gemessen werden.
(In unserer Studie zum selbstregulierten Lernen (vgl. Abschnitt 7.1, Beispiel 2) wurde ein Prätest vor den Unterrichtseinheiten durchgeführt, in dem die Fähigkeit zum selbstregulierten Lernen mit einem Fragebogen zur Selbsteinschätzung und der Wissensstand zum Thema Ernährung mit einem Multiple-Choice-Test erfasst wurden. Im ersten Posttest nach der achtstündigen Unterrichtseinheit wurde selbstreguliertes Lernen mit demselben Fragebogen erhoben, der Wissenstand zum Thema Ernährung allerdings mit einem Lückentext, in den die Schülerinnen und Schüler die richtigen Begriffe eintragen mussten. Zum zweiten Posttest wurde wieder ein MC-Test zum Thema der fünfstündigen Lehreinheit vorgelegt. Zu diesem Thema (es ging um die Fähigkeit in umweltbezogenen Alltagssituation systematisch Entscheidungen zu treffen) wurde kein Prätest durchgeführt.)
Erzähle was über Störvariablen.
Die kausale „Rückführung“ der abhängigen Variable auf die unabhängige Variable kann durch eine Vielzahl von Störvariablen beeinträchtigt werden. Wenn z.B. der Effekt eines Programms (Treatment) zur Verbesserung des selbstregulierten Lernens (abhängige Variable) untersucht werden soll, dann kann es sein, dass sich in der Experimentalgruppe (EG) von vorneherein Schüler befinden, die diese Fähigkeit in höherem Ausmaß aufweisen als die Schüler der Kontrollgruppe (KG), die das Treatment nicht erhält. Unterschiede zwischen EG und KG nach dem Treatment wären dann nicht mehr eindeutig auf das Lernprogramm rückführbar. Die Unterschiede zwischen EG und KG bestanden ja schon vor dem Lernprogramm. Möglicherweise hatte das Lernprogramm gar keinen positiven Effekt auf den Lernerfolg der ohnehin leistungsstarken Schüler in der EG, zumindest aber ist der Effekt durch die bestehenden Unterschiede vor dem Treatment überlagert, man sagt auch konfundiert. In der quasiexperimentellen Untersuchung zum selbstregulierten Lernen konnten solche Pretestunterschiede ausgeschlossen werden, da sich die EG und die KG im Hinblick auf die Fähigkeit zum selbstreguliertes Lernen, die mit Hilfe eines Fragebogens vor den Treatments erfasst wurde, nicht unterschieden. Störvariablen können auch Störungen im Wortsinn sein, z.B. Lärm, der die Konzentration bei einem Wahrnehmungsexperiment beeinträchtigt.
Wie können Störvariablen kontrolliert werden?
Hierfür stehen verschiedene Verfahren zur Verfügung. So können Störvariablen eliminiert, konstant gehalten oder als weitere unabhängige Variablen untersucht werden. Manche Störvariablen, z.B. Lärm, können u.U. eliminiert werden. Bereits bestehende Unterschiede in der abhängigen Variable vor dem Treatment können konstant gehalten werden. Für die Konstanthaltung von Störvariablen gibt es wiederum den „Königsweg“ der Randomisierung: Bei genügend großer Stichprobe (mindestens > 60) werden die Probanden per Zufall der EG und der KG zugewiesen; man kann nun wahrscheinlichkeitstheoretisch zeigen, dass sich – immer eine möglichst große Stichprobe vorausgesetzt – Störvariablen durch Randomisierung in der EG und in der KG gleich verteilen. Anders ausgedrückt werden durch Randomisierung dieselben Bedingungen in der EG und in der KG hergestellt, so dass Unterschiede weitestgehend auf das Treatment zurückgeführt werden können. Die Bedeutung der Herstellung von möglichst identischen Bedingungen in der EG und KG (sogenanntes ceteris paribus-Kriterium) für kausale Schlussfolgerungen wird in Abschnitt 7.5.3 noch genauer erläutert.
Was kann man tun, wenn die Stichproben zu klein für Randomisierungen sind?
Häufig stehen ausreichend große Stichproben in der Psychologie nicht zur Verfügung, so dass die Randomisierung nicht zur Herstellung gleicher Bedingungen in der EG und KG führt. Wenn wir beispielsweise nur 30 Schüler untersuchen können und je 15 zufällig der EG (mit Lernprogramm) und der KG (ohne Lernprogramm) zuweisen, dann ist nicht unbedingt gewährleistet, dass sich dabei Leistungsunterschiede zwischen den einzelnen Schülern in der EG und KG gleich verteilen. Bei kleinen Stichproben empfiehlt sich deshalb die Parallelisierung, um Unterschiede zwischen den Probanden konstant zu halten. In unserem Beispiel würde man 15 Paare mit je zwei Schülern bilden, die in Mathematik denselben oder einen sehr ähnlichen Notendurchschnitt haben. Bei jedem Paar wird dann per Münzwurf entschieden, welcher der beiden Schüler der EG und welcher der KG zugewiesen wird. Durch Parallelisierung (auch Matching genannt) wird dafür gesorgt, dass sowohl in der EG als auch in der KG ein ähnlicher Mittelwert im Hinblick auf eine Störvariable vorliegt und dass sich die Störvariable in den beiden Gruppen ähnlich verteilt. In unserem Beispiel werden durch Parallelisierung der EG und der KG sowohl Schüler mit hohem, mittleren und niedrigem Notendurchschnitt in Mathematik zugewiesen.
Erkläre vor und Nachteile von Labor- vs. Feldexperimenten!
In einem Experiment werden die Effekte des oder der treatments oft in einer streng kontrollierten Laborsituation hervorgerufen und objektiv beobachtet. Experimente oder Quasi-Experimente (vgl. Abschnitt 7.3) können aber auch im Feld, d.h. unter natürlichen Bedingungen durchgeführt werden. In einem Feldexperiment können die unter Bedingung (2) genannten Störvariablen weniger gut kontrolliert werden als in einem Laborexperiment, was eine eindeutige Kausalinterpretation u.U. erschwert (geringere interne Validität). Umgekehrt stellt sich die Frage, inwieweit die in einer künstlichen und hoch kontrollierten Laborsituation gefundenen Effekte überhaupt auf ähnliche reale Situationen übertragbar sind (Problem der externen Validität, vgl. Abschnitt 7.2.3). Sowohl bei der Untersuchung zum Mere-Exposure-Effekt als auch bei der quasi-experimentellen Interventionsstudie zum selbstregulierten Lernen handelt es sich um Feldexperimente.
Wie kann man Designs darstellen?
In einer experimentellen oder quasi-experimentellen Untersuchung gibt es viele Möglichkeiten zur Kombination von Treatments und zur Messung von abhängigen Variablen. Zur Formalisierung und Veranschaulichung der Vielfalt (quasi)experimenteller Designs haben Cook und Campbell (1979) sowie Shadish, Cook und Campbell (2002) ein Notationssystem entwickelt, das wir im Folgenden vorstellen möchten. Das Notationssystem ist hilfreich, um sich die Bedingungen und Messzeitpunkte in Experimenten zu vergegenwärtigen, um Experimente zu bewerten und eigene Experimente zu entwickeln.
Was bedeutet im Notationssystem von Cook, Campbell und Co. EG, KG, R, O und X (mit Indices)?
In dem Notationssystem werden folgende Symbole zeilen- bzw. spaltenweise kombiniert:
• zeilenweise werden die Untersuchungsgruppen (EG, KG) und die jeweiligen Treatmentbedingungen in ihrer zeitlichen Reihenfolge dargestellt;
• die Bildung der Untersuchungsgruppen durch Zufallszuordnung wird durch ein vorangestelltes R (für Randomisierung) dargestellt. Ein R in Klammern (R) indiziert eine – für quasiexperimentelle Studien z.T. mögliche – Randomisierung von natürlichen Gruppen, z.B. Schulklassen, d.h. bestimmten Schulklassen wird per Zufall ein Treatment zugewiesen. Es handelt sich dabei um keine „echte“ Randomisierung, die der Fall wäre, wenn jede/r Schüler/in per Zufall einer Klasse mit oder ohne Treatment zugewiesen werden würde, was aber aus institutionellen Gründen nicht möglich ist. Wenn gar nicht randomisiert wird, wenn also weder eine echte Randomisierung noch eine Randomisierung von Gruppen durchgeführt wurde, wird das vorangestellte R komplett weggelassen. Letzteres war in der Untersuchung zum selbstreguliertem Lernen der Fall, da nur solche Klassen am Trainingsprogramm teilnahmen, deren Lehrer sich dazu bereit erklärten.
•die Durchführung einer Erhebung von abhängigen Variablen wird durch ein O („observation“) mit Index für den Erhebungszeitpunkt dargestellt (z.B. Vorund Nachtest);
•die Durchführung des „Treatments“ als experimentelle Maßnahme wird durch ein X dargestellt; mehrere verschiedene Treatments werden nummeriert (X1, X2, X3 usw.);
•untereinander stehende „Operationen“ werden zeitgleich in den entsprechenden Untersuchungsgruppen durchgeführt.
(siehe F S. 151)
Erkläre die Unterscheidung zwischen Within-subjects-designs vs. between-subjects-designs!
In sogenannten between-subjects-designs wird jede Person nur einer Stufe der unabhängigen Variable zugeordnet. Anders ausgedrückt nimmt jede Person nur an einer experimentellen Bedingung teil. In den bisherigen Beispielen war immer ein solches between-subjects-design realisiert. Insbesondere in allgemeinpsychologischen Experimenten ist es aber auch möglich, dass dieselben Personen nacheinander alle experimentellen Bedingungen absolvieren. In diesem Fall liegt ein within-subjects-design vor, das nicht mit einem between-subject-design mit Messwiederholung verwechselt werden darf. Ein gutes Beispiel für ein within-subjects-design wird in dem Lehrbuch von Sedlmeier und Renkewitz (2008) gegeben, die auch die Vor- und Nachteile dieser beiden Designtypen ausführlich diskutieren. Bei dem Beispiel handelt es sich um ein Gedächtnisexperiment mit dem zweistufigem Faktor: einsilbige Wörter vs. mehrsilbige Wörter. Aufgabe der Probanden ist es, die einbzw. mehrsilbigen Wörter zu lernen und wiederzugeben.
Was sind Mehrfaktorielle Experimente?
In einem Experiment können mehrere Treatments bzw. unabhängige Variablen realisiert sein. In Anlehnung an die Terminologie der Varianzanalyse wird die unabhängige Variable/das Treatment auch als experimenteller Faktor bezeichnet. Es gibt also drei Bezeichnungen, für das, was von einem Untersucher in einer experimentellen Studie variiert bzw. manipuliert wird: Unabhängige Variable, Treatment oder Faktor. Wenn mehrere Faktoren realisiert und variiert werden, spricht man von einem mehrfaktoriellen, z.B. von einem zweifaktoriellen Experiment. Die Interventionsstudie zum selbstregulierten Lernen ist ein solches zweifaktorielles Experiment: der erste Faktor beinhaltet die unterschiedlichen Unterrichtseinheiten mit bzw. ohne Anregungen zum selbstreguliertem Lernen; der zweite Faktor ist die Messwiederholung. Die wiederholte Messung der abhängigen Variablen wird u.a. deshalb als eigener Faktor aufgefasst, weil die mehrfache Durchführung eines Tests bzw. die Anwendung eines Erhebungsinstruments als eigenes Treatment aufgefasst werden kann bzw. muss. Diese Auffassung lässt sich besonders gut bei Präund Posttests verdeutlichen, die Leistungen erfassen. Durch die wiederholte Vorgabe solcher Tests können Lerneffekte auftreten, die das eigentliche Treatment (z.B. die unterschiedlichen Unterrichtseinheiten) überlagern.
Was sind Faktorstufen?
Eine weitere Differenzierung kann innerhalb eines einzelnen Faktors vorgenommen werden. Ein Faktor weist stets mindestens zwei oder auch mehr sogenannte Stufen auf. Die Faktorstufen indizieren die Variation des Treatments, z.B. umfasst in unserer quasi-experimentellen Interventionsstudie zum selbstregulierten Lernen der Faktor Unterrichtseinheit drei Stufen: Stufe 1: Unterrichtseinheit zum Thema Ernährung und selbstreguliertem Lernen; Stufe 2: Unterrichtseinheit zum Thema Ernährung ohne selbstreguliertes Lernen und Stufe 3: Unterrichtseinheit zu einem anderen Thema. Der Faktor Messwiederholung beinhaltet für die AV selbstreguliertes Lernen 2 Stufen, einen Prätest vor der Unterrichtseinheit mit bzw. ohne Anregung zum selbstregulierten Lernen und einen Posttest nach diesem Treatment. Im Experiment zum Mere-Exposure-Effekt liegt ebenfalls ein dreistufiger Faktor vor: Stufe 1: Sehenswürdigkeiten mit zitro-Werbung; Stufe 2: Sehenswürdigkeiten mit pfeffi-Werbung, Stufe 3: Sehenswürdigkeiten ohne Werbung. Im einfachsten Fall kann ein Faktor, z.B. Training, nur zwei Stufen aufweisen, nämlich Stufe 1: Training und Stufe 2: kein Training.
Was sind Interaktionseffekte?
In mehrfaktoriellen Experimenten können neben den Haupteffekten der einzelnen Faktoren sogenannte Interaktionseffekte geprüft werden, in denen die Wechselwirkung von zwei oder mehr Faktoren zum Ausdruck kommt. In der Interventionsstudie zum selbstregulierten Lernen resultierten für diese Fähigkeit sowohl ein Haupteffekt des Faktors Unterrichtseinheit und des Messwiederholungsfaktors sowie ein Interaktionseffekt. Diese Effekte wurden im Rahmen einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf dem zweiten Faktor ermittelt. Inhaltlich besagen diese Effekte Folgendes: Der Haupteffekt des Faktors Unterrichtseinheit bedeutet, dass sich die Trainingsgruppe von der Kontrollgruppe unterscheidet; allerdings wird statistisch gesehen bei diesem Effekt die Messwiederholung nicht berücksichtigt; vielmehr werden die jeweiligen Werte des Prä- und Posttests für selbstreguliertes Lernen sowohl in der EG als auch in der KG über die beiden Messzeitpunkte gemittelt und anschließend verglichen. Analog wird beim Haupteffekt des Messwiederholungsfaktors verfahren: Hier werden die Werte des Präund Posttests jeweils über die beiden Gruppen gemittelt und es wird ein Effekt der Messwiederholung ermittelt, der von möglichen Gruppenunterschieden absieht. Erst der Interaktionseffekt der beiden Faktoren Unterrichtseinheit und Messwiederholung ermöglicht die Aussage, dass sich das selbstregulierte Lernen in der Experimentalim Vergleich zur Kontrollgruppe vom Prätest zum Posttest unterscheidet (vgl. das Beispiel zum Interaktionseffekt in Kap. 7.2.6).
Warum ist die Dokumentation in Experimenten so wichtig?
Insgesamt ist es für jede Art von Untersuchungen im Labor und besonders im Feld wichtig, (a) Merkmale der untersuchten Personen für jede Gruppe der Untersuchung festzuhalten und (b) die situativen Bedingungen möglichst genau zu dokumentieren. Je weniger die Bedingungen in verschiedenen Untersuchungsgruppen konstant gehalten werden können, desto wichtiger ist die Dokumentation eventueller Unterschiede, durch die gelegentlich gerade unerwartete Unterschiede in der abhängigen Variable zwischen den Gruppen erklärt werden können.
Eine solche Dokumentation ist für jede Kumulation von Forschungsbefunden notwendig bzw. hilfreich bei der Erklärung von Unterschieden, die nicht selten zwischen ähnlich angelegten Untersuchungen bzgl. der festgestellten Effekte ähnlicher Treatments auftreten. Wenn die gesamte Untersuchungssituation als eine Konstellation von situativen Bedingungen, den beteiligten Personengruppen (inkl. der Versuchsbzw. Gruppenleitung) und dem in der Instruktion bzw. im Treatment festgelegten „Verhaltensprogramm“ (im Sinne der Komponenten eines „Behavior Settings“ von Barker, 1968) aufgefasst werden, dann wird deutlich, wie detailliert die Beschreibung des Untersuchungssettings erfolgen muss, um eventuelle Unterschiede in der abhängigen Variable zwischen ähnlichen Untersuchungen erklären zu können.
Ist Validität ein Mermal von Untersuchungsdesigns?
Nein. Validität ist kein Merkmal von bestimmten Untersuchungsdesigns, sondern ein Merkmal der Schlussfolgerungen, die wir vor dem Hintergrund einer empirischen Studie, in der ein bestimmtes Design umgesetzt wurde, ableiten. Eine Schlussfolgerung wird in der Regel in Form eines Satzes formuliert, der eine Aussage darüber macht, ob eine zuvor aufgestellte Hypothese in einer gegebenen empirischen Studie zutrifft oder nicht. Solche Schlussfolgerungen werden im letzten Teil eines empirischen Artikels, der sogenannten Diskussion (vgl. Abschnitte 2.2.2.1 sowie 6.2.3 in KE 1 von Kurs 3402), formuliert. So heißt es bei Blüher und Pahl (2007, S. 213): „Wir führten diese Studie im Rahmen des „Mere-Exposure“-Paradigmas durch und zeigten, dass die mehrfache subtile Darbietung eines vorher unbekannten Stimulus nachfolgend zu einer Auswahlpräferenz gegenüber einem Alternativ-Stimulus führte.“ Und Labuhn et al. (2007, S. 21) folgern: „Die Resultate des Prätest-Posttest-Vergleichs deuten insgesamt auf eine positive Wirkung der Unterrichtsintervention hin. Der signifikante Interaktionseffekt auf der Gesamtskala spricht für einen Anstieg der Selbstregulation bei den Schülern der Trainingsgruppe.“
Ist Validität absolut oder relativ?
Validitätsaussagen sind niemals absolut, sondern immer nur relativ und vorläufig zu verstehen. Kein empirischer Forscher würde auf die Idee kommen, auf Basis einer einzigen empirischen Studie zu schlussfolgern, dass eine darin bestätigte Hypothese „immer und überall“ gilt und richtig ist. Vielmehr wird die relative Validität einer Aussage bzw. Schlussfolgerung über empirische Zusammenhänge aus mehreren empirischen Studien abgeleitet, in denen unterschiedliche Methoden eingesetzt und in denen u.U. verschiedene theoretische Perspektiven berücksichtigt wurden. Die Validität von Schlussfolgerungen bzw. Aussagen muss also vor dem Hintergrund bzw. innerhalb eines Prozesses beurteilt werden, in den bereits durchgeführte Studien und darauf bezogene Theorien und Methoden eingehen.
Nenne die vier Gütekriterien für Validität!
Die Validität einer experimentellen Untersuchung lässt sich mit Shadish et al. (2002) vor dem Hintergrund von vier Gütekriterien beurteilen: Neben der internen und externen Validität, die in den meisten Lehrbüchern angesprochen werden, spielen auch die Konstruktvalidität und die statistische Validität eine bedeutsame Rolle. Diese vier Validitätsarten bzw. Gütekriterien für experimentelle Untersuchungen werden im Folgenden kurz skizziert. Es sei an dieser Stelle darauf hingewiesen, dass die vier Gütekriterien auch zur Beurteilung von quasiexperimentellen und korrelativen Designs, Einzelfallstudien und Ex-post-FactoAnordnungen herangezogen werden können.
Wann ist ein Meßverfahren valide?
Der Begriff Validität wurde bereits im Kapitel 5 zur Messtheorie eingeführt: ein Messverfahren (Fragebogen, Test etc.) ist valide, wenn es genau das psychologische Konstrukt misst, das gemessen werden soll – und seine Ergebnisse nicht systematisch von anderen situativen oder personalen Merkmalen bei der Erhebung abhängen. Wenn dieses Kriterium erfüllt ist, können Unterschiede zwischen den Messwerten verschiedener Personen hauptsächlich auf Unterschiede in der Ausprägung des zu messenden psychologischen Konstruktes zurückgeführt werden – von Messfehlern abgesehen.
Was ist interne Validität?
Eine experimentelle Untersuchung ist intern valide, wenn die kausale Interpretation der Ergebnisse inhaltlich eindeutig ist wenn also ein aufgetretener Effekt (als Unterschied im Wert der abhängigen Variable) zwischen der Versuchs- und Kontrollgruppe eindeutig auf das Treatment zurückgeführt werden kann und der Einfluss von Störvariablen kontrolliert oder ausgeschaltet wurde.
Was ist “local molar causal validity”?
Campbell (1986) hat das Konzept der internen Validität mit Hilfe der etwas umständlichen Formulierung „local molar causal validity“ präzisiert. Mit dem Adjektiv „causal“ wird unterstrichen, dass es in der Tat um kausale Schlussfolgerungen geht. Das Wort „local“ indiziert, dass sich die kausalen Schlussfolgerungen lediglich auf den lokalen Kontext einer empirischen Untersuchung beziehen, also auf das gewählte Treatment, die an der Studie beteiligten Personen sowie die Ergebnisse und Rahmenbedingungen der vorliegenden Studie. Besonders bedeutsam ist das Wort „molar“ in diesem Zusammenhang. Molar ist das Gegenteil von molekular. Im Kontext experimenteller Untersuchungen insbesondere zur Evaluation von Interventionen wie der Unterrichtseinheit zum selbstregulierten Lernen bedeut molar, dass die lokalen, kausalen Effekte von Treatments untersucht werden, die komplexe „Pakete“ ganz unterschiedlicher molekularer Bedingungen repräsentieren. Ein Lernprogramm oder gar eine Therapie umfasst bestimmte verbale Instruktionen bzw. Äußerungen, die zu bestimmten Zeitpunkten, auch in Abhängigkeit von den Fragen bzw. Reaktionen der Probanden gegeben werden. Die verbalen Äußerungen werden von non- und paraverbalen Signalen begleitet. Im Fall einer Intervention in einer Schulklasse oder anderen Trainingsgruppe wird sich zudem eine bestimmte (bereits vorhandene) Gruppendynamik (weiter)entwickeln. Ein Treatment findet außerdem in einer bestimmten Umgebung statt, die durch physikalische und räumlich-materiale Bedingungen gekennzeichnet ist (Größe eines Raumes, Temperatur, Lichtverhältnisse etc.). All diese komplexen und potenziell interagierenden Bedingungen sind mit einem Treatment verbunden. Natürlich kann und soll man Experimente auch so gestalten, dass weniger molare Treatments zum Einsatz kommen. Im Laufe eines Forschungsprogramms macht es z.B. Sinn, die unterschiedlichen Komponenten eines Lernprogramms bzw. einer Therapie differenzierter zu untersuchen. Aber auch bei einer solchen Isolierung einzelner Bedingungsfaktoren bleibt das Treatment immer noch mehr oder weniger molar. Shadish et al. (2002, S. 54) bringen es auf den Punkt:
“Understood as local molar causal validity, internal validity is about whether a complex and inevitably multivariate treatment package caused a difference in some variable-as-it-was-measured within the particular setting, time frames, and kinds of units that were sampled in a study.”
Wie hängen Nullbefunde und Validität zusammen?
Bei der Definition der internen Validität einer Untersuchung werden „Nullbefunde“ oft vernachlässigt, die dann vorliegen, wenn kein (signifikanter) Unterschied zwischen der Experimentalund Kontrollgruppe festgestellt werden kann. In diesem Fall muss die Hypothese, nach der das Treatment einen Effekt auf die abhängige Variable hat, verworfen werden. Aber auch diese Schlussfolgerung muss geprüft werden und ist nur dann valide, wenn es keine Störfaktoren gibt, die zu diesem Ergebnis geführt und den „wahren“ Effekt verdeckt haben könnten.
Was ist Statistische Validität?
Die statistische Validität ist eng mit der internen Validität verknüpft. Wenn wir nach der Durchführung eines Experiments schlussfolgern, dass ein Treatment die abhängige Variable kausal beeinflusst hat, dann tun wir das vor dem Hintergrund statistischer Analysen. Statistische Analyseverfahren werden Sie im Verlaufe Ihres Studiums, insbesondere in Modul 2, näher kennen lernen. Bereits an dieser Stelle sei darauf hingewiesen, dass man bei der Auswahl und Durchführung statistischer Analyseverfahren und der Interpretation der resultierenden Ergebnisse viel falsch machen kann. So sind statistische Verfahren an bestimmte Voraussetzungen gebunden (z.B. ein bestimmtes Skalenniveau, vgl. Kapitel 5), die mehr oder weniger verletzt sein können, die Messinstrumente zur Erfassung der AV können nur eine geringe Reliabilität aufweisen oder die Messungen der AV können sich um einige wenige Werte verteilen (sogenannte eingeschränkte Varianz). Diese und andere potentielle Beeinträchtigungen der statistischen Validität werden ausführlicher bei Shadish et al. (2002, S. 42ff) erläutert. Solche Beeinträchtigungen und Fehler im Rahmen statistischer Analysen gefährden dann die Gültigkeit kausaler Schlussfolgerungen in Experimenten.