7. VL: Evaluation der Fragebogen und das Pretest-Verfahren von Anderson & Gerbing (1991) Flashcards by shona schindler

Fragebogen müssen evaluiert werden bevor sie wirklich eingesetzt werden.
Welche Verfahren stehen hierfür, bei der Testerhebung im Feld, zur Verfügung?

Standard-Pretest
Behaviour Coding
Random Probe
Analyse der Antwortalternativen

How well did you know this?

Not at all

Perfectly

Welche Evaluationsverfahren gibt es für kognitive Laborverfahren?

Probing
Think-Aloud
Confidence Rating
Paraphrasing
Sorting-Verfahren

How well did you know this?

Not at all

Perfectly

Wie wird ein Standard-Pretest durchgeführt?

Es handelt sich um die einmalige Erhebung eines Fragebogens (bzw. Durchführung der Interviewerhebungen) unter möglichst realistischen Bedingungen (wie in Hauptstudie).

Durchführung von 20 bis 50 Interviews.
Interviewer haben die Aufgabe, Probleme und Auffälligkeiten bei der
Durchführung der Interviews zu beobachten und zu berichten.
In der Regel handelt es sich um ein passives Verfahren, d.h. der Interviewer beobachtet nur, ohne aktiv zu hinterfragen.

How well did you know this?

Not at all

Perfectly

Was sind jeweils die Stärken und Schwächen eines Standard-Pretest?

Stärken:

die Kosten sind relativ niedrig.
Eine annähernd realistische Schätzung der Befragungsdauer

Schwächen:
- Fragen, die Befragte formal „korrekt“ beantworten, sind nicht unbedingt „gut konstruiert“. Auch - formal - korrekten Antworten kann ein falsches Fragenverständnis zu Grunde liegen.

Die Instruktion an die Interviewer, was sie beobachten und berichten sollen, ist meist wenig präzise.
Interviewer berichten trotz intensiver Schulung bei weitem nicht alle im Standard-Pretest aufgetretenen „Probleme“.

How well did you know this?

Not at all

Perfectly

Was passiert beim Behaviour Coding?

Das Verhalten von befragter Person und Interviewer wird mit Hilfe des Codesystems systematisch registriert. Durch diese Eigenschaft der Technik lassen sich Rückschlüsse auf die Qualität einer Frage ziehen.

„Coder“ bewerten das auf Tonband aufgezeichnete Interview, d.h. sie bewerten Interviewer- und Befragtenverhalten mittels eines Code- systems, das mehr oder weniger umfangreich sein kann.

How well did you know this?

Not at all

Perfectly

Was sind Stärken und Schwächen von Behaviour Coding?

Stärken:

sehr reliabel
deckt auch Interviewer-Probleme auf

Schwächen:
- Hinweise auf mögliche Ursachen für inadäquates Verhalten werden nicht erfasst.

Trotz formal korrekter Antwort kann ein falsches Fragenverständnis zu Grunde liegen.
Interviews müssen auf Band aufgezeichnet werden.

How well did you know this?

Not at all

Perfectly

Auf was achtet man sich bei der Analyse der Antwortverteilung?

Über die Häufigkeitsverteilung von Antwortalternativen lassen sich - meist nur grobe - Rückschlüsse auf die Qualität einer Frage ziehen. Indikatoren für Fragenmängel sind dabei in der Regel:

nicht oder nur minimal besetzte Antwort-Kategorien
extreme Häufigkeitsverteilung über die Antwort-Kategorien.
hohe Häufigkeitswerte bei sog. „Ausweichkategorien“, wie z.B. „weiss nicht“

Sinnvoll ist dieses Verfahren nur bei einer genügend großen Fallzahl.

How well did you know this?

Not at all

Perfectly

Was ist das Ziel vom Probing (Nachfragen) und das Random Probing?

Das Überprüfen des Verständnisses der gesamten Frage oder von Teilaspekten der Frage.

Random Probing:
Jeder Interviewer wählt nach einem Zufallsverfahren bestimmte Fragen aus, bei denen Zusatzfragen (Prozess) zum Verständnis gestellt werden müssen.

How well did you know this?

Not at all

Perfectly

Was sind Stärken und Schwächen des Probings?

Stärken:
Hinweis aus Verständnisprobleme auch bei - formal - korrekten Antworten.

Schwächen:

Sehr gutes, aber zugleich aufwendiges Verfahren
Zudem ist es nicht immer einfach, gute “Nachfragen” im Vorfeld zu entwickeln. Oft empfiehlt es sich, die Nachfragen selbst einem kurzen Vortust zu unterziehen.

How well did you know this?

Not at all

Perfectly

Es gibt verschiedene Varianten von Nachfragetechniken. Welche?

Nachfragen zum Verständnis
(Comprehension Probing)
Nachfragen zur Wahl der Antwortkategorie / des Skalenwertes
(Category Selection Probing):
Nachfragen zum Besitz relevanter Informationen
Nachfragen zur Informationsbeschaffung/-gewinnung
(Information
Retrieval Probing):
Unspezifische Nachfragen
(General Probing)

How well did you know this?

Not at all

Perfectly

Wie sieht das Nachfragen zum Verständnis aus?

Hierbei sollen die Befragten (in der Regel nach der eigentlichen Beantwortung der Frage) beschreiben, wie sie bestimmte Aspekte einer Frage oder eines Begriffs verstehen.

How well did you know this?

Not at all

Perfectly

Wie sieht das Nachfragen zu Wahl der Antwortkategorien/des Skalenwertes aus?

Hierbei wird gefragt, warum der Befragte eine bestimmte Antwortkategorie oder einen bestimmten Skalenwert gewählt hat.

Die Technik eignet sich zur Überprüfung, ob Befragte eine Frage möglicherweise nicht verstanden haben, obwohl sie diese ohne irgendwelche Hinweise auf Probleme beantwortet haben.

How well did you know this?

Not at all

Perfectly

Wie sieht das Nachfragen zum Besitz relevanter Informationen aus?

Hierbei wird die gegebene Antwort daraufhin hinterfragt, ob die Testperson über genügend Wissen/Informationen bezüglich des abgefragten Inhalts verfügt.

How well did you know this?

Not at all

Perfectly

Wie sieht das Nachfragen zur Informationsbeschaffung/-gewinnung aus?

Diese Technik wird bei retrospektiven Fragen eingesetzt und soll verdeutlichen, wie Befragte vorgehen, um sich an relevante Informationen zu erinnern.

Hierdurch erhofft man sich Hinweise darauf, inwieweit die gegebene Antwort verlässlich oder nur grob geschätzt ist und welche Probleme bei der Beantwortung auftraten.

How well did you know this?

Not at all

Perfectly

Wie sieht das unspezifische Nachfragen aus?

Hierbei sollen die Testpersonen angeben, ob sie bei der Beantwortung der Frage Probleme hatten. Wenn ja, wird nachgefragt, um welche Probleme es sich im Einzelnen handelt.

Nachteil:
Oft sind den Befragten die Probleme nicht bewusst bzw. wissen sie nicht, dass ihr Frageverständnis nicht mit dem vom Forscher intendierten Frageverständnis übereinstimmt.

Trotzdem sollte man auf diese Technik nicht verzichten und die spezifische Nachfrageprozedur durch eine generelle Nachfrage abschliessen, um so noch nicht angesprochene Probleme aufdecken zu können. (z.B. Gibt es noch andere Probleme, die wir bis jetzt bei der Frage noch nicht besprochen haben?)

How well did you know this?

Not at all

Perfectly

Wie sieht die Evaluation mit der “Think-Aloud” Technik aus?

Der Befragte wird aufgefordert, „laut zu denken“ und dabei sämtliche Gedankengänge, die zur Antwort führen bzw. führten zu formulieren.

Ziel:
Aus den Äusserungen Hinweise darüber zu erhalten, wie die ganze Frage oder einzelne Begriffe verstanden wurden.

Erkläre 1.) die Concurrent-Think-Aloud-Methode und 2.) die Retrospektive-Think-Aloud-Methode

Concurrent-Think-Aloud-Methode:
Die Befragten werden aufgefordert, laut zu denken, während sie ihre Antwort formulieren.

Retrospektive-Think-Aloud-Methode: Die Befragten werden aufgefordert, nach der Beantwortung der Frage zu beschreiben, wie die Antwort zustande kam.

Was prüft das Confidence Rating (= Bewertung der Verlässlichkeit einer Antwort)?

Es handelt sich um eine Technik zur Überprüfung der Antwortzuverlässigkeit bei Faktfragen (insbes. bei Rückerinnerungsfragen).

Hierbei gibt es zwei Varianten:
1. Offene Frage zur Verlässlichkeit: z.B. “Und wie genau ist ihre Antwort?”

Zur Frage nach der Verlässlichkeit werden Antwortkategorien vorgegeben, z.B.: (1) sehr genau, (2) ziemlich genau, (3) eher genau..
Be der Wahl der “unsicher” Kategorie sollte dann nach dem Grund gefragt werden: “Und warum ist Ihre Antwort ungenau/grob geschätzt?”.

Was sollen Befragte beim Paraphrasing tun?

Befragte sollen - nach der Beantwortung - die Frage mit eigenen Worten wiederholen bzw. formulieren.

“Bitte wiederholen Sie die Frage, die ich Ihnen eben vorgelesen habe noch einmall in Ihren eigenen Worten. Wie lautet die Frage?”

Was sind die Stärken des Paraphrasing?

Die Technik kann Hinweise geben, welche inhaltlichen Aspekte Befragte mit einer Frage verbinden, und ob der Fragetext in allen Aspekten erinnert werden kann.

Welche Hinweise sollen Sporting-Verfahren geben?

Sorting-Verfahren sollen vornehmlich Hinweise darüber geben, wie Befragte Begriffe kategorisieren bzw. als Konzept verstehen.

Welche zwei Varianten von Sporting-Verfahren gibt es?

Free Sort:
Befragte sollen vorgegebene Items nach eigenen Kriterien gruppieren. Die Items werden dabei auf Kärtchen vorgegeben und sollen in selbstdefinierte Gruppen bzw. „Häufchen“ sortiert werden.
Dimensional Sort:
Beim Dimensional Sort wird vorgegangen wie beim Free Sort, nur dass hier vorgegebene Items nach vorher festgelegten Kriterien (z.B. Zuordnung der Items zu vorgegebenen Kategorien) sortiert werden sollen.

Welchen Ansatz verfolgt die Pretest-Methode von Anderson & Gerbing (1991)?

Der Ansatz von Anderson & Gerbing besteht darin, dass die inhaltliche Validität von Fragebogen Items wie folgt kontrolliert werden kann:

Nachdem Items konstruiert wurden, die bestimmte Konstrukte erfassen sollen, werden einige Personen gebeten, die Items denjenigen Konstrukten zuzuordnen, die diese nach ihrer eigenen (!) Meinung erfassen.

Befragen kann man bei dieser Methode sowohl Experten als auch ausgewählte Personen aus derjenigen Grundgesamtheit, für die der Fragebogen entwickelt wurde (sog, Key-Informants).

Vorteil:
Im Gegensatz zur „klassischen“ Pretest-Methode reichen hierbei ca. 15 bis 20 Untersuchungsteilnehmer meist aus.

Wie geht man beim Sorting nach Anderson & Gering vor?

Man legt der Personen sowohl die Item-Liste (züfällige Reihenfolge) vor als auch kurze Beschreibungen der zu erfassenden Konstrukte vor.

Die Befragten sollen nun jedes Item demjenigen Konstrukt zuordnen, zu dem es am besten passt.

Hierbei darf jedes Item nur einem Konstrukt zugeordnet werden (dorret choice).

In einer Untersuchung haben wir das Verfahren mit dem SATS-28 durchgeführt. Hierbei handelt sich um einen Fragebogen zur Erfassung von Einstellungen zu Statistik. Der Fragebogen umfasst 28 Items und soll in 4 Dimensionen der Einstellung zugeordnet werden. Nenne die 4 Dimensionen.

1. Affekt Positive und negative Gefühle im Hinblick auf Statistik 2. Kognitive Kompetenz Einstellung zu eigenem intellektuellem Wissen und eigenen Fähigkeiten im Hinblick auf Statistik. 3. Wert Einstellungen zu Nutzen, Relevanz und Wert von Statistik im persönlichen und beruflichen Leben 4. Schwierigkeit Allgemeine Einstellungen zur Schwierigkeit von Statistik

Was passiert nach der Kategorisierung der Items?

Nachdem alle Teilnehmer jedes Item kategorisiert hatten, wurden die Daten in SPSS eingegeben. Hierbei wurde für jeden Probanden (Zeilen in der Datei) für jedes Item (Spalten in der Datei) die ausgewählte Kategorie eingetragen

Wie wertet man die Daten aus?

Als Indikator für die inhaltliche Validität eines Items gilt das Ausmass der Übereinstimmung zwischen der Zuordnung durch die befragten Personen und der Zuordnung gemäss Theorien.

Für jedes Item lassen sich zwei verschiedene Masse der Validität berechnen. Beschreibe das erste Mass.

1. Das Ausmass, mit dem ein Item dem ihm aufgrund theoretischer Überlegungen zugeordneten Konstrukt von den Befragten tatsächlich zugerechnet wird. (Sz: Ausmass substanzieller Zustimmung) Sz=Nc/N Nc: Anzahl der Befragten, die das Item der Theorie entsprechend zugeordnet haben. N: Gesamtzahl der Befragten

Für jedes Item lassen sich zwei verschiedene Masse der Validität berechnen. Beschreibe das zweite Mass.

2. Das Ausmass, mit dem ein Item dem der Theorie entsprechenden Konstrukt im Vergleich zu dem am häufigsten genannten anderen Konstrukt zugerechnet wird. (Ksv: substanzielle (oder auch inhaltliche) Validität) Ksv = (Nc - No) / N No: die höchste Anzahl von Zuordnungen des Items zu einem anderen Konstrukt repräsentiert.

Ab wann gilt ein Item als "inhaltlich valide"?

Für den Koeffizienten der substanziellen Itemvalidität Ksv lässt sich auf der Basis von Binomialtests das jeweilige Signifikanzniveaus berechnen. In der Praxis wählt man jedoch meist einfach den von den Autoren vorgeschlagenen Grenzwert: Beide Koeffizienten sollten ≥ 0.5 sein.

Beschreibe das praktische Vorgehen bei der Auswertung.

Nachdem alle Daten in SPSS eingetragen sind, kann man die Auswertung durchführen. Hierzu wählt man alle Items, die theoretisch zu einer Dimension gehören (z.B. kognitive Kompetenz) für eine Häufigkeitstabelle aus. Dan erhält man eine Häufigkeitstabelle für alle Items, die die kognitive Kompetenz erfassen sollen. Aus den Daten kann man dann leicht die Validitätsindizes berechnen. Nc ist die Zahl pro Item, die zu der gewünschten Dimension gehören. No ist die zweithöchste Zahl bei einer unerwünschten Dimension. N ist die Summe aller Antworten.

Ziehe ein Fazit zur Evaluation von Interview- bzw. Fragebogen Fragen.

- Es gibt keine Methode, die in allen Problembereichen zufriedenstellen arbeitet. - Falls irgend möglich sollten daher mehrere Verfahren eingesetzt werden.