3. Zentrale externe Einflussgrößen in der Organisations-Diagnostik Flashcards
- Externe Einflussgrößen als validitätsmindernde: Einflussquellen
In dieser Vorlesung soll der Versuch gemacht werden, diejenigen Einflussquellen auf den diagnostischen Prozess darzustellen, deren Einfluss man zwar nachweisen kann, deren Einfluss aber nicht gewollt wird.
Es geht also sowohl um die Entdeckung derartiger Fehlerquellen als auch um deren Kontrolle und nach Möglichkeit um ihre Elimination.
In der Vorlesung sollen sie erst einmal dargestellt werden
- Randbedingungen der Organisationsdiagnostik
Ein schlichter Basissatz der Diagnostik
-> Urteile über eigenes und fremdes Verhalten erfolgen im Kontext wissenschaftlicher Analysen anhand spezifizierter Kriterien oder Urteilsdimensionen mithilfe von Messverfahren
Allerdings: allein die Versuche, Urteilskriterien und Urteilsdimensionen zu finden, sind sehr schwierig ( Kriterien = Konstrukte)
• Konstrukte und deren Indikationen verändern sich z.B im Laufe der Zeit , und das bleibt nicht ohne Konsequenzen
- Externe Einflüsse auf die Leistungsbeurteilung
Die beiden „Grundgrößen“ im Beurteilungsprozess sind -> Die Beurteiler & die Beurteilten
• Effizienz eines Leistungsbeurteilungssystems wird i.d.R. nach formalen testtheoretischen Merkmalen eingestuft
• Nur selten werden die Reaktionen der Beurteilten auf den Beurteilungsprozess & die Beurteilungssituation thematisiert
Meta-Analyse von Hausknecht, Day und Thomas (2004)
- Untersucht Studien von Befragten, die tatsächlich an entsprechenden Auswahlprozessen teilgenommen haben (aber!!:
- Insgesamt 86 Stichproben mit N=48750 Befragten
- Von den Studien waren allerdings über 50% Laborstudien und fast 50% der Studien fanden in simulierten Kontexten statt
Ergebnisse:
• positiv beurteilte Auswahlprozeduren haben
Einfluss auf die positive Wahrnehmung der Organisationen und korrelieren mit der Bereitschaft, dort ein Stellenangebot anzunehmen
• Sowohl “Interviews” (d.h. persönliche
Auswahlgespräche) wie Arbeitsproben wurden
positiver beurteilt als Persönlichkeitsfragebogen,
Lebenslaufdaten und Integritätstests
- Wie bereits gesagt,
- sollten die Beurteilungen von Leistungen eigentlich auf der Basis der erbrachten Leistungen der Befragten erfolgen.
- Dass dies in der Regel und in dieser Allgemeinheit nicht zutrifft, zeigt die sog. „ Allgemeine Lebens-
- erfahrung“ und die im folgenden aufgeführten Meta- analysen.
- Die beiden wichtigsten externen Einflussgrößen, die hier dargestellt werden sind:
- A) die Geschlechtszugehörigkeit und
- B) die Hautfarbe bzw. ethnische Zugehörigkeit
- aber es gibt weitere, wie z.B.
- C) Diskriminierungen von Subgruppen
- D) Auswirkungen der verwendeten Methoden
Meta-Analyse von Hausknecht, Day und Thomas (2004)
- Untersucht Studien von Befragten, die tatsächlich an entsprechenden Auswahlprozessen teilgenommen haben (aber!!:
- Insgesamt 86 Stichproben mit N=48750 Befragten
- Von den Studien waren allerdings über 50% Laborstudien und fast 50% der Studien fanden in simulierten Kontexten statt
Ergebnisse:
• positiv beurteilte Auswahlprozeduren haben
Einfluss auf die positive Wahrnehmung der Organisationen und korrelieren mit der Bereitschaft, dort ein Stellenangebot anzunehmen
• Sowohl “Interviews” (d.h. persönliche
Auswahlgespräche) wie Arbeitsproben wurden
positiver beurteilt als Persönlichkeitsfragebogen,
Lebenslaufdaten und Integritätstests
- Wie bereits gesagt,
- sollten die Beurteilungen von Leistungen eigentlich auf der Basis der erbrachten Leistungen der Befragten erfolgen.
- Dass dies in der Regel und in dieser Allgemeinheit nicht zutrifft, zeigt die sog. „ Allgemeine Lebens-
- erfahrung“ und die im folgenden aufgeführten Meta- analysen.
- Die beiden wichtigsten externen Einflussgrößen, die hier dargestellt werden sind:
- A) die Geschlechtszugehörigkeit und
- B) die Hautfarbe bzw. ethnische Zugehörigkeit
- aber es gibt weitere, wie z.B.
- C) Diskriminierungen von Subgruppen
- D) Auswirkungen der verwendeten Methoden
A Meta-Analyse zur Geschlechtszugehörigkeit:
Meta-Analyse von Bowen, Swim & Jacobs (2000)
Kernthema:
• primär ist der “gender bias” bezüglich der Beur- teilung von Leistungen relevant (und eben nicht die
Führungsstile, die Führungskompetenzen oder andere relevante Merkmale auf der Management- Ebene)
• Die Untersuchung berücksichtigt ausschließl. Studien, in denen die Leistungen von Personen in real-existierenden Organisationen erhoben werden
Die größere Realitätsnähe derartiger Feldstudien wird allerdings durch erhebliche Probleme bei der Dateninterpretation beeinträchtigt, wie zu zeigen sein wird
Die Einzelheiten der Meta-Analyse
Insgesamt 138 Effektgrößen aus 32 Stichproben von 27 verschiedenen Arbeiten gingen in die MA ein
-> In 17 Studien wurden Beobachter-Ratings verwendet,
-> in sieben Selbstratings und
-> in drei Studien wurden sowohl Fremd- wie Selbstbeobachtungsdaten erhoben
-Zusätzlich wurden noch folgende potentielle Moderatoren berücksichtigt:
- die geschlechtsspezifische Zusammensetzung der Gruppe der Beurteiler und der Gruppe der Beurteilten
- das Ausmaß der “Stereotypikalität “der Berufe (d.h. die subjektive Einschätzung, ob ein Beruf
eher für Männer oder Frauen geeignet ist)
- das Ausmaß an Trainingserfahrung und das Ausmaß an Informationen über die Leistungen
eines Beurteilten - Außerdem wurden die Studien danach
klassifiziert, ob die Beurteilung durch Beobachter oder in Form von Selbstberichten erfolgte
-> Die Ergebnisse im einzelnen:
-> keine signifikanten Unterschiede für die Beurteilungsform,
einfach deshalb, weil nur die Resultate der 22 Stichproben berücksichtigt wurden, in denen Beobachter die Leistungsbeurteilung durchführten
-> Für die Unterscheidung der Berufe nach ihrer Stereotypikalität ergaben sich keine signifikanten Unterschiede
-> Ein deutlicher Geschlechtseffekt in Richtung einer positiveren Beurteilung männlicher Personen ergab sich16
-> dann, wenn sämtliche Beurteiler männlich waren
-> bei einer größeren Trainingserfahrung und besserer Information über die Beurteilten ergaben sich keine geschlechtsspezifische Bevorzugungen
-> wohl aber, wenn die Trainingserfahrung nur gering und die Information über die Beurteilten mittel-mäßig ausgeprägt war.
-> Unter diesen Bedingungen wurden die Leistungen der weiblichen Beurteilten positiver eingeschätzt
Einen unerwartet deutlichen Effekt erzielten die Besonderheiten der Messverfahren:
- Sowohl die Zahl der Items (n>10) als auch die stärker als stereotyp “feminin” eingestuften Beurteilungsdimensionen führten zu eindeutigen Bevorzugungen der weiblichen Beurteilten.
- Männer bzw. Frauen, deren Arbeitsleistung auf Verfahren eingeschätzt wurden, die als stereotyp maskulin oder als stereotyp feminin eingeschätzt wurden, erhielten auf den jeweils geschlechts-stereotypen Skalen auch die höheren Leistungswerte zugesprochen
• Die Produktion von Stereotypen und Vorurteile vor dem Beginn des eigentlichen Beurteilungsverfahrens, allein durch die Auswahl eines bestimmten Messverfahrens, sollte nicht nur nachdenklich stimmen, sondern Anlass für eine Replikation dieser Meta-analyse sein!
B Meta-Analyse zur ethnischen Zugehörigkeit:
Die Meta-Analyse von Kraiger & Ford (1985)
-> untersucht die Auswirkungen der ethnischen Zugehörigkeit von Ratern auf die Beurteilung von Leistungen
• und bezieht dabei die folgenden fünf Moderatoren, die als mögliche Einflussgrößen des Urteilsprozesses unterschieden werden sollten, mit ein:
- Erhebungssituation (Labor vs. Feld)
- Teilnahme (oder Nicht-Teilnahme) an entsprechenden Trainingskursen
- anteilsmäßigen Zusammensetzung der Arbeitsgruppe durch Mitglieder der Majorität bzw. Minorität
- Spezifizität (vs. Generalität) der Beurteilungsskala
- Zweck oder der Anlass der Untersuchung
Die Meta-analyse im einzelnen:
Insgesamt gingen 74 Effektgrößen aus 49 Studien mit N= 17159 Befragten in die MA ein , darunter 14 Effektgrößen und 2428 Personen, die durch „schwarze“ Beurteiler beurteilt wurden
Die Korrelation zwischen der ethnischen Zugehörig-
keit und der Leistung betrug ρ=.18,
d.h. es gab einen deutlichen Hinweis auf die bessere Leistungsbewertung der „Weißen“ durch „weiße“ Beurteiler mit einem ρ von .22 zeigte sich analog eine bessere Beurteilung der „Schwarzen“ durch „schwarze“ Beurteiler
Bei einer differenzierten Auswertung der Daten anhand der eingeführten Moderatoren zeigte sich:
Unter “Feldbedingungen” sind die Effektgrößen signifikant größer sind als im Labor
- Die übrigen Moderatoranalysen wurden nur für die insgesamt 64 Einzeleffekte (von 74) der Felduntersuchungen durchgeführt,
- erzielten aber weder für die Bedingung “Zweck der Untersuchung”, noch für die “Spezifität der Beurteilerskala” noch für die “Trainingsbedingung” signifikante Unterschiede
- Effekte der ethnischen Zugehörigkeit der Beurteiler auf die Beurteilung der Arbeitsleistung können also als nachgewiesen gelten
Die Meta-analyse von Ford, Kraiger und Schechtman (1986)
Untersucht die Wirkung der Unterscheidung zw. objektiven und subjektiven Leistungskriterien
• 53Stichproben(fürRatingbeurteilungen)bzw.49 Stichproben (für objektive Leistungsbeurteilungen)
Ergebnisse:
• „Weiße“werdeninLeistungenbesserbeurteilt
(zeigt auch Meta-Analyse v. Waldman&Avolio,1991)
• DieserZusammenhangfälltfürsubjektive Beurteilungen sign. stärker aus!
Die Meta-analyse von Ford, Kraiger und Schechtman (1986)
Untersucht die Wirkung der Unterscheidung zw. objektiven und subjektiven Leistungskriterien
• 53Stichproben(fürRatingbeurteilungen)bzw.49 Stichproben (für objektive Leistungsbeurteilungen)
Ergebnisse:
• „Weiße“werdeninLeistungenbesserbeurteilt
(zeigt auch Meta-Analyse v. Waldman&Avolio,1991)
• DieserZusammenhangfälltfürsubjektive Beurteilungen sign. stärker aus!
Die Meta-Analyse von Roth, Huffcutt & Bobko (2003)
• BestätigteinerseitsdieErgebnissederbesseren Leistungsbeurteilung von Weißen
• AndererseitsließensichimGegensatzzuden bisherigen Ergebnissen die Unterschiede zwischen den subjektiven und objektiven Leistungskriterien nicht in der Weise replizieren, dass die subjektiven Beurteilungen vorteilhafter für die Weißen ausfiel als die objektiven Beurteilungen
sondern:
es zeigten sich deutliche Abhängigkeiten von der
Art der subjektiven bzw. objektiven Messungen
- Insgesamt:
- DieindieserStudieerhobenenDateneines Vergleichs der Leistungsbeurteilungen von Weißen und Personen spanischer Abstammung (!)zeigten deutlich geringere Einflüsse der ethnischen Herkunft auf die Leistungsbeurteilung
- Heißtaberimmernoch:esgibtdeutliche Einflüsse der ethnischen Herkunft!
Der generelle Trend zeigt sich in neueren Arbeiten, in denen vor allem Unterschiede in der Leistungsbeurteilung beim Vergleich von weißen und farbigen Arbeitnehmern nachgewiesen wurden,
wobei eine eindeutige Zuordnung der Unterschiede für subjektive oder objektive Leistungsindikatoren nicht nachweisbar zu sein scheint.
- Auf Arbeiten, in denen z.B. der Alterseinfluss auf die Beurteilung von Mitarbeitern untersucht wird, wird hier nicht weiter eigegangen, wiewohl es auch dazu eine Reihe von MA gibt:
- Finkelstein, Burke & Raju, 1995, Gordon & Arvey, 2004, Kite & Johnson, 1988, Waldman & Avolio, 1986
C ) Diskriminierungen von Subgruppen
Für den folgenden kurzen Überblick ist es wichtig, dass es hier vor allem um (viele) Einzeluntersuchungen geht, die sich auf Bewerbergespräche (employment interview) beziehen die bei der Personalauswahl nach wie vor eine entscheidende Rolle spielen.
• Macan,T.&Merritt,S.(2011)
•
konzentrieren sich in ihrem umfangreichen Sammelreferat auf Diskriminierungsprozesse, wobei sämtliche Formen der Diskriminierung miteinbezogen werden (verbale & non-verbale; explizite & implizite etc.).
WeitereEinzelergebnisse:
• BeiihrerLiteratursuchestelltensiefest,dasseszwar nach wie vor große ethnische Gruppenunterschiede gibt, die Ergebnisse jedoch insgesamt mit einer ganzen Reihe methodischer Probleme behaftet sind, so dass das Ausmaß eher größer als geringer ist.
-ÜbergewichtigeFrauenwerdeningeringerem Ausmaß angestellt als übergewichtige Männer,
-generell ist Übergewicht aber ein Faktor, der zur Ablehnung von Bewerbern führt.
LGBT(LesbianGayBisexualTransgenderApplicants) haben eine geringeren Chance, einen Job zu bekommen.
• DieWirksamkeitimpliziterVorurteileundStereotype wird zwar noch dargestellt, bleibt aber dann wenig
informativ, da es erhebliche Probleme macht, in der Interviewsituation die Wirksamkeit impliziter Kognitionen zu ermitteln.
- Die Auswirkungen von Behinderungen (Schwerhörig- keit, Blindsein, HIV-positiv, Beinamputationen, Drogenabhängigkeit etc.) liefern im Ergebnisteil ein uneindeutiges Bild, da sichtbare Behinderungen auf die Chance eine Anstellung zu bekommen anders beurteilt werden, als nicht-sichtbare.
- SchwangerschaftführtnacheinerUntersuchungmit 1000 schwangeren Frauen in mindestens 50% der Fälle zu einer Diskriminierung, wobei offensichtlich in den USA die Diskriminierungen von Schwangeren zunehmen.
D Auswirkungen der verwendeten Verfahren
• Beziehen sich sowohl auf unterschiedliche Verfahren, aber auch auf Urteilstendenzen bei der Verwendung
derartiger Verfahren und auf Merkmale der Anwender der Beurteilungen.
• So werden z.B.zur Bestimmung d.Qualität von
Rating-Daten Indikatoren der Genauigkeit von
Ratings mit Indikatoren für die fehlerhafte Beurteilung
korreliert.
DiesattsambekanntenUrteilstendenzenzeigensich dann auch hier
– als Verschiebungen der Mittelwerte
– (als Strenge-oder Mildefehler)
– als Reduktion der gesamten Antwortmöglichkeiten (range restriction)
– als “Halo-Effekt”, der zu einer erhöhten Korrelation der Urteile beiträgt, wenn ein einzelnes Merkmal oder aber auch ein Globalurteil sich auf andere Beurteilungsaspekte auswirkt
– Es wird also unterstellt, dass Beurteilerfehler ein indirektes Maß der Genauigkeit der Beurteilung sind
Die Meta-Analyse von Viswesvaran, Ones und Schmidt (1996)
In dieser sehr umfangreichen und prominenten MA
von Viswesvaran et al. geht es um die Abschätzung der Interrater-und Intrarater Reliabilitäten von Ratingskalen bei der Beurteilung von Arbeitsleistungen
• Hier zu werden zehn unterschiedlichen Dimensionen der Arbeitsleistung unterschieden und es wird auch berücksichtigt, ob die Urteile von Vorgesetzten oder Mitarbeitern abgegeben werden
Ausgewählte Ergebnisse:
• DieStichprobenfehler-korrigiertenInterrater- Reliabilitäten der Gesamtbeurteilungen der Leistung durch die Vorgesetzten betrug .52 (N= 14650 Befragte, 40 Korrelationskoeffizienten)
• derentsprechendeWertfürdieMitarbeiterbetrug ρ=.42 (N= 2389 Befragte und auf der Basis von neun Korrelationskoeffizienten)
- Deutlich höher fielen die Ergebnisse für die Koeffizienten der internen Konsistenz (alpha-Werte) aus :
- Für die Vorgesetzten(N=17899,89 Korrelationskoeffizienten) betrug dieser Wert ρ=.86
- für die Mitarbeiter(N=1270,10 Korrelationskoeffizienten) ρ=. 85
In der Meta-Analyse v. Conway und Huffcutt (1997)
- wurden die Übereinstimmungen zwischen verschiedenen Urteilsquellen zur Leistungsbeurteilung untersucht.
- Hier gingen die Daten von N=28999Personenaus 159 Publikationen ein, die im Zeitraum von1950 bis 1996 erschienen waren
• Basis de rAuswertung:
177 Stichproben u. 281 Korrelationskoeffizienten
Ziel :
Bestimmung der Interrater-Reliabilitätswerte von Untergebenen, Vorgesetzten und Kollegen (peers)
und Ermittlung der Korrelationen zwischen allen Urteils quellen, einschließlich der Selbstbeurteilungs-daten.
• Neben der Klassifikation der Urteiler wurden Berufs-
• klassifikationen und Leistungsdimensionen unterschieden
Erwartungen:
1. die Reliabilitäten sind für weniger komplexe Berufe
höher
2. Bei der Unterscheidung der Leistungsdimensionen in interpersonelle und kognitive Kompetenzen :
– für die Gruppe der Vorgesetzten fallen die Reliabilitäten für die interpersonellen Kompetenzen geringer aus als für die beiden anderen Gruppen
– alle drei erreichen relativ geringe Reliabilitäten auf
den kognitiven Dimensionen
Die Ergebnisse:
- > Die Untergebenen hatten die geringsten Reliabilitäten mit einem Mittelwert von .30 für einen einzelnen Urteiler
- > die Vorgesetzten den höchsten Wert mit r=.50
- > eIn komplexen Berufen waren die Reliabilitätswerte geringer (r=.36 für die Kollegen und .44 für die Vorgesetzten) als für weniger komplexe Berufe (r=.39 bzw. r=.54)
- Reliabilitätswerte f. d. Urteile auf den kognitiven Dimensionen fielen entgegen den Erwartungen aus:
- Vorgesetzte und Kollegen erreichten relativ hohe Werte (ρ=.47 bzw. ρ=.43)
- die Werte für diei nterpersonellen Dimensionen fielen geringer aus (ρ=. 44 bzw. .34)
- In einem zweiten Teil werden die Übereinstimmungsreliabilitäten zwischen den vier “Urteilsquellen” untersucht :
- Vorgesetzte,Kollegen,UntergebeneundSelbstrating
Im einzelnen:
• Die Übereinstimmung der unterschiedlichen
Beurteilergruppen ist insgesamt eher gering, wenn man die Artefaktkorrektur der Interrater-Reliabilitäten (d.h. Stichprobengröße, Reliabilitäten und Validitäten der einzelnen Verfahren)unberücksichtigt lässt:
• Dann sind die Korrelationen zwischen den Untergebenen und – den Vorgesetzten (ρ=.22; .57)
– den Kollegen (ρ= .22; .66)
– der Selbstbeurteilungen der Untergebenen (ρ=.14; 26.)
à allesamt und über alle Berufe geringer als die Übereinstimmung zwischen den Vorgesetztenurteilen und den Mitarbeiterurteilen (ρ=.34 ;.79)
Leistungsbeurteilung
• ErwartungsgemäßwarendieÜbereinstimmungenbeider Beurteilung wenig komplexer Berufe höher
• derhöchsteWertfürdieseSubgruppemitρ=.39(r=.85) wurde für die Beurteilerübereinstimmung der Vorgesetzten- und Kollegenurteile ermittelt
• DieErgebnissebasierenzwaraufeinerrelativ umfangreichen Stichprobe, jedoch wird der Zeitraum von 50 Jahren nicht spurlos an der Kompetenz der Urteiler vorbeigegangen sein
Neuere Meta-Analyse v. Dierdoff & Wilson (2003):
- Basiert auf Verfahrensgruppen (keine Einzelverfahren)
- Bestimmung der Interrater-und Intrarater-Reliabilität von Arbeits- und Anforderungsanalysedaten
- Beurteilerübereinstimmung (Interrater-Reliabilität) wurde auf der Basis von 31 Studien mit 214 Korrelationskoeffizienten bestimmt
- Stabilität der Urteiler (Intrarater-Reliabilität) wurde auf der Basis von 15 Studien und 85 Korrelationskoeffizienten bestimmt
• Die beurteilten Arbeitsinhalte wurden u.a. dadurch klassifiziert, dass sie
– entweder sehr aufgabenspezifisch (task-level) – oder sehr global (general work activity) waren
• Für die stichprobenfehlerkorrigierten Interrater Reliabilitätsschätzungen ergab sich für die spezifischen
• Analysen ein ρ=.77 ( bei einem N=24 656 und k=119 Korrelationen)
• und für die globalen Analysen ein ρ=.61
• (bei einem N =9999 und k=95 Korrelationen).
- Wichtig für die Beurteilung empirischer Arbeiten:
- DieAbhängigkeitderReliabilitätenalleindurchdie Länge der Skalen oder die Zahl der Items.
- DurchdieKorrekturderIntrarater-Reliabilitätenfürdie Zahl der Rater und die Zahl der Items pro Verfahren
So stieg z.B. die stichprobenfehler-und reliabilitäts- korrigierte Reliabilität für die spezifischen Aufgaben
bei einem 100-Item Instrument und 5 Ratern von .40 (.13) bei einem 200 Item Instrument und 15 Ratern auf .63 (.39)
und bei einem 300 Item Instrument und 25 Ratern auf .73 (.58))
Noch einmal genauer nachgefragt:
- > Wenn die Beurteilung der Arbeitsleistung mittels Ratingverfahren allein durch Messfehler gravierend beeinflusst wird, dann hat dies gravierende Konsequenzen für die Personalauswahl und Personalbeurteilung
- > Es stellt sich also die Frage, aus welchen Varianzkomponenten die Leistungsbeurteilungen eigentlich zusammengesetzt sind??