经典测验理论 Flashcards

Question

评分者信度的误差来源

Answer 1

评分者之间的差异

Answer 2

1⃣️被试方面 ① 单个被试：身心健康状况、应试动机、注意力、耐力等 ② 被试团体 a. 团体内部水平的离散程度 ▫️团体异质（全距大）高估信度；团体同质（全距小）低估信度。 b. 团体的平均水平 ▫️团体得分总体过高或过低都会使得分变窄，从而降低信度。 2⃣️主试方面 ① 施测者故意制造紧张气氛、操作不规范给被试一定的暗示或协助等会降低测量信度； ② 评分者评分标准不一也会降低测量信度。 3⃣️施测情境方面 ▫️在实施测验时，考场是否安静、光线和通风情况是否良好、所需设备是否齐备、桌面是否合乎要求、空间宽窄是否恰当等因素都可能影响测量的信度。此外基于计算机或其他IT技术的考试，考试平台的质量、稳定性，以及考生使用机器的熟练程度等，也是常见的影响信度的重要因素。 4⃣️测量工具方面 ▫️试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。 5⃣️两次施测的时间间隔 ▫️在计算重测信度和稳定性与等值性系数时，两次测验相隔的时间越短，信度值可能越大。

Answer 3

1. 适当增加测验的长度。注意： ⑴ 新增项目必须与试卷中原有的项目同质； ⑵ 增加条目的数量适度（用斯皮尔曼-布朗公式得到恰当的增加项目） 2. 使测验中所有试题的难度接近正态分布，并将总体难度控制在中等水平。 3. 努力提高测验试题的区分度。 4. 选取适当的被试团体，提高测验在各同质性较强的亚团体上的信度。 5. 主试者严格执行施测规程，评分者严格按照标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰。

Answer 4

效度是指一个测验或量表实际能测出其所要测的心理特质的程度。在测量理论中，效度被定义为与测量目的有关的真实变异数和总变异数的比率。

Answer 5

效度的实际意义常以决定系数来表示，它是相关系数（效度系数）的平方，表示测验正确预测或解释的校标的方差占总方差的比例。

Answer 6

1. 效度是一个相对的概念： ⑴ 相对于一定的测量目的而言； ⑵ 心理测量只能达到某种程度上的准确性。 2. 效度是测量的随机误差和系统误差的综合反映。 3. 判断一个测量是否有效要从多方面搜集证据。

Answer 7

1⃣️信度高是效度高的必要非充分条件 ▫️当随机误差的变异数减小时，真分数的变异数增加，测验信度随之提高。信度的提高只给有效变异数的增加提供了可能，至于能否提高效度，还要看系统误差变异数的影响。因此，一个测验的信度低则效度一定低；信度高则效度可能高也可能低。若想要效度高，信度必须要高。 2⃣️测验的效度受其信度的制约（效度≦信度）

Answer 8

内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是确定该测验在多大程度上代表了所要测量的行为领域，这里所测量的内容或行为领域包括欲测的知识范围和该范围内各知识点所要求掌握的程度。

Answer 9

内容效度主要应用于成就测验，也适合于某些用于选拔和分类的职业测验，不适用于能力倾向测验和人格测验。

Answer 10

1⃣️专家评估法/逻辑分析法 ▫️请专家对测验题目与原定内容范围的吻合程度做出判断。（对照双向细目表） 2⃣️统计分析法 ① 复本法（平行测验相关：本质在测信度） ② 再测法（学习之间 vs. 学习之后） ③ 内容效度比（专家在多大程度上就项目内容效度达成一致性） PS. 以上都只是间接指标，只能用不好反映不好 3⃣️经验法 ▫️通过实践检验内容效度

Answer 11

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度，或者说测验分数能够说明心理学理论的某种结构或特质的程度。

Answer 12

结构效度主要用于智力测验、人格测验。

Answer 13

① 结构效度的大小首先取决于事先假定的心理特质理论； ② 当实际测量的资料无法证实我们的理论假设时，不一定是结构效度不高，也可能是理论假设不成立或该实验设计不能对该假设进行适当检验，这就使得结构效度的获取更为困难； ③ 结构效度是通过测量什么、不测量什么的证据累积起来加以确定的，因而不可能有单一的数量指标来描述结构效度。

Answer 14

1⃣️提出理论假设，并把这一假设分解成一些细小的纲目，以解释被试在测验上的表现。 2⃣️依据理论框架，推演出有关测验成绩的假设。 3⃣️用逻辑和实证的方法来验证假设。

Answer 15

1⃣️测验内部寻找证据法 ① 内容效度 ② 同质性信度 ③ 被试对题目的反应特点 2⃣️测验之间寻找证据法 ① 相容效度法 ② 区分效度法 3⃣️实证效度法方法⑴ ：根据校标把人分成两类，考察其得分的差异。方法⑵ ：根据测验得分把人分成高分组和低分组，考察两组人在所测特质方面是否有显著差异。 4⃣️多种特质-多种方法矩阵法（多质多法） ▫️相容效度与区分效度的综合运用 ① 用多种极不相同的方法测同一特质，若相关高，则该测验的相容效度好。 ② 用极为相似的方法测不同特质，若相关低，则该测验的区分效度好。 5⃣️因素分析法 ① 探索性因素分析（EFA） ② 验证性因素分析（CFA）

Answer 16

考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关。

Answer 17

考察新编测验与某个已知的能有效测量不同特质的旧测验之间的相关。

Answer 18

考察测验是否包含了划定的考察范围 VS. 检验测验是否测到了理论假设中的不同结构/维度

Answer 19

实证效度又叫校标关联效度，是指一个测验对处于特定情境中的个体的行为进行估计的有效性。

Answer 20

衡量一个测验是否有效的外在标准，它独立于测验并可以从实践中直接获得我们所感兴趣的行为。

Answer 21

① 同时效度：主要用于诊断现状 ② 预测效度：主要用于预测个体将来的行为

Answer 22

1⃣️相关法（直接） ▫️计算测验分数与校标测量的相关系数 ▫️积差相关、等级相关、点二列相关 2⃣️区分法（间接） ▫️检验测验分数能够有效区分由校标所定义的团体 ▫️t检验 3⃣️命中率 ① 正命中率（选择中的正确） ② 负命中率（淘汰中的正确） ③ 总命中率= (正确选择+正确淘汰)/总人数✔️ 4⃣️基础率、灵敏度、确认度 ① 基础率（真正符合比率） ② 灵敏度（符合中的选择） ③ 确认度（不符中的淘汰）

Answer 23

1⃣️测验的构成 ▫️测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度。 2⃣️测验的实施过程 ▫️是否严格遵从指导语、评分记分的标准化程度、意外干扰等都会影响测量效度。 3⃣️接受测验的被试 ▫️被试的应试动机、情绪、态度、身体状况等都会影响测量的信度，造成较大的随机误差，进而影响测量的效度。被试团体不同质，也会得到不恰当的效度资料。 4⃣️所选校标的性质 ▫️由于同一个测验可以有不同的校标，同一个观念校标也可以有不同的校标测量，因此在评价测量效度时，所选校标的性质是很重要的考虑因素。 5⃣️测量的信度 ▫️信度低的测验效度必然低。

Answer 24

1⃣️精心编制测验量表，避免出现较大的系统误差。 2⃣️妥善组织测验，控制随机误差。 3⃣️创设标准的应试环境，让每个被试都能发挥正常水平。 4⃣️选择正确的校标，定好恰当的校标测量方式，正确使用有关公式。

Answer 25

1⃣️通过率(P) ▫️P=R/N×100% 2⃣️极端分组法（要求被试人数较多，可以分为三组） ▫️高分组（前27%）和低分组（后27%）通过率的均值

Answer 26

P=该项目的平均得分÷该项目的满分

Answer 27

CP=(KP-1)/(K-1) K：选项数量 P：通过率

Answer 28

1⃣️优点 ① 通过猜测校正可避免降低测验的信度。若不使用校正公式，被试必然会盲目猜测而影响信度；如果答错倒扣分数，则被试不敢盲目猜测。 ② 校正后的得分可以反映被试的真正水平和能力。对每个项目来说，校正后可以反映项目的真实难度，便于备选答案数目的统计比较分析。 ③ 在教育测验中可以培养诚实的美德。 ④ 比较公平（总有人无法答完试题）。 2⃣️缺点 ① 公式的基本假设不成立（做错≠猜错，猜测≠完全随机猜测），也没有具体的实验研究对公式的有效性提供支持。 ② 只要被试能答完全部试题，猜测校正就无实质性作用。 ③ 即使不采用猜测校正，信度也不受很大影响，可以通过增加题目来弥补。 ④ 有时会出现无法解释的现象。如答对题数等于或少于答错题数，校正后就会出现零分或负分。 ⑤ 在实际生活中，由于经常缺乏充分的证据与材料，考生必须凭借部分知识来判断，且进行合理的猜测，这本身是值得培养的习惯。过分强调对猜测作校正，不利于培养学生的创造性思维与创新能力。

Answer 29

通过率P属于顺序变量，不具有相等的单位，无法指出难度之间的差异大小。但是，样本容量足够大时，测验分数将接近正态分布，可以将通过率转化为对应的z分数，进而进行比较。由于z分数具有小数点和负数，可以进一步转换为难度指标ETS (Δ=13+4z)。

Answer 30

进行难度分析主要是为了筛选项目，项目的难度水平多高才合适，取决于测验的目的与性质。 ❶ 常模参照测验：项目的难度系数应尽量接近0.50，以尽可能区分被试的个体差异。 ❷ 标准参照测验：不必过多考虑难度，重在对知识技能内容的掌握。 ❸ 选拔/录取测验：难度应接近录取率 ❹ 选择题：P值应大于猜对的概率 ❺ 速度测验&难度测验：速度测验难度不宜太高且每个项目的难度应基本相等；难度测验的难度应控制在0.50左右。速度测验和难度测验都要防止天花板效应，避免被试得满分，因为满分的意义是不明确的。

Answer 31

1⃣️测验难度影响测验分数的分布形态 ▫️难：正偏态 / 易：负偏态 / 中等：正态 2⃣️测验难度影响测验分数的离散程度 ▫️过难/过易：测验分数集中在高分端或低分端，导致分数全距缩小 ▫️若难度在0.50左右，分数的分布范围广，区分度高

Answer 32

区分度是指测验项目对被试心理品质水平差异的区分能力。实质上可以理解为题目本身的效度。区分度D的取值范围介于-1.00至+1.00之间。D为正值，称作积极区分；D为负值，称作消极区分；D为0，称作无区分作用。具有积极区分作用的项目，其D值越大，区分的效果越好。

Answer 33

1⃣️项目鉴别指数法（二分法记分的项目） ▫️D=P(H)-P(L) 2⃣️相关法（题总相关） ① 点二列相关（真正二分变量-连续变量） ② 二列相关（人为二分变量-连续变量） ③ ψ相关（真正二分变量-真正二分变量） ④ 积差相关（连续变量-连续变量）

Answer 34

0. 4以上：非常优良 0. 30～0.39：良好，如能修改更佳 0. 20～0.29：尚可，仍需修改 0. 19以下：劣，必须淘汰

Answer 35

难度越接近0.5，项目的潜在区分度越大；难度越接近1.00或0时，项目的潜在区分度越小。但在确保克隆巴赫α系数高的情况下（每个题目都差不多），若所有题目的难度都在0.5，可能会出现U型分布（会的都会，不会的都不会），丧失区分度。因此需要适当地调整难度，最好使项目的难度呈正态分布，且平均难度在0.5左右，才能把各种人区分开来。

Answer 36

① 不同的计算方法，所得的区分度值不同 ② 样本容量大小影响相关法区分度值的大小 ③ 分组标准影响鉴别指数（D） ④ 被试样本的同质性程度影响区分度值的大小 ⑤ 区分度是相对于特定校标而言的