5 测量 Flashcards
测量的定义
测量是根据一定的法则,使用量具,对事物的特征进行定量描述的过程。
测量的要素
1)参照点 绝对参照点:绝对零点 相对参照点:人为确定的零点 2)单位 确定的意义 相等的价值
测量的量表
1)称名量表:分类 2)顺序量表:排序 3)等距量表:相等单位、相对零点,能加减 如:分数、温度、海拔 4)比率量表:相等单位、绝对零点,能加减乘除
心理测量的定义、性质(特征)和水平
1、定义: 依据一定的心理学理论,使用一定的操作程序,对人的心理特征进行定量描述的过程。 2、性质(特征) 1)间接性 2)相对性:相对零点 3)客观性:信效度、标准化 3、水平:等距量表(本质:顺序量表)
心理测验的分类和功能
1、分类
2、功能
误差
(1个定义、2种分类、3种来源、4种控制)
1、定义
是在测量过程中,那些与测量目的无关的因素所导致的测量结果不准确或不一致的测量效应。
2、分类 1)随机误差 与测量目的无关的、偶然因素引起的、不易控制的误差 影响测验的准确性与稳定性(一致性) 如:评分标准宽严不一、题目难 2)系统误差 与测量目的无关的因素引起的一种恒定而有规律的效应 影响测验的准确性,但不影响测验的稳定性(一致性) 如:标准答案给错了
3、来源 1)测量工具 测验题目取样不当、格式不妥、难度过高或过低、指导语用词不当、时限过短 2)测量对象 应试焦虑和动机(适度);应试经验;反应倾向;练习效应;生理因素 3)测量过程 测试环境;测试时间;主试;意外干扰;计分
4、控制:测量的标准化 1)编制 测验题目是所测指标的代表性取样、对所有被试施测相同或等值的题目 2)实施 相同测验环境、指导语和时限 3)计分 4)分数解释
真分数与观察分数的定义
1、真分数 定义:是反映被试某种心理特质真正水平的数值 操作定义:无数次测量结果的平均值 2、观察分数 实测的分数
经典测量理论(CTT)的数学模型
1)CTT假设,观察分数X与真分数T之间是一种线性关系,并且只相差一个随机误差E,即X=T+E
2)根据CTT模型,可引申出三个假设公理
若一个人的某种心理品质可以用平行测验反复测量足够多次,则其观察分数的平均值为真分数。即:
真分数与测量误差之间相互独立,即误差分数与真分数的相关为零。即:
各平行测验上的误差分数之间相关为零,即:
3)CTT模型的方差关系
一次测验中,一个团体的实测分数之间的变异性是由与测量目的有关的变异数、稳定但出自无关来源的变异数和随机误差的变异数决定的。即
信度的定义
1、操作性定义 信度指测量结果的一致性和稳定性程度 2、理论定义 1)信度是一组测量分数的真变异数与总变异数(实得变异数)之比 2)是一个被试团体的真分数与实得分数的相关系数的平方 3)是一个测验与其任意一个平行测验的相关系数
信度的作用
1、信度是测量过程中随机误差大小的反映 信度低,测量的随机误差大 系统误差与信度无关 2、信度可以用来解释个体测量分数的意义 测量的标准误: 真值区间估计: 3、信度可以帮助不同测验分数之间进行比较
信度的估计方法
1、重测信度:(稳定信系数) 1)定义:指用同一个量表对同一组被试施测两次所得结果的一致性程度 2)计算:皮尔逊积差相关 3)误差来源:时间 4)使用前提:3
2、复本信度 1)定义:用两个平行测验测量同一批被试所得结果的一致性程度 2)分类: 连续施测:等值性系数 (误差来源:内容) 间隔施测:稳定性和等值性系数(误差来源:时间、内容)是对信度最严格的检验,其值最低 3)计算:皮尔逊积差相关 4)使用前提:3
3、分半信度:(内部一致性系数) 1)定义:指一个测验被分成对等的两半后,所有被试在这两半上所得分数的一致性程度。 2)误差来源:内容 3)计算:斯皮尔曼-布朗校正公式 4)使用前提:3 分半方法很多,同一测验通常会有多个分半信度
4、同质性信度:(内部一致性系数) 1)定义:指测验内部所有题目的一致性程度。这里的一致性是指分数的一致性,而不是题目内容或形式的一致性。 2.计算: 1)0,1计分:KR20、KR21 2)克隆巴赫α系数:可处理任何测验内部一致性系数的计算问题 α系数是所有可能的分半信度 平均值 α值大必有较高的信度,但α值小,却不能断定信度不高 3)荷伊特信度 用方差分量比描写内部一致性 4)使用前提:2
5、评分者信度 1)定义:指多个评分者给同一批人的答卷进行评分的一致性程度。 2)计算 评分者=2时,积差相关或斯皮尔曼等级相关 评分者>2时,肯德尔和谐系数(W)
影响信度的因素
1、被试 单个被试:身心健康、动机、态度等 被试团体:团体的异质性、平均水平 团体异质,信度会被高估,团体同质会被低估 团体的平均水平过高或过低,会低估
2、主试
施测者未按规定施测,给被试暗示、协助等,会降低信度
评分者评分标准不一,也会降低信度
3、施测情境 4、施测工具 1)试题取样不当(题目太少,考察不全面),信度低 2)题目间同质性程度:越高,信度越高 3)题目难度:过高或过低,会降低信度 4)题目的长度:题目越多,信度越高
5、两次施测的间隔时间
间隔时间越长,受其它因素影响的机会越多,信度就越低
提高信度的方法
1、适当增加测验的长度 新增项目必须与原题目同质,数量必须适度 公式: 2、使测验中试题的难度接近正态分布,并控制在中等水平 3、提高测验试题的区分度 4、选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度 5、主试严格执行施测程序,评分者严格按标准给分,施测场地按测验手册要求进行布置,减少无关因素的干扰。
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
效度的定义
1、操作性定义
指测量的有效性和准确性,即一个测验实际能测出其所要测的心理特质的程度。
2、理论定义
指在一系列测量中,与测量目的有关的真实变异(有效变异)与总变异的比率,即由所测的特性造成的变异所占的比例。
V=
效度和信度的关系
1、信度是效度的必要非充分条件
信度低、效度一定低,信度高、效度不一定高。
2、测验的效度受它的信度制约
信度大于或等于效度
效度的分类与估计方法
1、内容效度 1)含义:一个测验实际能测到的内容与所要测量的内容之间的吻合程度 2)估计方法 专家评定法(逻辑分析法)、复本法、再测法、经验法 3)区分内容效度与表面效度 4)应用:主要用于成就测验,也适合某些选拔和分类的职业测验,不适合能力和人格测验
2、效标关联效度 1)含义:指一个测验对处于特定情境中的个体行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标;测验本身称为预测源。 2)种类:同时效度、预测效度 3)估计方法:相关法、区分法(t检验)、命中率(总命中率、正命中率) 4)常用效标:学业成就、等级评定、临床诊断
3、结构效度(构想效度、构念效度、雨伞效度) 1)定义:一个测验实际测到所要测量的理论结构和特质的程度。 2)方法 测验内方法: 测验间方法:相容效度、汇聚效度、区分效度、多质多法 效标关联法 发展水平的变化
效度的影响因素
1、测验本身 1)试题样本代表性:代表性差,内容效度或结构效度就不会高 2)项目质量:题目语意不清、指导语不明、题目太难或太易、太少等都会降低效度。 3)项目长度:一般增加测验长度可以提高信度,从而为提高效度提供了可能。 2、测验实施和计分 施测过程中,若不遵从指导语、出现意外干扰、评分出现差错等,都会降低效度。 3、被试 身心特点 样本特点:样本代表性、规模、异质性 4、所选效标的性质 效标和测量分数是否符合线性关系 采用不同效标所导致的效度差异也应重视 5、测验的信度 信度高是效度高的必要条件,信度不高的测验不可能有很高的效度。
提高效度的方法
1、精心编制量表,避免出现较大的系统误差
2、妥善组织测验,控制随机误差
3、创设标准的应试情境,让每个被试都能发挥正常的水平
4、选择正确的效标,定好恰当的效标测量,正确地使用有关公式
项目分析的定义
1、质的分析
内容取样的适当性、题目表达的恰当性等
2、量的分析
项目分析指的是根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目好坏,对题目进行筛选的过程。一般包括项目难度和区分度。
难度的定义和计算
1、定义:指测验项目的难易程度。
通常以项目的通过率、得分率或答对率(一般用符号P)来表示。
取值:0~1。P值越大,难度越小;P值越小,难度越大。
2、计算
1)二分法计分项目的难度
通过率:P=R/N (R表示答对或通过该项目的人数,N表示全体被试人数)
极端分组法:P=(高分组通过率+低分组通过率)/2
2)非二分法计分项目的难度
P=被试在该项目上的多平均分/该项目的满分
3)难度的校正公式(是非题或选择题)
CP=(KP-1)/ (K-1)
CP是校正后的通过率,p是实际得到的通过率,k是备选答案数量
难度对测验的影响
1、影响测验的分布形态
难度过大,分数集中在低分端,呈正偏态分布;难度过小,分数集中在高分端,呈负偏态分布。
2、影响测验的信度
难度会影响测验分数的离散程度,从而影响测验的信度。测验题目过难或过易,都会使得测验分数相对集中,分数全距缩小,信度降低。难度P=0.5时,信度最佳。
3、影响测验的鉴别力(区分度)
P值越接近0.5,题目的鉴别力就越高;P值越接近1或0,题目的鉴别力就越低。
项目难度水平的确定
1、效标参照测验和掌握测验:不考虑难度;
2、选拔测验: 接近录取率;
3、选择题: 大于猜测率;
4、选择题目时,一般只需使项目的平均难度接近0.5,而各个项目的难度在0.5±0.2之间即可。
区分度的定义和估计方法
1、定义
指测验项目对被试心理品质差异的区分能力。是测验是否有效的指示器,是评价项目质量和筛选项目的主要指标和依据。
2、估计方法
1)鉴别指数法
D=高分组通过率-低分组通过率
取值:-1~1
D值越大,鉴别力越大,项目质量越好
0.4以上,优良;0.3-0.39良好;0.2-0.29尚可;0.19以下,劣、淘汰。
2)相关法
以项目分数与效标分数(或测验总分)的相关作为项目区分度的指标,相关越高,项目区分度越高。
包括:积差相关、点二列相关、二列相关、Φ相关
区分度的影响因素
1、计算方法 计算方法不同,所得的区分度值不同。 一个测验的各个项目要采用同一种区分度指标。 2、样本容量 样本容量越小,统计值越不可靠;样本容量越大,区分度越高。 3、分组标准 分组越极端,鉴别指数D值越大。 4、被试样本同质性 被试团体越同质,区分度越小。
区分度与难度的关系
一般,中等难度(P=0.5)的项目区分度最好,当难度P为0或1时,没有任何区分能力。
此外,难度和区分度是相对的,是针对一定团体而言的。一般,较难的项目对高水平被试区分度高,较易的项目对低水平被试区分度高。
难度、区分度与信效度的关系
难度过高或过低,都会使得测验分数相对集中,分数变异减小,信效度因此也会降低。
在其他条件相当的情况下,鉴别力大的项目越多,测验的内部一致性越高,整个测验信度越高。
由于项目可以把不同水平的被试区分开,所以鉴别力大的项目越多,测验的效度也越高。
题目的综合分析与筛选
1、看区分度 理想的区分度应在0.3以上,至少是0.2 2、看难度 平均应保持在0.5左右,在0.35~0.65之间 3、选项分析 4、若前三项出现异常情况,酌情修改选项或题目,不轻易丢弃项目。
心理测验编制的一般程序
1、确定测验的目的 选择测验对象、明确测验用途、分析测验目标 2、拟定编制计划:双向细目表 指出测验所包含的内容和要测的各种技能,以及对每个内容和技能的相对重视程度 3、编辑测试项目 1)收集测验资料:丰富、普遍性、趣味性 2)选择项目形式 3)编写测验项目 4、预测和项目分析 预测: 1)预测对象应取自将来正式测验时准备施用的群体 2)预测的情境应力求与正式测验的情境一致 3)预测的时限可以适当延长,以便每一受测者都能将题目做完,搜集充分的反应资料 4)施测者应对受测者的反应加以记录 项目分析:质的分析、量的分析 5、合成测验 1)项目的选择:性质、区分度、难度、比例、长度 2)项目的编排 原则:由易到难 方式:直接递增式、并列直进式、螺旋式 3)编制复本 6、测试的标准化 1)测验内容 标准化的首要条件,是对所有受测者施测相同的或等值的题目 2)施测过程 相同的情境、指导语、时限 3)评分计分:客观 4)分数解释 7、鉴定测验:信效度 8、编写测验说明书
编写测验项目的原则
“娶范难数用说” 1、题目取样要有代表性 2、题目范围要与测验计划所列的双向细目表一致 3、题目难度应有一定分布范围 4、题目数量要比最终所需数量多一倍至几倍 5、题目用语力求精炼简短 6、题目的说明必须清楚明白
测验说明书的内容
1、测验的目的和功用 2、测验的理论背景和选择项目的依据 3、测验的实施方法、时限及注意事项 4、测验的标准答案和计分方法 5、常模资料 6、测验的信、效度资料
经典测量理论的局限
对样本的依赖性太大、能力难比较、复本难实施、缺乏预测力、信度估计不精确、等测量标准误差难满足、测验结果拓宽的有限性
项目反应理论(IRT)的基本思想
1、前提:潜在特质理论
2、确定被试的心理特质值和他们对于项目的反应之间的关系,这种关系的数学形式就是“项目反应模型”
3、认为项目的难度并不是固定的,同一道题对于不同能力水平的个体难度是不同的,表现在不同能力水平的个体正确回答同一道题的概率不同。
项目特质函数
项目特征曲线
项目特征曲线描述的是各种特质水平(用θ表示)的被试对某一测验项目的正确反应率,(用P(θ)表示)
a: 区分度,在图像上指的是曲线拐点处的切线斜率
b: 题目难度,在图像上指的是曲线拐点的横坐标
c: 伪机遇水平参数(猜测水平),在图像上指的是θ= -∞时候的渐近线
项目反应理论的优越性与应用
1、优越性: 项目参数的跨群体不变性、潜在特质量表的可选择性、参数设计的科学性、信息函数概念的引进与信息函数概念的可加性 2、应用 计算机自适应测试(CAI) 大型题库的建设
概化理论的基本思想(核心概念)
测验情境关系
任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作。用“全域分数”代替“真分数”,用“概化系数”代替了“信度”。
是经典真分数理论与方差分析结合的产物,方差分量估计是进行概化理论的关键。
测验情境关系指影响受测者得分的所有因素,其中,所有测量情境下得到的结果组成全域,而全域中的某个特定测验被称为样例。
认为测验由两个方面组成:
1)测量目标
2)测量侧面:其它一切导致测量误差的测量条件。
固定侧面:通过标准化固定
随机侧面
G研究与D研究
1、G研究:在观察领域数据上进行
2、D研究:决策研究
是概化理论最具特色的计量分析手段
得到两个比较优劣的误差指标:
1)相对误差方差:所有与测量目标有关的交互效应方差之和,用于常模参照测验编制
2)绝对误差方差:除测量目标效应方差之外的所有方差之和,用于目标参照测验编制
概化系数和可靠性系数指数
1、概化系数
G=测量目标方差/(测量目标方差+相对误差方差)
用相对误差估计出来的信度系数,是对常模参照测验的稳定性程度的度量
2、可靠性系数指数(Φ系数)
Φ=测量目标方差/总效应方差
用绝对误差估计出来的信度系数,是对目标参照测验稳定性和一致性两种程度的度量
常模与常模团体
1、常模团体 具有某种共同特征的人组成的一个群体,或是该群体的一个样本。 2、常模 常模团体的分数分布。即根据标准化样本的测验分数,经过统计处理而建立起来的具有参照点和单位的测验量表。 注:一个测验可按照年龄、种族、性别等建立多个常模。
跟谁比? 常模团体
如何比? 常模
常模团体的确定
“界代取样近般殊”
1、群体构成的界限必须明确 2、常模团体必须是所测群体的代表性样本 3、取样过程必须有明确而详尽的描述 4、样本大小要适当 一般常模:30~100 全国性常模:2000~3000 5、常模团体必须是近时的 6、注意一般常模和特殊常模的结合
呈现常模的方法
1、转换表:最简单、最基本、最常用
2、剖析图
分数转换的概念和方法
1、概念:按某种规则将原始分数转化为导出分数的过程。
1)原始分数:根据测验的计分标准,对照被试的反应所计算出的被试分数。
反映被试作答正确程度,但不能直接反映差异状况和被试在总体分布中的位置。
既无参照点,也无单位。
2)导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参照点和单位,且可以相互比较的分数。
2、转换方法
百分等级、标准分数、标准分数的变式
分数合成的概念和方法
1、含义
是指将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测。具体包括项目的组合、分测验的组合和测验的组合。
2、方法
临床诊断(直觉合成)
加权求和
多重回归
多重划分(连续栅栏法):只有通过前一个测验,才能继续实施后一个测验。如飞行员选拔测试
常用的常模分数
1、发展量表 智龄 年级当量 顺序量表 2、比率智商:智龄与实际年龄之比 3、百分等级 4、标准分数 1)线性转换的标准分数Z 2)正态化的标准分数:都是等距 T分数:T=10Z+50 标准九分 标准十分 离差智商:100+15Z
分数解释的原则
1、充分了解测验的性质与功能 2、原因解释应慎重,谨防片面、极端,要考虑被试的经历、背景和当时的情境 3、须充分估计常模和效度的局限性 4、应参考其他有关资料,如教育经验、文化背景、习惯等 5、以“一段分数”而不是“特定”数值解释 6、不直接比较来自不同测验的分数
如何将测验分数的意义告知受测者
1、用当事人所理解的语言 2、保证当事人知道测验测量或预测什么 3、若分数以常模为参照,使当事人知道比较的团体(常模) 4、使当事人知道分数只是一个估计 5、使当事人知道如何运用他的分数 6、考虑到分数可能给受测者带来的影响 7、结果对无关人士保密 8、对低分者的解释应谨慎小心 9、报告分数时设法了解当事人的心理感受,并采取适当措施加以引导 10、要让当事人积极参与测验分数的解释
标准参照测验的定义
即目标参照测验,它是根据某一明确界定的内容范围而缜密编制的测验,并且被试在测验上所得结果也是根据某一明确界定的行为标准直接进行解释的。
主要目的是了解个体在所规定的测量内容上的行为水平,其出发点是个体本身的绝对水平。
标准参照测验的题目分析
1、测验的预测 前测-后测法、已接受教学组-未接受教学组法、对照组法 2、难度分析:一般用通过率表示 3、区分度分析 1)掌握组—未掌握组:鉴别系数D(-1~1) 2)前测-后测法:个人获得指数(0~1) 即在前测中错误回答某项目而在后测中能够正确回答的被试人数比例(通过学习掌握了的人数比) 3)项目得分和测验总分之间的一致性程度:相关系数(-1~1)
标准参照测验的信效度
1、信度
注:不能算相关,因为结果是分类“合格”“不合格”,没有明确的分数
分类一致性信度:计算两次都被分到一类中的被试占总被试人数的比例 方差分析法:荷伊特信度 2、效度 内容效度:专家评定法 效标关联效度
智力测验
1、个体测验 1)比西量表 1905,最早 计算智龄,一道题代表2个月 2)中国比奈测验:陆志韦、吴天敏 3)斯比量表 1916 首次引入比率智商(IQ)的概念:IQ=(MA/CA) ✖️100 包括五个因子(流体推理、常识、数量推理、视觉—空间处理、工作记忆)和两个领域(言语、非言语) 1960 引入离差智商的概念 4)韦氏量表 采用离差智商 分类:WISC 韦氏儿童智力量表、WAIS 韦氏成人智力量表、WPPSI 韦氏幼儿智力量表 分量表:10+3z 三个智商分数:言语、操作、全量表智商,100+15z 4)婴幼儿智力测验 格赛尔发展量表 GDS 新生儿行为评定 NBAS 贝利婴儿发展量表 BSID 2、团体测验 1)陆军测验 陆军甲种测验army alpha:世界上第一个 陆军乙种测验army beta:非文字 2)瑞文推理测验:非言语、文化公平测试
人格测验
一、自陈量表 1、编制方法:合理建构法(逻辑分析法) 、经验标准法、因素分析法、综合技术 2、缺点:社会赞许性反应倾向、作答定势、无法测定潜意识动机 3、代表测验 1)明尼苏达多项人格问卷(MMPI ):经验标准法 10个临床量表 4个效度量表 Q(疑问量表):超过22分,结果不可信 L(说谎量表):超过10分,结果不可信 F(诈病量表):说明伪装疾病或精神病程度重 K(校正量表) 计分方法:原始分—T分数—剖面图 T=50+10Z (中国:60以上异常 美国:70以上异常) 2)卡特尔16种人格因素问卷(16PF ): 因素分析法 标准十分 3)艾森克人格问卷(EPQ ):因素分析法 E:内外倾性 N:神经质 P:精神质 L:说谎量表 4) 爱德华个性偏好量表(EPPS):合理建构法 理论基础:莫瑞的需要理论 采用强迫选择法控制社会赞许效应 5)加州心理问卷(CPI):综合技术
二、投射测验 罗夏克墨迹测验(RIT) 主题统觉测验(TAT) 句子完成测验 绘画测验
常见态度测量方法
利克特量表法 Likert scale:最常用
戈特曼量表法 Guttman scale
内隐联想测验