4 统计 Flashcards
数据类型
1、根据数据观测方法与来源: 计数、测量 2、根据数据反映的测量水平: 称名数据、顺序数据、等距数据、比率数据 3、根据数据的连续性: 连续数据、离散数据
条形图与直方图的区别
1、描述数据类型不同: 称名;连续
2、表示数据多少的方式不同: 直条长短;面积
3、坐标上的标尺分点意义不同: 分类轴;刻度值
4、图形直观形状不同: 有间隔,间隔大小不表示任何意义;没有间隔
常用的集中量数?
表示、计算、优缺点、应用原则?
算术平均数
中位数
众数
平均数、中数、众数的关系
正态分布中:三者合一 偏态分布中: 平均数永远在尾端,众数永远在顶端,中数永远在中间,偏态永远看尾端 Mo=3Md-2M 正偏态:低、难。 Mo
集中量数最好的代表
一般情况:平均数
偏态:众数
有极端值或模糊数据:中数
差异量数
全距 百分位差 四分位差 离差和平均差 方差与标准差 变异系数(差异系数):表示相对离散程度,不能进行统计推论
标准差的特点
加不变,乘则乘
注:方差*C平方
平均数的特点
加则加
乘则乘
离差之和永为0
集中量数与差异量数的关系
1、集中量数是指…包括… 差异量数是指…包括…
2、二者关系:
差异可衡量集中是否有代表性,差异小,集中代表性好,差异大,集中代表性差。
3、描述一组数据二者都要看,这样才能反映数据的全貌。
相对量数
百分位数
百分等级
标准分数
标准分数的特点(性质)
1、Z分数均值为0,标准差为1
2、Z分数之和为0
3、若原始分数呈正态分布,则转换所得的Z分数呈均值为0,标准差为1的标准正态分布;
若原始分数呈非正态分布,转换所得的Z分数呈均值为0,标准差为1,其分布也为非正态分布。
标准分数的优点
1、可比性:不同性质…转换…同一背景下比较
2、可加性:不同性质…相同参照点
3、明确性:查分布函数表…百分等级
4、稳定性:转换后…标准差为1…不同性质…权重一样
相关量数的概念?
双变量之间的关系?
1、用于描述双变量数据之间的关系
2、因果、共变、相关
相关关系的表示方法和类别
1、散点图、相关系数r
2、线性相关: 正相关、负相关、零相关
非线性相关
相关量数
1、积差相关 2、等级相关:斯皮尔曼: 条件、计算 肯德尔:W(和谐系数)、U(一致性系数) 3、质量相关:点二列:条件、计算 二列:条件、计算 4、品质相关:Φ相关、四分相关、列联相关
积差相关的测量学意义
重测信度、分半信度、复本信度、效标效度、主观题区分度
影响相关的因素
1、极端值
2、取值范围过窄
3、样本容量:越大,r越稳定
注意:原始数据加上或乘以一个相同的数,对相关系数没有影响
概率的含义和性质
含义: 表明随机事件出现可能性大小的客观指标,包括后验概率和先验概率,当观测次数够多时他们是相等的。 性质: 1、必然事件发生的概率为1,不可能事件的概率为0 2、事件A发生的概率满足:0 ≤ P(A)≤ 1 3、逆事件-A的概率:P(-A)=1- P(A)
概率的基本定律
1、加法定律:“或” P(A+B)=P(A)+P(B)
两个互不相容事件A、B之和的概率,等于两个互不相容事件概率之和。
2、乘法定律:“且” P(A·B) = P(A)·P(B)
两个独立事件同时发生的概率,等于两个独立事件各自发生概率的乘积。
正态分布与标准正态分布的区别与联系
正态分布是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。
区别:
正态分布是一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。
标准正态分布的平均数和标准差都是固定的。
联系:
标准正态分布是正态分布的一种,具有正态分布的所有特征。
所有正态分布都可以通过Z分数公式转换成标准正态分布。
正态分布(高斯分布)的特点
①钟型对称曲线,对称轴是平均数,拐点在1个标准差处; ②两端无限延伸下降,但永不与横轴相交; ③曲线下面积为1; ④正态分布为一族分布 ⑤正态曲线下,标准差与概率(面积)有一定的数量关系 正负1个标准差,包含所有数据 68.2% 正负1.96个标准差,包含所有数据 95% 正负2.58个标准差,包含所有数据 99%
二项分布的性质
性质:
是离散型分布,概率条图是阶跃式的。
当p=q时分布对称,当p≠q时,分布偏态,但是随着n的增大,偏态逐渐降低。
当p
简述各种概率分布的特点
标准正态分布:平均数为0,标准差为1
正态分布:一族、对称、 拐点, 面积为1.
T分布: 一族、对称、 均值、方差、 面积为1 无穷大。
卡方分布:一族、正偏、 均值、方差、 面积为1 无穷大。
F分布: 一族、正偏、 t方 面积为1 无穷大。
样本平均数分布
1、总体正态,方差已知,样本平均数分布为正态分布 2、总体非正态,方差已知,大样本,渐进正态分布 3、总体正态,方差未知,t分布 4、总体非正态,方差未知,大样本,近似t分布 5、中心极限定理: 对于任意平均数为 μ,标准差为 σ的总体,样本容量为n的样本平均数分布的平均数为μ ,标准差为σ/根号n。n>30或趋于无穷大时,样本平均数的分布趋近于正态分布。 6、大数定律 样本大小n越大,X拔与 μ接近的可能性越大,标准误越小,即样本越能代表总体。
点估计的含义、优缺点
定义:用样本统计量来估计总体参数,结果以一个点的数值来表示。
优点:提供总体参数的估计值
缺点:不能说明估计的精度和把握程度
良好点估计的标准
①无偏性:用多个样本统计量作为总体参数的估计值,其偏差的平均数是0
②有效性:有多个无偏估计量时,变异小的有效性高,即方差越小越好 (平均数比中数、众数好)
③一致性:样本容量无限增大时,估计值应该能够越来越趋近总体参数
④充分性:估计值是否充分反映了样本内所有数据所反映的总体信息 (计算是否严密)
区间估计的定义 置信区间: 置信界限: 显著性水平(α): 置信水平:
定义:
根据估计量以一定可靠程度推断总体参数所在的区间范围,虽然不能指出某个具体的数值点,但是能指出总体参数落入该区间的概率。
置信区间:指在某个置信度时,总体参数所在的区域距离或长度。
置信界限:置信区间上下两个端点的值。
显著性水平(α):估计总体参数落在某一区间时,可能犯错误的概率。
置信水平:1-α,(置信度、置信系数)
影响置信区间的因素
1、样本容量: n越大,标准误越小,置信区间越窄 2、显著性水平 α越大,置信区间越小 3、置信水平(置信度) 水平越高,置信区间越宽 4、样本方差 样本数据变异性越大,对于相同置信度,所需置信区间越宽
区间估计的原理
根据抽样分布理论,用抽样分布的标准误(SE)(样本统计量的标准差)计算区间长度,解释总体参数落入某置信区间可能的概率。
总体平均数的区间估计 步骤
(先求标准误,再查表分数,乘积算一算,被均值加减)
①根据样本数据,计算出样本的均值 和标准差s ②计算标准误,总体方差已知 总体方差未知 ③确定置信水平(1-α)或显著性水平(α) ④根据样本平均数的分布,确定查何种统计表(Z or t) ⑤计算置信区间 总体方差已知: 总体方差未知: ⑥解释总体平均数的置信区间 (估计总体平均数落入该区间的正确可能性概率为1-α,犯错误的可能性为α)
简述区间估计和假设检验的关系
(1)主要联系:
① 都是根据样本信息推断总体参数;
② 都以抽样分布为理论依据,建立在概率论基础之上的推断;
③ 二者可相互转换,形成对偶性。
(2)主要区别: ① 参数估计是以样本资料估计总体参数的真值; 假设检验是以样本资料检验对总体参数的先验假设是否成立; ② 区间估计求得的是求以样本估计值为中心的双侧置信区间; 假设检验既有双侧检验,也有单侧检验; ③ 区间估计立足于大概率;假设检验立足于小概率。
假设检验的概念与分类
概念:
通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异。
•参数检验:
进行假设检验时,总体的分布形式已知,需要对总体的未知参数进行假设检验,称其为参数假设检验;
•非参数检验:
对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验,通常称之为非参数假设检验。
假设检验的基本原理
1)两类假设
2)两个基本思想
(1)两类假设 H0:虚无假设(零假设),是和研究假设相对立的假设。 H1:备择假设(对立假设),是根据已有理论或经验事先对研究结果作出一种预想的,希望被证实的假设。 在统计学中不能对H1直接进行检验,所以需要建立与之对立的假设H0。 二者有且只有一个正确,而H0 则是统计推论的出发点。
(2)两个基本思想
•反证法
为了检验H0,首先需要假设H0为真,若出现“不合理现象”,则不能接受H0,转而接受 H1;“不合理现象”指小概率事件在一次试验中发生了。
•小概率事件原理
小概率事件在一次试验中不可能发生,通常将概率不超过0.05或0.01的事件称为“小概率事件”。
显著性水平指的是拒绝虚无假设的小概率值,用α表示。
结果是否显著,是由观测值和临界值(如Z值、t值等)相比获得的。观测值大于临界值,则结果在相应的显著性水平上是显著的。
假设检验的基本原理
3)两类错误及其关系
Ⅰ型错误:当虚无假设正确,错误拒绝虚无假设,弃真错误,α错误 Ⅱ型错误:当虚无假设错误,错误接受虚无假设,取伪错误,β错误 两类错误的关系: 1、α+ β不一定等于1 2、当其它条件不变时,α和β不可能同时增大或减小 3、一般严控α错误,在α和其他条件不变时,可增大样本容量来减少β错误
统计检验力及其影响因素
定义:1- β,反映正确辨认真实差异的能力 影响因素: 1、处理效应大小:越大越好 2、显著性水平:越大越好 3、检验的方向性:单向比双向好 4、样本容量:越大越好
假设检验的步骤
猜: ①根据问题,提出虚无假设和备择假设
算: ②选择适当的统计量,计算检验统计量的值
判断:③确定显著性水平
答: ④做出接受还是拒绝虚无假设的决策
平均数的显著性检验
(样本与总体平均数差异的检验)
总体方差已知,总体正态或非正态大样本:Z
总体方差未知,总体正态或非正态大样本:t
平均数差异的显著性检验
(两样本平均数差异的检验)
1、独立样本 总体方差已知,总体正态或非正态大样本:Z 总体方差未知,总体正态或非正态大样本:方差齐性检验——齐性:t 2、相关样本 总体方差已知,总体正态或非正态大样本:Z 总体方差未知,总体正态或非正态大样本:t