统计 Flashcards
什么是平均数
1、定义:是一种最普遍的几种量数,一般用字母M表示,如果平均数是由X变量计算的,即为X拔。
2、计算:公式: Σxi/N,一组数据中,每个数据与平均数之差(离差或离均差)的总和等于零,即平均数意味着重心.
3、性质:一组数据中,每一个数加上一个常数c,所得的平均数为原来的平均数加常数c;每一个常数乘以一个常数c,所得的平均数为原来的平均数乘以常数c
4、优点:
反应灵敏;全部数据参与计算,计算严密简单,简明易懂,适合进一步代数运算;较少受抽样变动的影响 ,平均数的波动通常小于其他量数的波动,通常是最可靠、最正确的量数,代表性好
5、缺点:
易受极端数据影响;有模糊数据不能使用
什么是中数
1、定义: 又称中位数,是一种位置量数,符号是Md,是一组数据按顺序排列后为位于中间位置的数,即在这组数据中,有一半的数据比他他,有一半的数据比他小。
2、计算:一组数据中,数据个数为奇数时,第(n+1)/2个数即为中数;数据个数为偶数时,位于中间两个数的平均数即为中数;有重复数据时,且重复数据位于数列中间时,用画图法。
3、优点:计算简单;不受极端值影响,能在有模糊数据下使用;可在顺序型数据时使用;偏态分布中代表性最好
4、缺点:代表性比平均数低,不灵敏,需要排序,不稳定,不能代数运算
什么是众数
一、定义:又称为范数,符号为Mo.在次数分布中出现次数最多的那个变量,可能不止一个(表现为多峰) 二:优缺点: 1、优点:能在数据不同质的情况下使用,能避免极端值的干扰。 2、缺点:既不稳定也不灵敏,代表性差,不能进一步代数运算。 三、众数的计算: 1、观察法 2、用次数分组表计算:数据整理成次数分布表后,观察次数最多的那个分组区间的组中值即为众数。当分布数列中各变量值的频率相等时,该数列没有众数。 这种方法求得的众数受分组的影响。 3、皮尔逊经验公式:M0=3Md-2M 四、众数的适用范围: 当需要快速、粗略的找出一组数据的代表值时; 当数据不同质时,众数可作为典型情况的代表; 当出现两个极端数据时(也可用中数); 可以粗略估计次数分布形态(用平均数与众数之差看是否偏态,注意:中数不能粗略估计一组数据的形态)
组中值
1、组中值=(精确上限+精确下限)÷2
2、组中值=精确下线+组距的二分之一
2、仅存在于组距数列分组数列中,近似平均数。
图解并说明平均数、中数、众数三者的关系(记忆)
1、正态分布中,三者相等。
2、正偏态(右偏态)分布中,平均数大于中数大于众数;
3、负偏题分布中,平均数小于中数小于众数
样本方差与总体方差的区别和联系(理解、记忆)
1、计算方法:总体方差是数据个数或总频数去除离差平方和;样本方差是用样本数据个数或总频数减一,再去除离差平方和
2、表示方法:样本方差是统计量,用s²表示;总体方差是总体参数,用σ²表示;
3、联系:当N很大时,s²与σ²相差很小,s²是σ²的无偏估计。
方差和标准差的性质(理解、记忆)
一、方差:
1、方差的定义:又称均方,样本方差用S2表示,总体方差用 表示。方差表示一组数据离散程度(或称各种变异总和)。
2、计算:方差即将每一个原始数据与平均数之差,即离均差的平方相加,得到离均差的平方和,再除以总个数,得到的即为方差。公式:s2=∑(x-x拔)/N,
2、性质:具有可加性和可分解性。如:方差分析就是利用方差的这个特点。
二、标准差:
1、标准差定义:同方差一样是最常用、且是表示一组数据离散程度的最好指标,是一种差异量数。样本方差用s表示,总体方差用 表示,
2、计算:是一组数据方差的平方根。
2、性质:每一个观测值都加上一个常数c后,得到的标准差等于原来的标准差;每一个观测值都乘以一个相同的常数c,得到的标准差等于原标准差乘以这个常数。标准差不可以进行代数计算。
变异系数
1、定义:又称差异系数,是一种相对差异量。用CV表示。 2、计算:cv=s/x拔*100%,s表示样本标准差,x拔表示样本的平均数。 3、适用条件: 1)、两个或两个以上特质不同的样本; 2)、两个或两个以上特质相同的样本,但样本间水平差异较大。 3)、测量数据必须等距,运用差异系数比较更有意义(典型如考试分数);测量工具具备绝对零点,运用差异系数比较的效果更好;由于尚无有效的检验方法,目前不能进行推断统计
方差和标准差的意义(优点)(记忆,简答题)
1、方差和标准差是表示一组数据离散程度最好的指标,是统计描述和统计推断分析中最常用的差异量数。
2、优点:所有数据参与,反应灵敏,计算严谨,适合代数运算,受抽样变动影响小,意义简单明了。
标准分数(Z分数)的性质(记忆,简答题)
一、定义:标准分数是一种相对位置量数,以标准差为单位,表示一个原始分数在团体中的相对位置。也叫Z分数。表示原始分数在平均数以上或以下几个标准差的位置,用其值正负号表示(是等距数据,可加减)。
标准差:标准差是一组数值自平均值分散开来的程度的一种测量观念,较大的标准差代表大部分的数值与其平均数之间差异较大,较小的标准差代表这些数值较接近平均数。
二、计算公式:(x-x拔)/s
三、性质:
1、Z分数无实际单位,以平均数为参照点,以标准差为单位的一个相对量;
2、Z分数可正可负,之和为零;
3、Z分数均值为零,标准差为1。标准分数的分布是一个标准正态分布。
标准分数的应用(在哪些情况下可以用到标准分数)(简答题,注意答卷格式)
一、标准分数的定义
二、标准分数的意义
三、标准分数的计算公式
四、标准分数的应用:
1、比较几个分属性质不同的观察值在各自数据分布中相对位置的高低,如比较某学生在班里语文成绩和数学成绩那个更好。
2、计算不同质的观测值的总和或平均数,以表示在团体中的相对位置,如计算某学生语数外综合成绩在班级里的总排名。
3、表示标准测验的分数。若标准分数中有小数、负数等不易被人接受的问题,可通过Z’=aZ+b的线性公式转换成新的分数,如韦氏成人智力量表。
相关系数的意义(理解,计算和选择题)
1、什么叫相关:相关,即两类现象在发展变化的方向和大小方面存在一定的联系,但既不是因果关系,也不是共变关系。用r表示。
2、方向:同增共减:r为+,一致;r为-,你增加我减,不一致
3、大小:r的绝对值,绝对值大关系密切,绝对值小关系不密切
4、用散点图表示:完全正相关、正相关、零相关、完全负相关、负相关
积差相关(皮尔逊相关)(记忆,简答或选择)
1、积差相关:统计学家皮尔逊提出,亦称皮尔逊相关2、计算公式:
3、适用条件为:
1)、成对:2列数据成对出现,即每个个体都有两种不同的观测值,且每对数据相互独立;
2)、正态:两列变量各自总体的分布均为正态,至少接近正态;
3)、连续:两个相关的变量均为连续变量,即两列数据都是测量数据(3.4水平数据);
4)、线性:两列变量之间的关系为线性
4、测量学意义:重测信度、复本信度,以及非0.1计分的项目区分度的估计
等级相关的适用条件(斯皮尔曼等级相关)(理解、记忆)
等级相关的一种,适用于: 1、2列数据,总体非正态,对总体分布不做要求,为非参数的相关方法; 2、数据类型:顺序型数据,等级变量 3、线性:两列变量具有线性关系。 4、计算公式牢记
肯德尔等级相关(肯德尔W和谐系数)(理解、记忆)
包括肯德尔W系数和肯德尔U系数,测量意义是评分者信度。 一、肯德尔W系数,即肯德尔和谐系数, 1,测量方法:直接等级评定 ,K个评为对N件事物进行,得到K列从1到N的等级变量资料。 2,原理:评价者就评价的一致性,除以最大变异可能性。 3,计算公式牢记
二、肯德尔U系数:
1.评价方法:评价者采用对偶比较的方法,将N件事物两两配对,然后对每一对中两事物进行比较,择优选择,优者记1,非优者记0,最后整理成相对应的评价结果。
2.计算公式再认
3. 1)同一评价者无相同等级评定时,W的计算公式:
(1)式中:N—被评的对象数; K—评分者人数或评分所依据的标准数;
S—每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和,即
当评分者意见完全一致时,S取得最大值可见,和谐系数是实际求得的S与其最大可能取值的比值,故0≤W≤1。
点二列相关(题总相关)(理解、记忆)
1、量测意义:区分度
2、两列数据,一列为等距、正态变量;另一列为离散型二分变量(真正分类,真正称名,如总分vs第五题对错)
3、计算公式再认 rpb
二列相关
1、一列变量是正态、等距变量,另一列由正态等距被人为的分成两类(如语文成绩vs作文成绩好、坏)
2、计算公式再认 rb
品质相关(其中φ相关)(理解、记忆)
品质相关包括 φ相关,四分相关,列联表相关。其中φ相关:
1、两个变量都是真正的二分变量(如吸烟者、不吸烟者,癌症、不得癌症)
2、计算公式牢记
3. Φ相关系数的大小,表示两因素之间的关联程度。当Φ值小于0.3时,表示相关较弱;当Φ 值大于0.6时,表示相关较强
统计图表的几种类型(分组次数分布表,直方图)
由分组次数分布表推直方图
1、分组次数分布表,适合数据个数和分布范围都比较大的时候用,先把所有数据划分若干区间,再将数值划分到相应区域的组别内,分别统计各个组别中包括的数据个数。缺陷:存在“归组效应”:由于原始数据丢失,区间数据之和的计算方法为组中值乘以区间次数,因此会与实际有偏差
2、直方图(次数分布图的一种):描述分组的连续性数据;矩形面积表示数据多少;曲线下面积是人数或概率(概率为1);坐标上的标尺,分点意义为另一个刻度值;各个方块之间紧密相连,没有间隙。
没画矩形为组织图。
统计图表的几种类型(累加次数分布表,累加次数分布图)
由累加次数分布表推累加次数分布图
1、累加次数分布表:各组次数由下而上,或由上而下加在一起,最后一组的累加次数等于总次数
2、累加次数分布图:根据累加次数分布表绘制而成,分为累加直方图、和累加曲线图。
统计图表的几种类型(简单次数分布表,条形图)
三、由简单次数分布表推条形图
1、简单次数分布表:使用数据个数和分布范围较小。
2、条形图:用于描述离散型数据,称名数据,用直条长短表示数量大小和差异;坐标上的标尺,分点意义为分类;直条与直条之间的间隔大小没有任何关系,不代表任何意义。
散点图
用圆点多少和疏密表示两个变量间的相关关系
标准分数的优点(简答题,牢记)
1、可比性:不同性质的分数,转换为标准分数,即可在同一背景下比较;
2、可加性:不同性质的原始数据,具有相同的参照点,可相加;
3、明确性:知道了标准分数,利用分布函数(差z分数表)即可知道其百分等级;
4、稳定性:转换成标准分数后,规定了标准差为1,保证了不同性质的分数在总分中权重一样。
简述统计量和参数之间的区别和联系
一、定义
1、总体的特征称为参数,又称总体参数,是描述一个总体情况的统计指标;常见的有u,σ等
2、样本特征值叫做统计量,又称特征值,是描述一个样本情况的统计指标,常见的有X拔、s等
二 、联系:
通过样本统计量通过推断统计来预测得出总体参数。
1、当总体大小已知并与实验观察的总次数相同时,他们是同一统计指标。
2、当总体无限时,统计量和总体参数不同,统计量可在某种程度上作为总体参数的估计值,为总体参数做出预测和估计。
三、区别(表示方法):
1、参数用希腊字母表示(如:)u表示集中趋势,σ表示离中趋势,样本统计量表示样本的趋势,如用英文字母表示(如:)x拔表示集中趋势,s表示离中趋势,
平均数的适用范围
如果一组数据比较准确、可靠、同质,需要每一个数据加入运算,且需要做进一步代数运算,则可用平均数表示其集中趋势
中数的适用范围
当一组数据出现两个极端数据时;当两端数据不清楚时;当需要快速的估计一组数据的代表值时
概率的定义(理解)
随机事件出现的可能性大小的客观指标。包括先验概率(试验之前猜的)和后验概率(试验之后得出)。当观测次数够多时,二者相等。
概率的基本性质(理解与应用)
1、概率的公理系统 任何一个随机事件A的概率都是非负的;一定条件下,必然发生的必然事件的概率为1; 一定条件下,必然不发生的事件的概率为0 2、加法定理: 两个互不相容事件A、B之和的概率,等于两个事件概率之和。即 P(A+B)=P(A)+P(B) 无论事件有多少,其总和的概率永远不会大于1 3、适用于同时发生的独立事件, P(AB)=P(A)*P(B)
概率分布的类型(了解)
从不同角度:
1、离散分布与连续分布
2、经验分布与理论分布
3、基本随机变量分布与抽样分布
正态分布的特点(牢记)
也称高斯分布、常态分布,表示为x~(u, σ方),基本随机变量x服从正态分布,正态分布的平均数为u,方差为σ方
1、对称:正态曲线像一口钟,两头低,中间高曲线呈对称分布,其均值、中数、众数三点合一。
2、曲线:曲线先向内弯,后向外弯,拐点在1个标准差处,两端向靠近横轴处不断延伸,但始终不与横轴相交。
3、面积:正态曲线下面积为1,由过平均数点的垂线将其划分为左右相等的两部分,各0.5。
4、一族分布:正态分布是同心的无数条曲线,随着随机变量的平均数、标准差的大小与单位不同,有不同的分布形态。
5、正态分布与标准正态分布的联系:
正态分布通过标准化处理,转化为标准正态分布后,转化公式:Z=(x-u)/西伽马,转化后均值为零,标准差为1,均值和标准差均为固定值,标准正态分布形态固定,只有1条,横轴为z分数。
标准正态分布中的几个特殊值(单双侧)
1、双侧: 正负1s 之间,面积(概率)为68.2% 正负1.96s之间,面积(概率)为95%--显著性水平0.05 正负2.58s之间,面积(概率)为99%--显著性水平0.01 2、单侧(右侧): 1.64s--95%--显著性水平0.05 2.33s--99%--显著性水平0.01
正态分布的应用(计算题)
一、查正态分布表 二、在研究中的应用: 1、按能力分组(高中低三组,以正负1s为界限),确定人数 2、化等级评定为测量数据???看基础班视频例题 3、测验分数的正态化???看基础班视频例题 三、标准分数的应用(将原始分数转为标准分数,即可知原始分数的百分等级。百分等级为顺序量表)
二项分布
1、定义:描述随机现象的一种概率分布形式,因与二项式展开式相同而得名。对于一个事件有两种可能A和B,对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布。符号为:b(x,n,p), n次试验,x次成功,成功的概率为p
2、计算公式:(考选择题:在n次试验(考试、做题目)中,求r次成功的概率分布函数,r次成功(做对)的概率)
3、二项分布的条件:
1)、任何一次试验刚好有2个结果;
2)、共有n次试验
3)、每次试验各自独立(各试验间无相互影响)
4)、某种结果出现的概率在任何一次试验中都是固定的
4、二项分布图形:
1)、当p=q时,图形是对称的;
2)、当p不等于q时,如果p小于q,np大于等于5时,二项分布接近正态分布。u=np, 标准差=√ ̄npq
二项试验的条件(理解,用于计算应用题目的理解)
(多次、独立、2结果,和为1) 1、试验在相同的条件下,重复多次 2、一次试验只有两种结果,成功或失败 3、每次试验成功的概率P和失败的概率q,保持不变,相加等于1 4、各次试验结果互不影响,相互独立
二项分布的曲线
1、当p=q时,不论n多大,二项分布的曲线都是对称的2
2、当p不等于q时,如n相当小,图形呈偏态,如n相当大,图形渐近正态分布
二项分布渐近正态分布的条件和转化
条件:p小于q, np≥5,或q小于p, nq≥5,即n为大样本时。
转化:
1、平均数u=np
2、标准差西伽马=√ ̄npq
二项分布的应用(计算题)
一、样本数量为大样本(转正态):
例如:已知100到5择1的题目(大样本,转正态分布,已知pq,得u、西伽马)
1、求:从95%的把握排除猜测做答(从95%推z分数,再推对应的原始分数即做对题目数量),查单测表
2、或求:做对20题的概率(由原始分数20求z,再由z值推概率)
二、样本数量为小样本(直接利用公式计算):
例如:扔一枚硬币,3次出现正面就停止,求在第6次停止的几率(理解为:扔6次,3次正面向上的概率)
t分布的定义和特点(记忆)
一种随机变量函数的分布(戈赛特)
1、左右对称,平均数为0,面积为1
2、与标准正态分布相比,较为平坦和分散,标准差大于1。
3、分布形态随自由度(df=n-1)的增大而渐近标准正态分布,为一族分布
样本平均数分布的中心极限定理(理解)
1、对于任意总体(正态或非正态),平均数为u,标准差为σ,样本容量为n的样本平均数分布的平均数仍然为u,标准差为σ/√ ̄n。
2、随着样本数量的增大,样本平均数的分布渐近正态分布。
样本平均数分布的大数定理(理解)
样本数量n越大,样本平均数与u约接近,样本平均数分布的标准差(标准误,西伽马/√ ̄n)越小,即样本约能代表总体。
抽样原理(理解)
抽样的基本原则:随机性,需要满足:
1、每个个体被选取的概率相等
2、返回取样(重复抽样)以保证每个个体,每一次被抽取的概率不变
抽样方法(概率抽样)
抽样指从总体中抽取一部分个体的过程,包括概率抽样和非概率抽样。概率抽样是最理想最科学的抽样方法,常见的有:
1、简单随机抽样(包括抽签法、随机数字法):从N中随机抽取n,每个个体都有相同的概率被抽中。
优缺点:机会均等,相互独立;数目小且个体差异小时;当n很大时,不易构造抽样框,效率低
2、分层抽样:先将抽样按特征划分为不同的层(强调结构),各层按简单随机抽样的方法抽样,按各层比例分配样本,层间差异大于层内差异,最后整合为整体样本。
优点:保证了样本的结构与总体的结构相近,精度高,既可以对总体参数进行估计,也可以对各层的目标量进行估计。
3、等距抽样(也叫系统抽样、机械抽样):先将总体排序,后随即抽取一个单位作为样本的初始单位,后每隔k个单位抽取一个。
优缺点:总体数目庞大时
4、多阶段抽样(????找例子)
整群抽样,保证样本相对集中,经济;再抽样,调查范围更广泛、适用于大规模抽样,如两阶段随机取样。