统计 Flashcards

1
Q

什么是平均数

A

1、定义:是一种最普遍的几种量数,一般用字母M表示,如果平均数是由X变量计算的,即为X拔。
2、计算:公式: Σxi/N,一组数据中,每个数据与平均数之差(离差或离均差)的总和等于零,即平均数意味着重心.
3、性质:一组数据中,每一个数加上一个常数c,所得的平均数为原来的平均数加常数c;每一个常数乘以一个常数c,所得的平均数为原来的平均数乘以常数c
4、优点:
反应灵敏;全部数据参与计算,计算严密简单,简明易懂,适合进一步代数运算;较少受抽样变动的影响 ,平均数的波动通常小于其他量数的波动,通常是最可靠、最正确的量数,代表性好
5、缺点:
易受极端数据影响;有模糊数据不能使用

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

什么是中数

A

1、定义: 又称中位数,是一种位置量数,符号是Md,是一组数据按顺序排列后为位于中间位置的数,即在这组数据中,有一半的数据比他他,有一半的数据比他小。
2、计算:一组数据中,数据个数为奇数时,第(n+1)/2个数即为中数;数据个数为偶数时,位于中间两个数的平均数即为中数;有重复数据时,且重复数据位于数列中间时,用画图法。
3、优点:计算简单;不受极端值影响,能在有模糊数据下使用;可在顺序型数据时使用;偏态分布中代表性最好
4、缺点:代表性比平均数低,不灵敏,需要排序,不稳定,不能代数运算

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

什么是众数

A
一、定义:又称为范数,符号为Mo.在次数分布中出现次数最多的那个变量,可能不止一个(表现为多峰)
二:优缺点:
1、优点:能在数据不同质的情况下使用,能避免极端值的干扰。
2、缺点:既不稳定也不灵敏,代表性差,不能进一步代数运算。
三、众数的计算:
1、观察法
2、用次数分组表计算:数据整理成次数分布表后,观察次数最多的那个分组区间的组中值即为众数。当分布数列中各变量值的频率相等时,该数列没有众数。
这种方法求得的众数受分组的影响。
3、皮尔逊经验公式:M0=3Md-2M
四、众数的适用范围:
当需要快速、粗略的找出一组数据的代表值时;
当数据不同质时,众数可作为典型情况的代表;
当出现两个极端数据时(也可用中数);
可以粗略估计次数分布形态(用平均数与众数之差看是否偏态,注意:中数不能粗略估计一组数据的形态)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

组中值

A

1、组中值=(精确上限+精确下限)÷2
2、组中值=精确下线+组距的二分之一
2、仅存在于组距数列分组数列中,近似平均数。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

图解并说明平均数、中数、众数三者的关系(记忆)

A

1、正态分布中,三者相等。
2、正偏态(右偏态)分布中,平均数大于中数大于众数;
3、负偏题分布中,平均数小于中数小于众数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

样本方差与总体方差的区别和联系(理解、记忆)

A

1、计算方法:总体方差是数据个数或总频数去除离差平方和;样本方差是用样本数据个数或总频数减一,再去除离差平方和
2、表示方法:样本方差是统计量,用s²表示;总体方差是总体参数,用σ²表示;
3、联系:当N很大时,s²与σ²相差很小,s²是σ²的无偏估计。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

方差和标准差的性质(理解、记忆)

A

一、方差:
1、方差的定义:又称均方,样本方差用S2表示,总体方差用 表示。方差表示一组数据离散程度(或称各种变异总和)。
2、计算:方差即将每一个原始数据与平均数之差,即离均差的平方相加,得到离均差的平方和,再除以总个数,得到的即为方差。公式:s2=∑(x-x拔)/N,
2、性质:具有可加性和可分解性。如:方差分析就是利用方差的这个特点。
二、标准差:
1、标准差定义:同方差一样是最常用、且是表示一组数据离散程度的最好指标,是一种差异量数。样本方差用s表示,总体方差用 表示,
2、计算:是一组数据方差的平方根。
2、性质:每一个观测值都加上一个常数c后,得到的标准差等于原来的标准差;每一个观测值都乘以一个相同的常数c,得到的标准差等于原标准差乘以这个常数。标准差不可以进行代数计算。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

变异系数

A
1、定义:又称差异系数,是一种相对差异量。用CV表示。
2、计算:cv=s/x拔*100%,s表示样本标准差,x拔表示样本的平均数。
3、适用条件:
1)、两个或两个以上特质不同的样本;
2)、两个或两个以上特质相同的样本,但样本间水平差异较大。
3)、测量数据必须等距,运用差异系数比较更有意义(典型如考试分数);测量工具具备绝对零点,运用差异系数比较的效果更好;由于尚无有效的检验方法,目前不能进行推断统计
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

方差和标准差的意义(优点)(记忆,简答题)

A

1、方差和标准差是表示一组数据离散程度最好的指标,是统计描述和统计推断分析中最常用的差异量数。

2、优点:所有数据参与,反应灵敏,计算严谨,适合代数运算,受抽样变动影响小,意义简单明了。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

标准分数(Z分数)的性质(记忆,简答题)

A

一、定义:标准分数是一种相对位置量数,以标准差为单位,表示一个原始分数在团体中的相对位置。也叫Z分数。表示原始分数在平均数以上或以下几个标准差的位置,用其值正负号表示(是等距数据,可加减)。
标准差:标准差是一组数值自平均值分散开来的程度的一种测量观念,较大的标准差代表大部分的数值与其平均数之间差异较大,较小的标准差代表这些数值较接近平均数。
二、计算公式:(x-x拔)/s
三、性质:
1、Z分数无实际单位,以平均数为参照点,以标准差为单位的一个相对量;
2、Z分数可正可负,之和为零;
3、Z分数均值为零,标准差为1。标准分数的分布是一个标准正态分布。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

标准分数的应用(在哪些情况下可以用到标准分数)(简答题,注意答卷格式)

A

一、标准分数的定义
二、标准分数的意义
三、标准分数的计算公式
四、标准分数的应用:
1、比较几个分属性质不同的观察值在各自数据分布中相对位置的高低,如比较某学生在班里语文成绩和数学成绩那个更好。
2、计算不同质的观测值的总和或平均数,以表示在团体中的相对位置,如计算某学生语数外综合成绩在班级里的总排名。
3、表示标准测验的分数。若标准分数中有小数、负数等不易被人接受的问题,可通过Z’=aZ+b的线性公式转换成新的分数,如韦氏成人智力量表。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

相关系数的意义(理解,计算和选择题)

A

1、什么叫相关:相关,即两类现象在发展变化的方向和大小方面存在一定的联系,但既不是因果关系,也不是共变关系。用r表示。
2、方向:同增共减:r为+,一致;r为-,你增加我减,不一致
3、大小:r的绝对值,绝对值大关系密切,绝对值小关系不密切
4、用散点图表示:完全正相关、正相关、零相关、完全负相关、负相关

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

积差相关(皮尔逊相关)(记忆,简答或选择)

A

1、积差相关:统计学家皮尔逊提出,亦称皮尔逊相关2、计算公式:
3、适用条件为:
1)、成对:2列数据成对出现,即每个个体都有两种不同的观测值,且每对数据相互独立;
2)、正态:两列变量各自总体的分布均为正态,至少接近正态;
3)、连续:两个相关的变量均为连续变量,即两列数据都是测量数据(3.4水平数据);
4)、线性:两列变量之间的关系为线性
4、测量学意义:重测信度、复本信度,以及非0.1计分的项目区分度的估计

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

等级相关的适用条件(斯皮尔曼等级相关)(理解、记忆)

A
等级相关的一种,适用于:
1、2列数据,总体非正态,对总体分布不做要求,为非参数的相关方法;
2、数据类型:顺序型数据,等级变量
3、线性:两列变量具有线性关系。
4、计算公式牢记
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

肯德尔等级相关(肯德尔W和谐系数)(理解、记忆)

A
包括肯德尔W系数和肯德尔U系数,测量意义是评分者信度。
一、肯德尔W系数,即肯德尔和谐系数,
1,测量方法:直接等级评定 ,K个评为对N件事物进行,得到K列从1到N的等级变量资料。
2,原理:评价者就评价的一致性,除以最大变异可能性。
3,计算公式牢记

二、肯德尔U系数:
1.评价方法:评价者采用对偶比较的方法,将N件事物两两配对,然后对每一对中两事物进行比较,择优选择,优者记1,非优者记0,最后整理成相对应的评价结果。
2.计算公式再认
3. 1)同一评价者无相同等级评定时,W的计算公式:
(1)式中:N—被评的对象数; K—评分者人数或评分所依据的标准数;
S—每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和,即
当评分者意见完全一致时,S取得最大值可见,和谐系数是实际求得的S与其最大可能取值的比值,故0≤W≤1。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

点二列相关(题总相关)(理解、记忆)

A

1、量测意义:区分度
2、两列数据,一列为等距、正态变量;另一列为离散型二分变量(真正分类,真正称名,如总分vs第五题对错)
3、计算公式再认 rpb

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

二列相关

A

1、一列变量是正态、等距变量,另一列由正态等距被人为的分成两类(如语文成绩vs作文成绩好、坏)

2、计算公式再认 rb

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

品质相关(其中φ相关)(理解、记忆)

A

品质相关包括 φ相关,四分相关,列联表相关。其中φ相关:
1、两个变量都是真正的二分变量(如吸烟者、不吸烟者,癌症、不得癌症)
2、计算公式牢记
3. Φ相关系数的大小,表示两因素之间的关联程度。当Φ值小于0.3时,表示相关较弱;当Φ 值大于0.6时,表示相关较强

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

统计图表的几种类型(分组次数分布表,直方图)

A

由分组次数分布表推直方图
1、分组次数分布表,适合数据个数和分布范围都比较大的时候用,先把所有数据划分若干区间,再将数值划分到相应区域的组别内,分别统计各个组别中包括的数据个数。缺陷:存在“归组效应”:由于原始数据丢失,区间数据之和的计算方法为组中值乘以区间次数,因此会与实际有偏差
2、直方图(次数分布图的一种):描述分组的连续性数据;矩形面积表示数据多少;曲线下面积是人数或概率(概率为1);坐标上的标尺,分点意义为另一个刻度值;各个方块之间紧密相连,没有间隙。
没画矩形为组织图。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

统计图表的几种类型(累加次数分布表,累加次数分布图)

A

由累加次数分布表推累加次数分布图
1、累加次数分布表:各组次数由下而上,或由上而下加在一起,最后一组的累加次数等于总次数
2、累加次数分布图:根据累加次数分布表绘制而成,分为累加直方图、和累加曲线图。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

统计图表的几种类型(简单次数分布表,条形图)

A

三、由简单次数分布表推条形图
1、简单次数分布表:使用数据个数和分布范围较小。
2、条形图:用于描述离散型数据,称名数据,用直条长短表示数量大小和差异;坐标上的标尺,分点意义为分类;直条与直条之间的间隔大小没有任何关系,不代表任何意义。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

散点图

A

用圆点多少和疏密表示两个变量间的相关关系

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

标准分数的优点(简答题,牢记)

A

1、可比性:不同性质的分数,转换为标准分数,即可在同一背景下比较;
2、可加性:不同性质的原始数据,具有相同的参照点,可相加;
3、明确性:知道了标准分数,利用分布函数(差z分数表)即可知道其百分等级;
4、稳定性:转换成标准分数后,规定了标准差为1,保证了不同性质的分数在总分中权重一样。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

简述统计量和参数之间的区别和联系

A

一、定义
1、总体的特征称为参数,又称总体参数,是描述一个总体情况的统计指标;常见的有u,σ等
2、样本特征值叫做统计量,又称特征值,是描述一个样本情况的统计指标,常见的有X拔、s等
二 、联系:
通过样本统计量通过推断统计来预测得出总体参数。
1、当总体大小已知并与实验观察的总次数相同时,他们是同一统计指标。
2、当总体无限时,统计量和总体参数不同,统计量可在某种程度上作为总体参数的估计值,为总体参数做出预测和估计。
三、区别(表示方法):
1、参数用希腊字母表示(如:)u表示集中趋势,σ表示离中趋势,样本统计量表示样本的趋势,如用英文字母表示(如:)x拔表示集中趋势,s表示离中趋势,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

平均数的适用范围

A

如果一组数据比较准确、可靠、同质,需要每一个数据加入运算,且需要做进一步代数运算,则可用平均数表示其集中趋势

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

中数的适用范围

A

当一组数据出现两个极端数据时;当两端数据不清楚时;当需要快速的估计一组数据的代表值时

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

概率的定义(理解)

A

随机事件出现的可能性大小的客观指标。包括先验概率(试验之前猜的)和后验概率(试验之后得出)。当观测次数够多时,二者相等。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

概率的基本性质(理解与应用)

A
1、概率的公理系统
任何一个随机事件A的概率都是非负的;一定条件下,必然发生的必然事件的概率为1;
一定条件下,必然不发生的事件的概率为0
2、加法定理:
两个互不相容事件A、B之和的概率,等于两个事件概率之和。即 P(A+B)=P(A)+P(B) 无论事件有多少,其总和的概率永远不会大于1
3、适用于同时发生的独立事件, P(AB)=P(A)*P(B)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

概率分布的类型(了解)

A

从不同角度:
1、离散分布与连续分布
2、经验分布与理论分布
3、基本随机变量分布与抽样分布

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

正态分布的特点(牢记)

A

也称高斯分布、常态分布,表示为x~(u, σ方),基本随机变量x服从正态分布,正态分布的平均数为u,方差为σ方
1、对称:正态曲线像一口钟,两头低,中间高曲线呈对称分布,其均值、中数、众数三点合一。
2、曲线:曲线先向内弯,后向外弯,拐点在1个标准差处,两端向靠近横轴处不断延伸,但始终不与横轴相交。
3、面积:正态曲线下面积为1,由过平均数点的垂线将其划分为左右相等的两部分,各0.5。
4、一族分布:正态分布是同心的无数条曲线,随着随机变量的平均数、标准差的大小与单位不同,有不同的分布形态。
5、正态分布与标准正态分布的联系:
正态分布通过标准化处理,转化为标准正态分布后,转化公式:Z=(x-u)/西伽马,转化后均值为零,标准差为1,均值和标准差均为固定值,标准正态分布形态固定,只有1条,横轴为z分数。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

标准正态分布中的几个特殊值(单双侧)

A
1、双侧:
正负1s 之间,面积(概率)为68.2%
正负1.96s之间,面积(概率)为95%--显著性水平0.05
正负2.58s之间,面积(概率)为99%--显著性水平0.01
2、单侧(右侧):
1.64s--95%--显著性水平0.05
2.33s--99%--显著性水平0.01
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

正态分布的应用(计算题)

A
一、查正态分布表
二、在研究中的应用:
1、按能力分组(高中低三组,以正负1s为界限),确定人数
2、化等级评定为测量数据???看基础班视频例题
3、测验分数的正态化???看基础班视频例题
三、标准分数的应用(将原始分数转为标准分数,即可知原始分数的百分等级。百分等级为顺序量表)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

二项分布

A

1、定义:描述随机现象的一种概率分布形式,因与二项式展开式相同而得名。对于一个事件有两种可能A和B,对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布。符号为:b(x,n,p), n次试验,x次成功,成功的概率为p
2、计算公式:(考选择题:在n次试验(考试、做题目)中,求r次成功的概率分布函数,r次成功(做对)的概率)
3、二项分布的条件:
1)、任何一次试验刚好有2个结果;
2)、共有n次试验
3)、每次试验各自独立(各试验间无相互影响)
4)、某种结果出现的概率在任何一次试验中都是固定的
4、二项分布图形:
1)、当p=q时,图形是对称的;
2)、当p不等于q时,如果p小于q,np大于等于5时,二项分布接近正态分布。u=np, 标准差=√ ̄npq

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

二项试验的条件(理解,用于计算应用题目的理解)

A
(多次、独立、2结果,和为1)
1、试验在相同的条件下,重复多次
2、一次试验只有两种结果,成功或失败
3、每次试验成功的概率P和失败的概率q,保持不变,相加等于1
4、各次试验结果互不影响,相互独立
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

二项分布的曲线

A

1、当p=q时,不论n多大,二项分布的曲线都是对称的2

2、当p不等于q时,如n相当小,图形呈偏态,如n相当大,图形渐近正态分布

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

二项分布渐近正态分布的条件和转化

A

条件:p小于q, np≥5,或q小于p, nq≥5,即n为大样本时。
转化:
1、平均数u=np
2、标准差西伽马=√ ̄npq

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

二项分布的应用(计算题)

A

一、样本数量为大样本(转正态):
例如:已知100到5择1的题目(大样本,转正态分布,已知pq,得u、西伽马)
1、求:从95%的把握排除猜测做答(从95%推z分数,再推对应的原始分数即做对题目数量),查单测表
2、或求:做对20题的概率(由原始分数20求z,再由z值推概率)
二、样本数量为小样本(直接利用公式计算):
例如:扔一枚硬币,3次出现正面就停止,求在第6次停止的几率(理解为:扔6次,3次正面向上的概率)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

t分布的定义和特点(记忆)

A

一种随机变量函数的分布(戈赛特)
1、左右对称,平均数为0,面积为1
2、与标准正态分布相比,较为平坦和分散,标准差大于1。
3、分布形态随自由度(df=n-1)的增大而渐近标准正态分布,为一族分布

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

样本平均数分布的中心极限定理(理解)

A

1、对于任意总体(正态或非正态),平均数为u,标准差为σ,样本容量为n的样本平均数分布的平均数仍然为u,标准差为σ/√ ̄n。
2、随着样本数量的增大,样本平均数的分布渐近正态分布。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

样本平均数分布的大数定理(理解)

A

样本数量n越大,样本平均数与u约接近,样本平均数分布的标准差(标准误,西伽马/√ ̄n)越小,即样本约能代表总体。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

抽样原理(理解)

A

抽样的基本原则:随机性,需要满足:
1、每个个体被选取的概率相等
2、返回取样(重复抽样)以保证每个个体,每一次被抽取的概率不变

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

抽样方法(概率抽样)

A

抽样指从总体中抽取一部分个体的过程,包括概率抽样和非概率抽样。概率抽样是最理想最科学的抽样方法,常见的有:
1、简单随机抽样(包括抽签法、随机数字法):从N中随机抽取n,每个个体都有相同的概率被抽中。
优缺点:机会均等,相互独立;数目小且个体差异小时;当n很大时,不易构造抽样框,效率低
2、分层抽样:先将抽样按特征划分为不同的层(强调结构),各层按简单随机抽样的方法抽样,按各层比例分配样本,层间差异大于层内差异,最后整合为整体样本。
优点:保证了样本的结构与总体的结构相近,精度高,既可以对总体参数进行估计,也可以对各层的目标量进行估计。
3、等距抽样(也叫系统抽样、机械抽样):先将总体排序,后随即抽取一个单位作为样本的初始单位,后每隔k个单位抽取一个。
优缺点:总体数目庞大时
4、多阶段抽样(????找例子)
整群抽样,保证样本相对集中,经济;再抽样,调查范围更广泛、适用于大规模抽样,如两阶段随机取样。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

抽样方法(非概率抽样)

A

1、方便取样:就近,便利

2、判断抽样:先根据某些条件过滤,然后选取某些参与调查

44
Q

t分布与z分布的区别与联系(记忆)

A

1、均值都为0,t标准差大于1,z标准差等于1
2、面积均为1
3、t形态相对z低阔,相对正态分布高狭。
4、z一条,t一族

45
Q

卡方分布(样本抽样分布的一种)的定义

A

1、n个独立的标准正态随机变量的平方和,或随机变量标准分数的平方和,构成一个自由度为n的卡方分布。

2、df=n

46
Q

卡方x²分布的特点(记忆)

A

1、正偏态,n越小,分布越偏斜;当自由度n趋于无穷时,为正态分布,一族分布,正态分布是x²分布的其一特例;
2、x²值为正值;
3、x²的可加性:x²分布的和也为x²分布;卡方和的分布,其df=df1+df2+…
4、(小计算题)当自由度df大于2时,x²分布的平均数=n=自由度, x²分布的方差=2df
5、x²分布属于连续型分布,有些离散型的分布近似卡方分布
6、x²分布是一族分布,自由度df=n-k, K为限制条件数,分布随样本容量增大渐近正态。
7、当df大于2时,卡方分布的平均数为df, 方差为2df

47
Q

F分布的定义(理解)

A

F=(X/m)/(Y/n)~(m,n) 其中m、n为F值的分子分母自由度,又,X、Y 分别为两列卡方分布,记为X~X²(m) Y~X²(n)
1、从两个正态分布总体中随机抽取容量为n1、n2的两个样本,分别计算卡方值;
2、每个卡方值随机变量除以对应的自由度df1=n1-1,与df2=n2-1之比,成为F比率;
3、无限多个F比率构成的分布成为F分布,F(n1-1,n2-1)

48
Q

F分布的特点(记忆)

A

1、正偏态(因为x²分布为正偏态)
2、F值总为正值(因为x²值为正)
3、两个自由度(分子自由度df1,分母自由度df2),随着两个自由度的增多,F分布渐近正态分布。
4、分子自由度为1时,分母自由度任意,都有F值与分母自由度相等概率的t值(双侧概率)的平方相等。F=t²(两种处理水平),F检验是t检验的扩展版。
5、一族曲线(先查df1,df2)

49
Q

样本分布的几种情况(理解)

A
一、样本平均数分布(z=t=(x拔-u)/SE, SE=西伽马/√ ̄n, 或SE=S/√ ̄n-1)
1、正态分布
总体正态,方差已知,样本平均数分布仍呈正态分布
总体非正,方差已知,n≥30,...渐近正态分布
2、t分布
总体正态,方差未知,n小于30,...t分布(近似z分布)
总体非正,方差未知,n≥30,...渐近t分布

二、卡方分布

三、F分布

50
Q

参数估计的定义和分类(理解)

A
  1. 通过一组样本数据,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。
  2. 分为点估计和区间估计
  3. 区间估计的原理是小概率原理和样本抽样分布原理
51
Q

点估计的定义(理解)

A

用样本统计量来估计总体参数,因为样本统计量为数值上某一点值,估计结果也以一个点的数值表示。有误差的局限。

52
Q

良好点估计量的标准(记忆、简答题)

A

1、无偏性:好的估计量应该是一个无偏估计量,即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为0。例如,用样本平均数作为总体u的估计值,就具有无偏性,x拔是u的无偏估计,但样本方差s2就不是ρ2的无偏估计值。
2、有效性:当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好。
3、一致性:当样本容量无限增大时,估计值能够越来越接近它所估计的总体参数,估计值越来越精确,趋于真值。一致性只是在大样本提出的一种要求,对于小样本,不能作为评价估计量好坏的标准
4、充分性:样本的统计量是否充分的反映了全部数据所反映的总体的信息。

53
Q

影响置信区间的因素(简答)

A

一、基本概念:
1、区间估计:以一定可靠程度推断总体参数所在的区间范围,相应的概率是置信度/置信水平(1-α),相应的犯错误的概率是显著性水平(α)
2、置信区间:某一置信度对应下的总体参数落入的区域距离或区域长度,表示为:x拔±Zα/2*SE

二、影响置信区间的因素
1、样本容量:n越大,标准误越小,置信区间越窄,估计的精确性越高;
2、置信水平:置信水平1-α越高,置信区间越宽,估计的可靠性越高;
3、样本方差:样本数据变异性越大(即标准误越大),对于相同置信度(即相同的Zα/2),所需置信区间越宽。

54
Q

区间估计的原理

A

1、背景:通过样本数据对对总体特征进行估计叫做参数估计。参数估计分为点估计和区间估计。
2.区间估计的定义:根据样本统计量,以一定可靠程度,推断总体参数所在的区间范围,即用数轴上的一段距离表示位置参数可能落入的范围,这个区间叫做置信区间。相应的,估计总体参数落在某一区间时可能犯错误的概率,称为显著性水平。
3.区间估计的原理:
样本抽样分布原理,以及小概率原理

55
Q

总体平均数的区间估计步骤(简答题)

A
1、计算样本平均数和标准差
2、计算标准误(标准误的两种计算公式,方差已知:σ/√ ̄n, 方差未知:s/√ ̄n-1)
3、确定置信水平和显著性水平
4、确定查何种表(z or t)
--总体正态,方差已知,查z表
--总体非正,方差已知,n大于30,查z表
--总体正态,方差未知,查t表
--总体非正,方差未知,但n大于30,查t麻烦, 转为查z表
5、计算置信区间 u=x拔±z/t*σx拔
6、解释总体平均数的置信区间
56
Q

假设检验的定义(样本平均数抽样分布的一种应用)(了解、记住)

A

通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异,包括:
1、参数假设检验:总体分布已知(正态),大样本,等距数据,精度高
2、非参数检验:总体分布未知,小样本,等级数据,如卡方检验

57
Q

假设检验的原理(理解)

A

1、样本平均数抽样分布原理(z , t)

2、基于小概率的反证法

58
Q

两类假设

A

1、虚无假设H0, 实验处理没有效果,观察到的为随机误差

2、备择假设:H1, 自变量确实对因变量产生了作用,是研究者预期希望的。

59
Q

两类错误(记忆,简答)

A

1、背景:根据样本推断总体,有可能犯两类错误。
I型错误:虚无假设正确时,拒绝虚无假设所犯的错误,2、分类及定义:
弃真错误,α错误。意义:没有试验效果,却认为有效果;
II型错误:虚无假设错误时,接受了虚无假设或拒绝备择假设的错误,取伪错误,β错误。意义:发生了试验效果,却没侦察到。

60
Q

两类错误的关系(简答、论述)图解

A

1、两类错误是在不同条件下犯的错误,I型错误是在零假设正确时犯得错误, II型错误是在零假设不正确时犯的错误,因此α+β不一定等于1;
2、在其他条件不变的情况下,α与β不可能同时减小或增大,而是互为跷跷板效应
3、在α一定的情况下,减小β,需要增大样本容量
4. 如果α非零,那么β也非零

61
Q

统计检验力(了解,选择题)

A

1-β:反映正确辨认真实差异的能力,表示在虚无假设为假时,正确拒绝的概率

62
Q

假设检验的方向性(了解,选择题)

A

1、单侧检验:强调方向,如是否大于、优于等,精度低。

2、双侧检验:强调差异,如是否有显著差异,精度高。

63
Q

假设检验的步骤(简述,记忆)

A
一、提出虚无假设和备择假设 H0, H1
二、选择检验统计量
1、方差已知,z
2、方差未知,t
三、确定检验的方向性和显著性水平,α值或α/2
四、计算检验统计量的值 由x拔推导z or t值
五、查表比较临界值
六、做出决策(根据案例说明差异是由抽样误差所致,还是差异显著)
64
Q

假设检验的应用(两种情况)

A
差异显著性检验
一、平均数差异检验
1、样本平均数与总体平均数之间的差异检验
2、两样本平均数之间的差异检验
二、方差齐性检验
1、样本方差与总体方差的齐性检验(差异显著性检验) --卡方检验
2、两样本方差之间的齐性检验(差异显著性检验)--F检验
65
Q

两样本平均数之间的差异检验(掌握分类标准)

A
H0:u1=u2
H1:u1≠u2
通用公示为z=t=(X1拔-X2拔)/SE(DX拔)。 SE的计算根据不同标准选择:
1、总体正态,方差已知;或总体非正,方差已知,大样本,则z检验
独立样本z检验;
相关样本z检验。
2、总体正态,方差未知,则t检验
独立样本t检验(先判断方差是否齐性,df=n1+n2-2)
相关样本t检验(分相关系数已知,如双生子或前后测;和相关系数未知)
3、总体方差未知,大样本,
z检验
66
Q

样本平均数(x拔)与总体平均数(u)之间的差异检验

A
H0:u=u0
H1:u≠u0
如总体正态,方差已知:z=(x拔-u0)/SE, SE=σ/√ ̄n
如总体非正,方差未知:t=(x拔-u0)/SE, SE=s/√ ̄n-1
(df=n-1)
如总体非正,方差未知,且n≥30,用z'检验,公示中SE同t,但查z表、比较、决策
67
Q

卡方检验

A

1、卡方检验的目的:方差齐性检验
2、适用的条件:样本方差与总体方差(当从正态分布的总体中,随机抽取容量为n的样本时,其样本方差与总体方差之比,服从卡方分布)
3、表示:X²=nS²/σ0² (df=n-1 )

68
Q

F检验

A

一、F检验使用目的:方差齐性检验
二、适用条件:两样本方差
1、独立样本:F=S²大/S²小 (df1=n1-1, df2=n2-1)
2、相关样本:很复杂, (df=n-2)

69
Q

方差分析

A
1、定义:又称变异分析、ANOVA,比较多个总体均值差异的检验。
2、原理:
1)、综合的虚无假设,优点是一次比较多组均值,效率高。
2)、方差的可加性原则(即数据的变异由两部分组成:组内变异(个体误差+随机误差)加组间变异
3、优点:是T检验的增强版,相比较T检验,可以处理:
1)、交互作用
2)、不用两两比较那么麻烦
3)、减小犯α错误的概率
70
Q

方差分析的基本假定(前提条件)-3条多选题

A

1、两样本总体正态分布
2、每次观察得到的几组数据必须彼此独立(数据的独立性)
3、各实验处理内的方差应彼此无显著差异(方差齐性)。为满足这一假定,采用最大F比率法: Fmax=S²max/S²min ,通过查表判断
备:样本容量可以不同

71
Q

方差分析的基本步骤(计算题)

A
1、建立综合的虚无假设
2、求平方和SST、SSW、SSB;求自由度:dft=N-1;dfb=k-1;dfw=k(n-1);求均方 MSW=SSW/dfW ; MSB=SSB/dfB
3、求F值:F=MSB/MSW
4、根据自由度,查F表进行比较
5、做决策
6、陈列方差分析表
72
Q

回归分析与相关分析的关系(简答或论述)

A

回归分析和相关分析均为研究及度量两个或两个以上变量之间关系的方法。广义上讲,相关分析包括回归分析,但严格来讲,二者有如下区别:
1、根据分析程度不同,回归分析是以数学方式表示数量间的关系,而相关分析则是检验或度量这些关系的密切程度,两者相辅相成。如果通过相关分析显示出变量间的关系非常密切,则通过求得的回归模型可获得相当准确的推算值。
2、根据不同目的,可以从不同角度去分析变量间的关系,当旨在分析变量间的关系的密切程度时,一般使用相关系数,这个过程叫相关分析;若研究的目的是确定变量间数量关系,表达变量间依存关系的数学模型,这个过程叫回归分析。

73
Q

线性回归的基本假设(选择、简答)

A

一、线性关系假设:回归分析的最基本假设:x与y在总体上具有线性关系。
二、正态性假设:回归分析中的Y服从正态分布
三、独立性假设:
1、某一x对应的一组Y值,与另一x对应的一组y值之间,没有关系,彼此独立(即数据成对);
2、误差项独立,不同的x所产生的的误差之间相互独立,无自相关。
3、误差项与自变量x相互独立
四、 误差等分散性假设:特定x水平的误差呈随机正态分布,其变异量也相等,称为误差等分散性。

74
Q

回归方程建立的方法– 最小二乘法(名解)

A

如果散点图的每一点沿y轴方向到直线的距离的平方和最小,即总误差=Σ(y-ŷ)²最小。则这条直线的代表性最好,为回归方程。

75
Q

几何平均数

A

1、几何平均数是指:n个观察值连乘积的n次方跟根。
2、适用范围:数据之间差异较大,几乎出现成倍增长的现象时,用几何平均数描述这组数据更为合适。
3、应用:如股票的连年收益不同,可用几何平均数计算基平均收益率。

76
Q

统计学的分类

A

根据统计方法的功能:统计学分为:
1、描述统计
2、推论统计
3、实验设计

77
Q

统计学的理论基础

A

1、概率论

2、正态分布曲线方程

78
Q

统计分组需要注意的问题

A

1、以研究对象的本质特征为基础
2、分组标志要明确
3、分组要包括所有数据

79
Q

四分位数的计算公式

A

第一步:确定四分位数的位置。Qi 所在的位置=i(n+1)/4,其中i=1,2,3。n表示资料项数。

第二步:根据第一步四分位数的位置,计算相应四分位数。

80
Q

次数,概率,频率

A

(1)次数是指某一件事情在某一类别中出现的数目,又称频数。
(2)频率即某一事件发生的次数被总的事件数目除。
(3)概率指某一事件在无限的观察中所能预测的相对出现的次数。

81
Q

统计检验力

A

1-β反映正确辨认真实差异的能力,统计学上称为统计检验力。

  1. 在a和其他条件不变时,增加样本容量,β会减小,1-β会增大。
  2. 使用单尾检验,a增大,β会减小,1-β会增大。
82
Q

完全随机设计的方差分析

A

1.完全随机设计:体现3个随机,随机分组,各组与各实验处理随机结合,实验处理顺序随机,属于组间设计。

2,完全随机设计的方差分析:可以用于三个及其以上、独立样本、平均数差异的、显著性检验。

83
Q

分层抽样

A
  1. 将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,

2. 分层抽样的特点是将科学分组法与抽样法结合在一起,科学分组减小了各抽样层变异性的影响,随机抽样保证了所抽取的样本具有足够的代表性。

84
Q

事后检验常用的方法

A

N-K检验,

Scheffe^检验。

85
Q

卡方检验的使用条件

A

分类相互排斥
观测值相互独立
期望次数的大小至少在5个以上

86
Q

抽样调查中,为什么要坚持随机选择

A
1.抽样调查中的随机原则是指:
在抽样过程中,样本单位的抽取不受任何主观因素的影响,从而保证总体中每个单位都有一定的被抽中的可能性,是随机抽样所必须遵循的原则。
2.在统计抽样调查中坚持随机原则的原因:
⑴概率理论:保证抽样的科学性是建立在概率论的理论基础之上的。
⑵代表性:保证所抽样本的分布类似于总体的分布,从而保证样本对总体的代表性。
⑶科学性:可以排除主观因素等非随机因素对抽样调查的影响,保证抽样调查的科学性。
87
Q

抽样估计的优良标准

A

即一致性、有效性、无偏性。指用样本指标估计总体指标:

  1. 一致性:要求当样本的单位数充分大时,抽样指标也充分地靠近总体指标;
  2. 有效性:要求作为优良估计量的方差应该比其它估计量的方差小;
  3. 无偏性:要求抽样指标的平均数等于被估计的总体指标。
88
Q

对平均数差异进行显著性检验时,为什么要求总体的方差要齐性?

A

如果方差不齐性则平均数差异的样本分布就不符合正态分布或t分布,这样就不能使用Z检验或t检验。

89
Q

什么叫事后检验多重比较

A

如果方差分析F检验的结果表明显著,拒绝了虚无假设,就表明几个实验处理组的两两比较中至少有一对平均数间的差异达到了显著水平,至于是哪一对,方差分析没有回答。虚无假设被拒绝的结果一旦出现,就必须对各实验处理组的多对平均数进一步分析,做深入比较,判断究竟是哪一对或哪几对的差异显著,哪几对不显著,确定两变量关系的本质,这就是事后检验多重比较。

90
Q

对于相关系数r的显著性检验,用什么检验方法

A

用T

91
Q

相关系数抽样分布

A

相关系数抽样分布的形态,随总体相关系数ρ和样本容量n的大小变化。当两总体确实有相关时:
1、n相当大时 ,r的样本分布接近于正态;
2、n相当小时,r的样本分布呈偏态。
3、当ρ很大时,即使n较大,r的样本分布呈偏态。

92
Q

相关系数与相关关系的判断

A

1、虚假相关:有时两变量之间不存在相关关系,却可能存在较高的相关系数(如存在另一个共同影响两变量的因素),这种相关叫虚假相关;
2、不能根据r的绝对值的大小对两个变量之间的关系的密切程度做判断,需要进行检验,方能确定变量之间是否存在显著的相关

93
Q

标准分数表示原始分数的地位表现在

A

1、分数对平均数的相对位置

2、该组分数的离中趋势

94
Q

方差和标准差的合成

A

合成条件:
1、用同一种观测手段
2、测的是同一种特质
3、样本不同

95
Q

回归系数与相关系数的关系

A

1、回归系数是一种不对称设计
bYX=r(Sx/Sy) bXY=r(Sy/Sx)
2、相关系数是是两个回归系数的几何平均
r=√ ̄bYX*bXY;是对称设计,是双向的,不强调哪个是自变量哪个是因变量。

96
Q

抽样误差

A

抽样误差是指样本统计值与被推断的总体参数出现的偏差,可以计算、可以控制、不可以消除:
1、抽样实际误差
2、抽样平均误差
3、抽样极限误差

97
Q

样本平均数抽样分布

A
样本平均数抽样分布是所有样本均值(u)形成的分布,
1、抽样分布形态是对称的
2、总体正态,方差已知,样本平均数分布为正态分布,其分布的数学期望为总体均值u.
3、总体非正态,方差已知,随着样本容量n的增大(n大于30),样本均值的抽样分布都将趋于(渐近)正态分布,其分布的数学期望为总体均值u.
4、总体非正态,样本量n小于30,样本不呈正态分布
98
Q

参数估计时,总体标准差西伽马的无偏估计量如何计算

A

总体标准差的无偏估计量等于样本统计量的标准差乘以贝塞耳式矫正系数(√ ̄n/(n-1))

99
Q

什么是集中量数

A

一组数据中表示集中趋势的量称为集中量数,常见的有平均数、中数、众数。

100
Q

协方差

A

1、定义:两个变量离均差乘积的平均数,表示两列变量协同变化的一致性,协变量绝对值越大,表示两列变量之间的线性关系越强,即越接近一条直线。是线性关系的指示器。
2、公式:
2、适用:表明某一变量确对两个变量之间存在影响,可用协变量分析法,设法排除或控制那些变量的影响效应

101
Q

总体均值估计的置信区间的长度与那些因素有关

A
1、给出公式
2、与α有关,α影响z或t值,进而影响置信区间长度
3、与置信度有关,α增大,1-参数假设检验α减小,置信区间减小
4、与n有关,n增大,标准误减小,置信区间减小
5、与样本方差s有关,s增大,标准误增大,置信区间增大
102
Q

假设检验

A

1、定义:通过样本统计量得出的差异做出一般性结论,推断总体参数之间是否存在差异,这一推论过程称为假设检验。基本任务是,事先对总体参数或总体形态做出一个假设,然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设。
2、分类:
参数假设检验:总体分布形态已知,对总体未知参数进行假设检验称;
非参数假设检验:总体分布未知,对未知分布函数的形式和特征进行假设检验

103
Q

统计检验力

A

1、定义:H1为真,接受H1的概率,即正确辨认真实差异的能力(或正确拒绝零假设的能力)即为统计检验力。代表符号1-β。

2、统计检验力的影响因素有:α、β、n、以及检验的方向性。(说明影响的趋势)

104
Q

效果量

A

1、效果量定义:表示自变量对因变量产生的作用。符号为:d=| u1-u2 |

2、效果量的意义:表示了差异大小的信息;表明实验处理的效应大小;反映自变量与因变量关系的程度

105
Q

多因素方差分析的基本概念

A

1、简单效应:如:因素A的一个水平(a1)因为另一个因素的不同水平产生的差异—差值之比
2、主效应:如FA:因素A的不同水平(a1、 a2…)对因变量的不同效应(忽略另一个因素B的影响)–均值之比(事后检验:多重比较)
3、交互作用:
一个因素各个水平之间反应量的差异随其他因素的不同水平而发生的作用(事后检验:简单效应分析)
4、交互作用个数:因素间的组合数
5、实验处理组个数:各因素水平数的乘积