4 统计 Flashcards

1
Q

数据类型

A
1、根据数据观测方法与来源:
       计数、测量
2、根据数据反映的测量水平:
       称名数据、顺序数据、等距数据、比率数据
3、根据数据的连续性:
       连续数据、离散数据
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

条形图与直方图的区别

A

1、描述数据类型不同: 称名;连续
2、表示数据多少的方式不同: 直条长短;面积
3、坐标上的标尺分点意义不同: 分类轴;刻度值
4、图形直观形状不同: 有间隔,间隔大小不表示任何意义;没有间隔

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

常用的集中量数?

表示、计算、优缺点、应用原则?

A

算术平均数
中位数
众数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

平均数、中数、众数的关系

A
正态分布中:三者合一
偏态分布中:
         平均数永远在尾端,众数永远在顶端,中数永远在中间,偏态永远看尾端
          Mo=3Md-2M
          正偏态:低、难。   Mo
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

集中量数最好的代表

A

一般情况:平均数
偏态:众数
有极端值或模糊数据:中数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

差异量数

A
全距
百分位差
四分位差
离差和平均差
方差与标准差
变异系数(差异系数):表示相对离散程度,不能进行统计推论
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

标准差的特点

A

加不变,乘则乘

注:方差*C平方

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

平均数的特点

A

加则加
乘则乘
离差之和永为0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

集中量数与差异量数的关系

A

1、集中量数是指…包括… 差异量数是指…包括…
2、二者关系:
差异可衡量集中是否有代表性,差异小,集中代表性好,差异大,集中代表性差。
3、描述一组数据二者都要看,这样才能反映数据的全貌。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

相对量数

A

百分位数
百分等级
标准分数

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

标准分数的特点(性质)

A

1、Z分数均值为0,标准差为1
2、Z分数之和为0
3、若原始分数呈正态分布,则转换所得的Z分数呈均值为0,标准差为1的标准正态分布;
若原始分数呈非正态分布,转换所得的Z分数呈均值为0,标准差为1,其分布也为非正态分布。

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

标准分数的优点

A

1、可比性:不同性质…转换…同一背景下比较
2、可加性:不同性质…相同参照点
3、明确性:查分布函数表…百分等级
4、稳定性:转换后…标准差为1…不同性质…权重一样

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

相关量数的概念?

双变量之间的关系?

A

1、用于描述双变量数据之间的关系

2、因果、共变、相关

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

相关关系的表示方法和类别

A

1、散点图、相关系数r
2、线性相关: 正相关、负相关、零相关
非线性相关

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

相关量数

A
1、积差相关
2、等级相关:斯皮尔曼:  条件、计算
                               肯德尔:W(和谐系数)、U(一致性系数)
3、质量相关:点二列:条件、计算
                               二列:条件、计算
4、品质相关:Φ相关、四分相关、列联相关
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

积差相关的测量学意义

A

重测信度、分半信度、复本信度、效标效度、主观题区分度

17
Q

影响相关的因素

A

1、极端值
2、取值范围过窄
3、样本容量:越大,r越稳定

注意:原始数据加上或乘以一个相同的数,对相关系数没有影响

18
Q

概率的含义和性质

A
含义:
表明随机事件出现可能性大小的客观指标,包括后验概率和先验概率,当观测次数够多时他们是相等的。
性质:
1、必然事件发生的概率为1,不可能事件的概率为0
2、事件A发生的概率满足:0  ≤ P(A)≤ 1
3、逆事件-A的概率:P(-A)=1- P(A)
19
Q

概率的基本定律

A

1、加法定律:“或” P(A+B)=P(A)+P(B)
两个互不相容事件A、B之和的概率,等于两个互不相容事件概率之和。
2、乘法定律:“且” P(A·B) = P(A)·P(B)
两个独立事件同时发生的概率,等于两个独立事件各自发生概率的乘积。

20
Q

正态分布与标准正态分布的区别与联系

A

正态分布是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。
区别:
正态分布是一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。
标准正态分布的平均数和标准差都是固定的。
联系:
标准正态分布是正态分布的一种,具有正态分布的所有特征。
所有正态分布都可以通过Z分数公式转换成标准正态分布。

21
Q

正态分布(高斯分布)的特点

A
①钟型对称曲线,对称轴是平均数,拐点在1个标准差处;
  ②两端无限延伸下降,但永不与横轴相交;
  ③曲线下面积为1;
  ④正态分布为一族分布
  ⑤正态曲线下,标准差与概率(面积)有一定的数量关系
       正负1个标准差,包含所有数据 68.2%
       正负1.96个标准差,包含所有数据 95%
       正负2.58个标准差,包含所有数据 99%
22
Q

二项分布的性质

A

性质:
是离散型分布,概率条图是阶跃式的。
当p=q时分布对称,当p≠q时,分布偏态,但是随着n的增大,偏态逐渐降低。
当p

23
Q

简述各种概率分布的特点

A

标准正态分布:平均数为0,标准差为1

正态分布:一族、对称、 拐点, 面积为1.
T分布: 一族、对称、 均值、方差、 面积为1 无穷大。
卡方分布:一族、正偏、 均值、方差、 面积为1 无穷大。
F分布: 一族、正偏、 t方 面积为1 无穷大。

24
Q

样本平均数分布

A
1、总体正态,方差已知,样本平均数分布为正态分布
2、总体非正态,方差已知,大样本,渐进正态分布
3、总体正态,方差未知,t分布
4、总体非正态,方差未知,大样本,近似t分布
5、中心极限定理:
        对于任意平均数为 μ,标准差为 σ的总体,样本容量为n的样本平均数分布的平均数为μ ,标准差为σ/根号n。n>30或趋于无穷大时,样本平均数的分布趋近于正态分布。
6、大数定律
        样本大小n越大,X拔与 μ接近的可能性越大,标准误越小,即样本越能代表总体。
25
Q

点估计的含义、优缺点

A

定义:用样本统计量来估计总体参数,结果以一个点的数值来表示。
优点:提供总体参数的估计值
缺点:不能说明估计的精度和把握程度

26
Q

良好点估计的标准

A

①无偏性:用多个样本统计量作为总体参数的估计值,其偏差的平均数是0
②有效性:有多个无偏估计量时,变异小的有效性高,即方差越小越好 (平均数比中数、众数好)
③一致性:样本容量无限增大时,估计值应该能够越来越趋近总体参数
④充分性:估计值是否充分反映了样本内所有数据所反映的总体信息 (计算是否严密)

27
Q
区间估计的定义
 置信区间:
 置信界限:
 显著性水平(α):
 置信水平:
A

定义:
根据估计量以一定可靠程度推断总体参数所在的区间范围,虽然不能指出某个具体的数值点,但是能指出总体参数落入该区间的概率。

置信区间:指在某个置信度时,总体参数所在的区域距离或长度。
置信界限:置信区间上下两个端点的值。
显著性水平(α):估计总体参数落在某一区间时,可能犯错误的概率。
置信水平:1-α,(置信度、置信系数)

28
Q

影响置信区间的因素

A
1、样本容量:
       n越大,标准误越小,置信区间越窄
2、显著性水平
       α越大,置信区间越小
3、置信水平(置信度)
       水平越高,置信区间越宽
4、样本方差
       样本数据变异性越大,对于相同置信度,所需置信区间越宽
29
Q

区间估计的原理

A

根据抽样分布理论,用抽样分布的标准误(SE)(样本统计量的标准差)计算区间长度,解释总体参数落入某置信区间可能的概率。

30
Q

总体平均数的区间估计 步骤

A

(先求标准误,再查表分数,乘积算一算,被均值加减)

       ①根据样本数据,计算出样本的均值   和标准差s
       ②计算标准误,总体方差已知         
                                        总体方差未知
       ③确定置信水平(1-α)或显著性水平(α)
       ④根据样本平均数的分布,确定查何种统计表(Z or t)
       ⑤计算置信区间    
        总体方差已知:
        总体方差未知:
       ⑥解释总体平均数的置信区间 (估计总体平均数落入该区间的正确可能性概率为1-α,犯错误的可能性为α)
31
Q

简述区间估计和假设检验的关系

A

(1)主要联系:
① 都是根据样本信息推断总体参数;
② 都以抽样分布为理论依据,建立在概率论基础之上的推断;
③ 二者可相互转换,形成对偶性。

(2)主要区别:
① 参数估计是以样本资料估计总体参数的真值;
     假设检验是以样本资料检验对总体参数的先验假设是否成立;
② 区间估计求得的是求以样本估计值为中心的双侧置信区间;
     假设检验既有双侧检验,也有单侧检验;
③ 区间估计立足于大概率;假设检验立足于小概率。
32
Q

假设检验的概念与分类

A

概念:
通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异。

•参数检验:
进行假设检验时,总体的分布形式已知,需要对总体的未知参数进行假设检验,称其为参数假设检验;
•非参数检验:
对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验,通常称之为非参数假设检验。

33
Q

假设检验的基本原理
1)两类假设
2)两个基本思想

A
(1)两类假设
  H0:虚无假设(零假设),是和研究假设相对立的假设。
  H1:备择假设(对立假设),是根据已有理论或经验事先对研究结果作出一种预想的,希望被证实的假设。
  在统计学中不能对H1直接进行检验,所以需要建立与之对立的假设H0。
  二者有且只有一个正确,而H0 则是统计推论的出发点。

(2)两个基本思想
•反证法
为了检验H0,首先需要假设H0为真,若出现“不合理现象”,则不能接受H0,转而接受 H1;“不合理现象”指小概率事件在一次试验中发生了。
•小概率事件原理
小概率事件在一次试验中不可能发生,通常将概率不超过0.05或0.01的事件称为“小概率事件”。
显著性水平指的是拒绝虚无假设的小概率值,用α表示。
结果是否显著,是由观测值和临界值(如Z值、t值等)相比获得的。观测值大于临界值,则结果在相应的显著性水平上是显著的。

34
Q

假设检验的基本原理

3)两类错误及其关系

A
Ⅰ型错误:当虚无假设正确,错误拒绝虚无假设,弃真错误,α错误
Ⅱ型错误:当虚无假设错误,错误接受虚无假设,取伪错误,β错误
两类错误的关系:
   1、α+ β不一定等于1
   2、当其它条件不变时,α和β不可能同时增大或减小
   3、一般严控α错误,在α和其他条件不变时,可增大样本容量来减少β错误
35
Q

统计检验力及其影响因素

A
定义:1- β,反映正确辨认真实差异的能力
影响因素:
1、处理效应大小:越大越好
2、显著性水平:越大越好
3、检验的方向性:单向比双向好
4、样本容量:越大越好
36
Q

假设检验的步骤

A

猜: ①根据问题,提出虚无假设和备择假设
算: ②选择适当的统计量,计算检验统计量的值
判断:③确定显著性水平
答: ④做出接受还是拒绝虚无假设的决策

37
Q

平均数的显著性检验

(样本与总体平均数差异的检验)

A

总体方差已知,总体正态或非正态大样本:Z

总体方差未知,总体正态或非正态大样本:t

38
Q

平均数差异的显著性检验

(两样本平均数差异的检验)

A
1、独立样本
总体方差已知,总体正态或非正态大样本:Z
总体方差未知,总体正态或非正态大样本:方差齐性检验——齐性:t
2、相关样本
总体方差已知,总体正态或非正态大样本:Z
总体方差未知,总体正态或非正态大样本:t