六、相关与回归分析 Flashcards
(皮尔逊)积差相关/的适用范围和公式
【适用范围】⒈数据成对,不宜少于30对;⒉两列变量各自正态总体;⒊连续数据;⒋变量间呈线性关系。
【公式】
基本式:r= Σxy/N·Sx·Sy
使用标准分数:r=Σ Zx·Zy /N
斯皮尔曼等级相关的适用范围
①适用于只有两列变量,且属于等级变量,主要用于解决称名数据和顺序数据的相关问题;
②对于属于等距或等比性质的连续变量数据,若按其取值大小,赋予等级顺序,转换为顺序变量数据,也可计算斯皮尔曼等级相关;
③有些虽然是等距或等比数据,其分布不是正整,也可以用斯皮尔曼等级相关。
口诀:“一对直”
质与量相关的计算
点二列相关:一列为真正二分称名变量(例如性别),另一列为等距或等比变量,总体正态分布。
二列相关:一列为人为划分的的二分变量(例如及格与否),另一列为等距或等比变量;两列数据均属于总体正态。
品质相关
▪️Φ相关:两列相互关联的变量分布要么都是真正的二分变量(例如有无工作、吸烟与否、婚姻状况等),要么有一组人为、一组真正。
公式:(ad—bc) / √(a+b)·(a+c)·(b+d)·(c+d)
tips:四表格里abcd分别为↖️↗️↙️↘️,对角相减,相邻相加
▪️四分相关
两列相互关联的变量分布都是人为的二分变量
相关与回归的关系
▪️区别
相关:用相关系数度量变量间的密切程度。双向,不强调哪个是自变量,哪个是变量的变化而变化的关系。
回归:用数学模型表示变量之间数量关系的可能形式。单向,找出一个变量随着另一个或者多个变量的变化而变化的关系。
▪️联系
1. 广义而言,相关分析包括回归分析
2. 二者共同起点是确定变量之间是否存在关系
3. 一元线性回归之中,相关系数等于两回归系数的几何平均数
bxy = r* Sx/Sy,byx=r*Sy/Sx
⚠️注意 1. 一种模型只有在当初抽取样本的同一范围内才能应用,即回归方程不能对X值范围外的数据做出预测 2. 相关分析和回归分析均不能确定因果关系 3. 若两变量间不存在相关关系,不要刻意去寻求两变量的某种关系,并用相关分析和回归分析来分析
线性回归的建立、检验、应用
▪️回归模型的建立
- 平均数法:Y^=a+bX,将数据按照奇偶分成两组,然后分别代入回归方程,形成二元一次方程组后分别解出a和b。
- 最小二乘法:误差平方和最小原理,即散点图中每一点沿Y轴方向到直线的距离(Y-Y^)的平方和最小。
▪️检验
- 回归模型的检验:①回归模型的有效性检验(方差分析);②回归系数的显著性检验(t检验)
- 回归效果的检验:决定系数r²等于回归平方和在总平方和中所占的比例,r²=Σ(Y-估计值Y)² / Σ(Y-均值Y)² =SSr/SSt
▪️应用
- 点估计:将确定的自变量Xi的值代入回归模型,得到相应的Yi值。
- 区间估计:以一定的概率为保证,预测当自变量X值取一定的Xi值时,因变量Yi的可能范围。