CONCEPT Flashcards
贝叶斯定理
P(A|B)=?
考虑A和B都发生的概率有多大?
第一种方法:先算出B发生的概率P(B),再算B发生的情况下,A也发生的概率有多大,也是就P(A|B),那么A,B都发生的概率就是P(A|B)*P(B)。
第二种方法:P(B|A)*P(A)
两种算法的结果一定相等:P(A|B)*P(B)=P(B|A)*P(A)
那么:
抽样方式:
简单随机抽样
系统抽样
分层抽样
整群抽样
简单随机抽样(simple random sampling)。从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
系统抽样(systematic sampling),也称等距抽样。将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。这种方法操作简便,可提高估计的精度。
分层抽样(stratified sampling)。将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
整群抽样(cluster sampling)。将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差
左偏
右偏
钟形
对称
峰度
衡量什么?
峰度高意味着什么?
计算公式?
在统计学中,峰度(Kurtosis)衡量实数随机变量概率分布的峰态。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
预测的分类
qualitativ有哪些?
quantitative有哪些?
怎么判断预测模型的准确度?
- MSE公式
- MAE公式
- Ungleichheitskoeffizient von Theil
多元预测时,当X为quantitative oder nominal时,或当Y为quantitative oder nominal时,分别应该选用什么模型?
Einfache Regression
简单线性回归
多元回归模型的公式 矩阵版
多元回归模型的假设条件
多元回归模型的参数估计 Schätzung der Modellparameter
多元回归模型
Güte der Schätzung
- 总平方和
- 残差平方和
- 解释平方和
多元回归模型
- R2的公式?
- R2等于1和等于0分别代表什么?
- 为什么要校准R2?
- 校准后的R2代表什么?
- 校准后的R2的公式?
多元回归模型
参数估计的特点
估计的参数符合什么分布?
具体怎么分布的?
多元回归模型
- 无偏估计的公式?
多元回归模型
Konfidenzintervall der Koeffizienten
参数的置信区间公式