分享到:
电话:0371-61318821
助力企业快速实现 "互联网+" 计划

官方微信

郑州星云互联新闻中心,郑州星云互联资讯
首页 > 新闻中心 > 行业新闻

果断收藏!数据分析中常犯的18个统计学错误,请务必跳过这些坑

在数据分析的过程中我们经常会用到很多的统计学知识,但有很多统计学知识经常有人用错,从而导致分析结果不尽如人意,今天就给大家列举了18个容易错的统计学知识点,建议大家收藏留着以后慢慢看:

1. 变量之间关系可以分为两类:

函数关系:反映了事物之间某种确定性关系。

相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;

2. 为什么要对相关系数进行显著性检验?

改变两列数据的顺序,不会对相关系数,和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理,标准化处理,不会影响相关系数;我们计算的相关系数是线性相关系数,只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性,多个变量之间的相关性可以通过复相关系数来衡量

3. 增加变量个数,R2会增大;P值,F值只要满足条件即可,不必追求其值过小

4. 多重共线性与统计假设检验傻傻分不清?

多重共线性与统计假设没有直接关联,但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变,自变量变化一个单位,对因变量的影响,而存在多重共线性(变量之间相关系数很大),就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性,当x1变化一个单位,x2不变,对y的影响;而x1与x2高度相关,就会解释没有意义。

一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

5. 时间序列数据会自发呈现完全共线性问题,所以我们用自回归分析方法;

6. 什么样的模型才是一个好模型?

在测试集表现与预测集相当,说明模型没有过度拟合:在训练集上表现完美,在测试集上一塌糊涂;原因:模型过于刚性:“极尽历史规律,考虑随机误差”;拟合精度不能作为衡量模型方法的标准;

一个好的模型:只描述规律性的东西(抓住事务的主要特征),存在随机误差是好事,在预测时,就有了“容错空间”,预测误差可能减小!

7. 假设检验显著性水平的两种理解:

编辑

8. 中心极限定律与大数定理:

大数定理---正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;

中心极限定理---正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。

9. 方差

方差能最大程度的反映原始数据信息;


反映了一组数据相对于平均数的波动程度,相比于Xi-X ,其平方项更放大了波动,且差的平方在数学公式推导上有大用。

10. 使用最小二乘法条件:

11. 最大似然估计与最小二乘法区别

12. 关于H0与H1

H0:原假设,零假设----零是相关系数为0,说明两个变量无关系。

H1:备用假设。

如何设置原假设:

1.H0与H1是完备事件组,相互对立,有且只有一个成立。
2.在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。
3.原H0一般是需要反驳的,而H1是需要支持的。
4.假设检验只提供原假设不利证据。

即使“假设”设置严密,检验方法“精确”;假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误;

第一类:原H0是真,却拒绝原假设;犯 a类错误。

第二类:原H0是假,却不拒绝原假设;犯 b 类错误。

通常只能犯两种错误中的一种,且 a增加, b减少。

通常, a类错误是可控的,先设法降低第一类错误概率 a

13. 什么是双尾检验,单尾检验?

1. 当H0采用等号,而H1采用不等号,双尾检验。

2.当H0是有方向性的,单尾检验。

14. P值

15. T检验与U检验

16. 方差分析

主要用于两样本及以上样本间的比较,又被称为F检验,变异数分析;

基本思想:通过分析研究不同来源的变异对总体变异的贡献大小,从而确定可控因素对研究结果影响力的大小

总变异可以被分解为组间变异与组内变异。


17. 直方图:对数据进行整体描述,突出细节

箱线图:对数据进行概要描述,或对不同样本进行比较。箱线图可以让我们迅速了解数据的汇集情况(这个样本,紧密的集合在一起;哇,这个样本不那么密集;这个样本,大部分向左偏,哇,这个样本大部分向右偏。)

但是请注意:一个直方图比1000个p值更重要,拿到数据先绘制散点图、直方图、箱线图看看,再决定用什么描述!

18. 霜线图

对于分位数的理解:霜线图看数据分布特征统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。所以,四分位数有三个!四指四等份!

其中,下四分位数与上四分位数的距离叫四分位距!(IQR)


一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。

转载自网络 不用于商业宣传 版权归原作者所有,侵权删。

www.xyhlrj.com

作者: 时间:2020-03-25 阅读:204 分享到: