Data Analysis 统计学基础
Created at 2016-09-25 Updated at 2018-05-01 Category Data Analysis
直方图和柱状图的区别
直方图上X轴上的变量,是数值型的,比如年龄,要么从小到大排序,要么从大到小排序,还可以设置bin的组距。
柱状图上放的是分类或定性的,比如国家,排序可以根据需要,按人口排,按字母顺序等。
正态分布
直方图的分布可以是正偏分布,负偏分布,正态分布。
中间高,两边低,左右对称的直方图,叫做正态分布。
正态分布的中间会有峰值,叫做众数,大量的数据分布在中间位置。
数据的集中趋势
如果用一个数,来描述数据的分布,可以选择 Mode 众数(出现频率最高的数),Median 中值,Mean 平均值。
众数
正态分布,会有一个众数
前倾斜分布或后倾斜分布,也有一个众数,比如人的寿命,属于后倾斜分布,集中在七八十岁
驼峰分布,会有两个众数。比如鞋码的分布,女鞋分布在38,男鞋分布在42,会有两个众数
如果是一条直线,那么就没有众数
众数可以用来描述数字,也可以是其他东西,如性别,水果
因为众数虽然很容易从图中找到,但没有什么公式可以得出,所以常用平均值或中值。
平均值
平均值是将所有数据累加,再除以数据的个数。
平均值的特点
平均值用于描述数据的分布时,主要有以下特点:
- 一个样本的平均值可以用来推论其所在的总体
- 同一个总体的多个样本会有相似的平均值
- 平均值可以用公式来描述
- 分不中的所有值都会影响平均值
- 如果有极值,它会导致平均值向极值倾斜,不能很好地描述数据的分布。
异常数据对平均值的影响
众数不受极值的影响,但是平均值会收到极值的影响,所以引出了中位数。
中位数
中位数需要将数据进行有序排列,然后取出位于中间的数。
如果数据的个数是偶数个,那么中间会有两个数,这两个数的平均值,就是中位数。
Facebook分析
- 平均每个人有229个好友
- 22%的好友是高中同学
- 12%是同事
- 9%是大学同学
- 2008年Facebook的平均用户年龄是33
- 2010年的平均年龄是38
- 52%的用户每天都会访问自己的Facebook
- Zeebly.com/socialme有更多有趣的统计数据
总结
有一个简单的公式:
- 平均数有。中位数虽然也有公式,但是不够简单,要分奇偶书的情况。
总是会根据数据集的变化而变化:
- 平均数
不受bin变化的影响:
- 平均数
- 中位数
不受异常值的影响:
- 中位数
- 众数
在直方图上容易找到:
- 众数
数据的离散程度
有的数据集的众数、中位数、平均数都一样,但是离散程度不同。
对于离散情况较高的,我们会去掉开头的25%,和尾部的25%,留下中间的部分,进行分析。
将数据集对折,可以找到中位数,也就是Q2(第二个四分位)。再将两边的数据进行对折,就找到了Q1和Q3。
IQR 四分位距,四分位差,就是Q3-Q1,中间50%的数据的范围。
盒须图
盒须图可以看出数据的离散分布情况。盒须图可以用几个点来表示:
- 上边缘,计算公式是Q1-1.5*IQR
- Q1
- 中位数
- Q2
- 下边缘,计算公式是Q3+1.5*IQR
- 异常值
异常值应该<上边缘,或者>下边缘。
平均值不一定在Q1和Q3之间。
偏差
有时候同样的盒须图,对应的分布情况却不一样,比如正态分布,双峰分布等。这时候引入了离均差的概念,就是每个数据项与平均数之间的距离。
为什么是平均数,而不是两个数据项之间的距离呢?因为如果有三个数据项,两两相比较,得出的距离有六个,数据量再大点,会更多。而用平均数比较的话,三个数据项只有三个距离。
离均差=数据项-平均数,离均差有些是负数
平均偏差=sum(每一项的离均差)/count,平均偏差的问题是,因为离均差是有符号的,所以求和可能为0 。这样就无法描述数据项的分布。方案有两个,一个是忽略离均差的符号,也就是绝对偏差,另一个是方差。
VARIANCE,方差。
方差最大的问题是符号问题,比如米,平方后就是平方米。如果是人民币,平方后是什么呢?所以还要开平方。方差开完平方后,就叫SD,标准差。
标准差的应用
对于正态分布,也就是Mean=Mode=中位数,它的68%的数据项分布在离中位数一个标准差的距离之内,95%的数据项分布在离中位数两个标准差的距离内。
样本的标准差计算方法如上,但是如果要推算整体的标准差,上面除的不是count,而是count-1,也就是整体的标准差要比样本的标准差大。样本的标准偏差和总体的标准偏差的区别
整体标准差的最佳期望,是n-1。
案例
一次考试,分数呈正态分布,平均分60,你考了65,标准差是5,那么16%的同学比你考得好。如果标准差是2.5的话,2.5%的同学都比你考得好。。。
归一化
直方图其实显示的就是百分比的一个对比。整个直方图柱子的面积加起来是1,每根柱子是百分之多少。
我们用直方图来看分布时,总是希望bin小点,这样能看到的明细更多。如果bin很小,最后有成百上千根柱子,直方图就会变形了。这时候,我们可以使用曲线图,来描述,比如正态分布图。这个曲线是可以通过函数生成的,所以任意两点之间的面积也能算出来。
同样的,正态分布图的面积也是曲线和轴之间的部分,面积也是1 。
看一个人是不是受欢迎,就看他的社交网络好友数和被关注数
Facebook的平均好友数是190,标准差是36。
Twitter的平均被关注数是208,标准差是60。
比如小明的Facebook好友数是50,比Mean少了140,也就是小明低于Mean 3.9 个标准差。
比如小红的Twitter的被关注数量是10,比Mean少了198,也就是小红低于Mean 3.3 个标准差。
这里如果小明只用Facebook,小红只用Twitter,那么可以说小红比小明更受欢迎一点,即使小红的被关注数比小明的好友数要少。
有了标准差的倍数,就可以将小明和小红放在一个标准正态分布里进行比较。
任何正态分布,都能通过归一化的方法,将它变成一个标准正态分布。标准正态分布的Mean是0,标准差是1 。一个数据点,在之前的正态分布里比其他90%的数据都大,那么在标准正态分布里,它依然比90%的数据都大。
同样可以推导出来,小红比标准正态分布的Mean低了3.3个标准差,那么小红这10个Twitter被关注数量,相当于Facebook里的71.2个好友。
正态分布
分布的曲线,叫做概率密度曲线,算出这个曲线的函数,叫做PDF 概率密度函数。
抽样分布
总体中,不同样本之间比较时,可以比较样本的中值。
1,2,3,4这四个数字,是一个总体,中值是2.5,这个数字不存在于总体中,所以称为期望值。
数字两两组合,有16种组合,也就是样本总数是16 。
所有样本的平均值,是先算出每个样本的平均值,再加在一起算平均值。用 M 表示。在这里 M 也是2.5 。
样本平均值的分布,也叫做样本的分布。
总体是4个数字的情况下,样本数已经达到了16个,如果总体上亿了,就不能再计算每个样本的平均值的方法。
这里我们发现,总体的平均值与M想等。这时候,如果再知道样本的标准差,就能知道样本在总体中的分布位置。
总体的标准差,与所有样本均值的标准差,之间的关系
总体中,每个数与平均值,的距离的平均数,是1.25
总体的标准差也即使sigma,是1.19,
所有样本中,每个样本的均值与所有样本均值的均值,的距离的平均数,是0.625
所有样本均值的标准差,也就是SE,是通过每个样本的均值(1,1.5,2,2.5. …)来计算的,算出来是0.79 。
这个例子中,sigma/SE=根号2。通用的公式是,sigma/SE= 对样本中数据项的个数进行开平方。
有了这样的公式,总体上亿时,我们就愁算不出SE了。
中心极限定理
总体偏差/根号n =标准误差,它适用于任何分布。
掷1次骰子,100次的分布
这时候,样本量n=1,根据上面的公式,sigma=SE=1.708
是均匀分布,因为每一面朝上的几率一样。
掷2次骰子,100次的平均值分布
这时候,样本量n=2,根据上面的公式,sigma/根号2 =SE=1.208
是正态分布
掷3次骰子,100次的平均值分布
3次比2次的标准偏差更小,也就是数据分布得更集中,图形会更窄。
也就是样本量n增加,那么标准差SE会减小,分布也会越瘦。n增大4倍,SE减少二分之一。
对任何分布的总体进行抽样,样本平均值的分布情况,都是一个正态分布。并且这个正态分布的平均值,与总体的平均值想等。标准误差=总体偏差/根号n