Data Analysis 统计学基础

Created at 2016-09-25 Updated at 2018-05-01 Category Data Analysis Tag Data Analysis / Statistics

直方图和柱状图的区别

直方图上X轴上的变量，是数值型的，比如年龄，要么从小到大排序，要么从大到小排序，还可以设置bin的组距。
柱状图上放的是分类或定性的，比如国家，排序可以根据需要，按人口排，按字母顺序等。

正态分布

直方图的分布可以是正偏分布，负偏分布，正态分布。
中间高，两边低，左右对称的直方图，叫做正态分布。
正态分布的中间会有峰值，叫做众数，大量的数据分布在中间位置。

数据的集中趋势

如果用一个数，来描述数据的分布，可以选择 Mode 众数（出现频率最高的数），Median 中值，Mean 平均值。

众数

正态分布，会有一个众数
前倾斜分布或后倾斜分布，也有一个众数，比如人的寿命，属于后倾斜分布，集中在七八十岁
驼峰分布，会有两个众数。比如鞋码的分布，女鞋分布在38，男鞋分布在42，会有两个众数
如果是一条直线，那么就没有众数

众数可以用来描述数字，也可以是其他东西，如性别，水果
因为众数虽然很容易从图中找到，但没有什么公式可以得出，所以常用平均值或中值。

平均值

平均值是将所有数据累加，再除以数据的个数。

平均值的特点

平均值用于描述数据的分布时，主要有以下特点：

一个样本的平均值可以用来推论其所在的总体
同一个总体的多个样本会有相似的平均值
平均值可以用公式来描述
分不中的所有值都会影响平均值
如果有极值，它会导致平均值向极值倾斜，不能很好地描述数据的分布。

异常数据对平均值的影响

众数不受极值的影响，但是平均值会收到极值的影响，所以引出了中位数。

中位数

中位数需要将数据进行有序排列，然后取出位于中间的数。
如果数据的个数是偶数个，那么中间会有两个数，这两个数的平均值，就是中位数。

Facebook分析

平均每个人有229个好友
22%的好友是高中同学
12％是同事
9%是大学同学
2008年Facebook的平均用户年龄是33
2010年的平均年龄是38
52%的用户每天都会访问自己的Facebook
Zeebly.com/socialme有更多有趣的统计数据

总结

有一个简单的公式：

平均数有。中位数虽然也有公式，但是不够简单，要分奇偶书的情况。

总是会根据数据集的变化而变化：

平均数

不受bin变化的影响：

平均数
中位数

不受异常值的影响：

中位数
众数

在直方图上容易找到：

众数

数据的离散程度

有的数据集的众数、中位数、平均数都一样，但是离散程度不同。
对于离散情况较高的，我们会去掉开头的25%，和尾部的25%，留下中间的部分，进行分析。
将数据集对折，可以找到中位数，也就是Q2（第二个四分位）。再将两边的数据进行对折，就找到了Q1和Q3。
IQR 四分位距，四分位差，就是Q3-Q1，中间50%的数据的范围。

盒须图

盒须图可以看出数据的离散分布情况。盒须图可以用几个点来表示：

上边缘，计算公式是Q1-1.5*IQR
Q1
中位数
Q2
下边缘，计算公式是Q3+1.5*IQR
异常值

异常值应该<上边缘，或者>下边缘。
平均值不一定在Q1和Q3之间。

偏差

有时候同样的盒须图，对应的分布情况却不一样，比如正态分布，双峰分布等。这时候引入了离均差的概念，就是每个数据项与平均数之间的距离。
为什么是平均数，而不是两个数据项之间的距离呢？因为如果有三个数据项，两两相比较，得出的距离有六个，数据量再大点，会更多。而用平均数比较的话，三个数据项只有三个距离。
离均差=数据项-平均数，离均差有些是负数
平均偏差=sum(每一项的离均差)/count，平均偏差的问题是，因为离均差是有符号的，所以求和可能为0 。这样就无法描述数据项的分布。方案有两个，一个是忽略离均差的符号，也就是绝对偏差，另一个是方差。
VARIANCE，方差。
方差最大的问题是符号问题，比如米，平方后就是平方米。如果是人民币，平方后是什么呢？所以还要开平方。方差开完平方后，就叫SD,标准差。

标准差的应用

对于正态分布，也就是Mean=Mode=中位数，它的68%的数据项分布在离中位数一个标准差的距离之内，95%的数据项分布在离中位数两个标准差的距离内。

样本的标准差计算方法如上，但是如果要推算整体的标准差，上面除的不是count，而是count-1，也就是整体的标准差要比样本的标准差大。
样本的标准偏差和总体的标准偏差的区别 整体标准差的最佳期望，是n-1。

案例

一次考试，分数呈正态分布，平均分60，你考了65，标准差是5，那么16%的同学比你考得好。如果标准差是2.5的话，2.5%的同学都比你考得好。。。

归一化

直方图其实显示的就是百分比的一个对比。整个直方图柱子的面积加起来是1，每根柱子是百分之多少。
我们用直方图来看分布时，总是希望bin小点，这样能看到的明细更多。如果bin很小，最后有成百上千根柱子，直方图就会变形了。这时候，我们可以使用曲线图，来描述，比如正态分布图。这个曲线是可以通过函数生成的，所以任意两点之间的面积也能算出来。
同样的，正态分布图的面积也是曲线和轴之间的部分，面积也是1 。

看一个人是不是受欢迎，就看他的社交网络好友数和被关注数

Facebook的平均好友数是190，标准差是36。
Twitter的平均被关注数是208，标准差是60。
比如小明的Facebook好友数是50，比Mean少了140，也就是小明低于Mean 3.9 个标准差。
比如小红的Twitter的被关注数量是10，比Mean少了198，也就是小红低于Mean 3.3 个标准差。
这里如果小明只用Facebook，小红只用Twitter，那么可以说小红比小明更受欢迎一点，即使小红的被关注数比小明的好友数要少。
有了标准差的倍数，就可以将小明和小红放在一个标准正态分布里进行比较。

任何正态分布，都能通过归一化的方法，将它变成一个标准正态分布。标准正态分布的Mean是0，标准差是1 。一个数据点，在之前的正态分布里比其他90%的数据都大，那么在标准正态分布里，它依然比90%的数据都大。
同样可以推导出来，小红比标准正态分布的Mean低了3.3个标准差，那么小红这10个Twitter被关注数量，相当于Facebook里的71.2个好友。

正态分布

分布的曲线，叫做概率密度曲线，算出这个曲线的函数，叫做PDF 概率密度函数。

抽样分布

总体中，不同样本之间比较时，可以比较样本的中值。
1，2，3，4这四个数字，是一个总体，中值是2.5，这个数字不存在于总体中，所以称为期望值。
数字两两组合，有16种组合，也就是样本总数是16 。
所有样本的平均值，是先算出每个样本的平均值，再加在一起算平均值。用 M 表示。在这里 M 也是2.5 。
样本平均值的分布，也叫做样本的分布。
总体是4个数字的情况下，样本数已经达到了16个，如果总体上亿了，就不能再计算每个样本的平均值的方法。
这里我们发现，总体的平均值与M想等。这时候，如果再知道样本的标准差，就能知道样本在总体中的分布位置。

总体的标准差，与所有样本均值的标准差，之间的关系

总体中，每个数与平均值，的距离的平均数，是1.25
总体的标准差也即使sigma，是1.19，

所有样本中，每个样本的均值与所有样本均值的均值，的距离的平均数，是0.625
所有样本均值的标准差，也就是SE，是通过每个样本的均值（1，1.5，2，2.5. …）来计算的，算出来是0.79 。

这个例子中，sigma/SE=根号2。通用的公式是，sigma/SE= 对样本中数据项的个数进行开平方。

有了这样的公式，总体上亿时，我们就愁算不出SE了。

中心极限定理

总体偏差/根号n =标准误差，它适用于任何分布。

掷1次骰子，100次的分布

这时候，样本量n=1，根据上面的公式，sigma=SE=1.708
是均匀分布，因为每一面朝上的几率一样。

掷2次骰子，100次的平均值分布

这时候，样本量n=2，根据上面的公式，sigma/根号2 =SE=1.208
是正态分布

掷3次骰子，100次的平均值分布

3次比2次的标准偏差更小，也就是数据分布得更集中，图形会更窄。

也就是样本量n增加，那么标准差SE会减小，分布也会越瘦。n增大4倍，SE减少二分之一。

对任何分布的总体进行抽样，样本平均值的分布情况，都是一个正态分布。并且这个正态分布的平均值，与总体的平均值想等。标准误差＝总体偏差/根号n

Data Analysis 统计学基础

直方图和柱状图的区别

正态分布

数据的集中趋势

众数

平均值

平均值的特点

异常数据对平均值的影响

中位数

Facebook分析

总结

数据的离散程度

盒须图

偏差

标准差的应用

案例

归一化

看一个人是不是受欢迎，就看他的社交网络好友数和被关注数

正态分布

抽样分布

总体的标准差，与所有样本均值的标准差，之间的关系

中心极限定理

掷1次骰子，100次的分布

掷2次骰子，100次的平均值分布

掷3次骰子，100次的平均值分布

推荐文章（由hexo文章推荐插件驱动）

Table of Content