中央极限定理

中心、分散度、形状

它的中心思想是：无论你的样本总体有多抽象（就算不服从正态分布），但是只要样本数量足够大（n>=30）那么他们的样本均值一定服从正态分布

x^-服从正态分布N（u，…) 其中u为全部样本均值，…为方差，σ为总体标准差（SD也是Standard deviation），n为x ^-的个数

Z的公式为标准正态分布公式（归一化到0~1之间）

x^-为采样部分样本的均值。

关于lim，就是说，如果n>30,那么我们可以说该式子约等于φ(x)，但，如果n足够大，趋近于极限，那肯定就直接等于了呗

正太分布

SAT与ACT同为美国高考，是两种形式，现在两位同学想要申请同一所学校，比较谁更优秀

我们用标准差来计算，σ离中心越远，在同样大于平均值的情况，就说明谁更出众。

Z-score，含义就是数据距离均值的距离有几个标准差！！！！

因为x服从正态分布，所以z服从正态分布，并且z的公式就是标准正态分布的公式，即z的均值为0，z的标准差为1

一般的正态分布X N(μ,σ^2)
其概率密度函数为：f(x) = e^[-(x - μ)^2/(2σ^2)] / [√(2π)σ]
引入标准正态变量Z：z = (x - μ) / σ
可以算出 z的平均值为0、标准差为1：
z的平均值＝ E(Z) = E(X- μ)/σ = (E(X)-μ)/σ = (μ-μ)/σ = 0
z的标准差＝ E[(Z-E(Z))^2] = E[(X-μ)^2/σ^2]=σ^2/σ^2 = 1
因此标准正态变量的平均值是为0、标准差为1,记作：Z N(0,1)

二项分布

二项分布：二项概率的集合

伯努利事件：独立的，可重复的，而且只有两个结果的事件

E（x）=np D（x)=np(1-p) 均值和方差

投十次，期望进五次

E(x)和D(x)证明：

证明：X可以分解成n个相互独立的，都服从以p为参数的(0-1)分布的随机变量之和：
X=X1+X2+…+Xn,Xi～b(1,p)，i=1,2,…,n.
P{Xi=0}= 1 - p,P(Xi=1)=p.
EXi=0 * (1-p)+1 * p=p,
E(Xi^2^)=0^2^* (1-p)+1^2^ * p=p,
DXi=E(Xi^2^)-(EXi)^2^=p-p^2^=p(1-p).
EX=EX1+EX2+…+EXn=np,
DX=DX1+DX2+…+DXn=np(1-p).

D（X）=E{[X-E（X）]²}
=E{X² - 2XE（X）+[E（X）]²}
=E（X²）- 2E（X）E（X）+[E（X）]²
=E（X²）- [E（X）]²

因为我们是把这几个s看成不同的字母（s1，s2……）但是实际上在同一个位子上s1=s2=……是一样的，所以要除去重复的字母

二项分布从下图可以看出有一点点像正态分布，并且实际上，也确实可以做到近似

二项分布近似正态分布

为何有这样关系的原因是因为他们都服从0-1分布或者说是正态分布。

正态分布近似二项分布

n比较大时

那么n需要多大呢？保守起见np>10并且n(1-p)>10，若不满足，且n很大，p很小，用泊松分布来近似二项分布

多少个标准差，如果我们用的是一个值，就比如说解出来的130.5，那么可能就会产生相当大的误差，通常是用一段范围来进行修正，这个就采用的取前后1.5的来求得一片区间替代单点。

泊松分布和指数分布

我们可以看到他们的数学期望是呈倒数关系，那么他们两种分布是否有某种关系呢？

看到这里可能还以为两种分布的期望和概率是一样的，其实不是这样的，这种情况只是巧合

因此可以得到结论，在单位时间里，λ的取值才有可能相同，但是呢，概率通常都是一样的~

泊松分布近似二项分布

n很大，p很小的情况，用泊松分布代替二项分布的计算

t分布和t检验

t分布是对z分布（标准正态分布）的一个修正

换句话说，也是基于中央极限定理的

df是自由度的意思，如下例，也就是我们都锁定了x1，x2，和x^-，那么x3就没有自由了，他的值就确定了，所以df等于n-1

注意：σ是总体标准差，s是样本标准差，如是总体,标准差公式根号内除以n,如是样本,标准差公式根号内除以（n-1)

因为我们大部分时候找到我们假设中的全部总体是不现实的，比如调查全体中国男性，因此通常都只能采取抽样的方式，也就是用样本标准差进行计算。普遍发现，除以n-1会使得效果更加接近于真实标准差。

t分布主要适合于两个不同种类的比较，超过两个就不用这个，用F分布

问题，女性吸烟对婴儿体重是否产生影响

自由度取保守一点，为49（n-1），通过下面的正态分布图，找到1.54那个t检验的点，因为判断条件为=和≠，所以为双侧检验，最终得到的概率是0.13>0.05（设置的显著水平）,所以拒绝原假设，不能得到是否吸烟和孩子体重的关系

卡方分布

用于定类问题，使用观察数据和期望数据的差异，差异越大，模型越不合适（变量越独立）,这个用于类别型变量（有无新搜索），之前的T检验用于数值型变量（婴儿的体重）

用人数总数比例，再乘每个算法的测试人数，得到no new search的期望应该是3539

在这个情况下得到的x²的值太小了，也就是说并不能观测到是否他们一不一样好，拒绝原假设。说明他们并不一样好，不是成比例分布的。并且卡方检验也不能告诉我们那个算法好

卡方分布证明

F分布和方差分析

方差分析（Anova：analysis of variance）并不是对方差进行分析，而是用方差的思想去分析多总体均值的比较

这里的重点是多，，如果是两个总体，就用t检验和t分布

快速回顾T检验

组间平均差异：同样要除以自由度利用样本方差的思想

组间平均差异：对组内平均差异的标准化。

m - n是ssw的自由度，n就是选了多少个组计算组内分布，m就是这些组一共的数据，反正最多每个组有一个是不自由的，加起来也就是m-n的自由度

例题

样本比率服从正态分布

其实我们观察$\bar{x}$和$\hat{p}$的值，其实他们是相等的。也就是说，样本比率其实就可以看做是样本均值，只不过是伯努利分布下的样本均值，他是置信区间和假设检验的基础

置信区间

已知样本个数和样本均值，求总体均值。听上去很让人一头雾水，但我们得试着分析他

背后的理论是正态分布和中心极限定理

这里是用正态分布来举例的，也就是我们如果有了一个样本均值x^-（n> 30)，那么我们有95%的信心，这个总体均值的位置就在样本均值正负两个标准差之间。

假设检验

假设检验专治各种夸大其词，用科学的手段合理怀疑原假设，证明它是错的

因为待机时间为36小时，所以小于36小时的数据都可以当做证明物，那么我们求出来（这里σ没给你，就随便大概取了一个）算出来的值远远小于显著水平，我们来想一下我们现在做的事，我们要证明待机时间为48小时（46作为正太分布的均值）声明下面，我们观察到的平均时间36小时发生的概率太小了，此时48是理想情况，36是真实情况，但是最终得到的概率是p-value为0.0062<<0.05的显著水平，说明实际观测与理想不符，拒绝原假设，选择另外一个区间

α可以理解为事件发生的概率有多小算反常的一个值：通常叫做显著性水平或者第一类错误概率

协方差和相关系数

有的时候从生活出发，理解往往更佳简单，统计学是源于生活的规律

协方差是衡量两个因素之间关系的工具，相关系数是协方差的归一化

协方差除以标准差，也就是把协方差中变量变化幅度对协方差的影响剔除掉，这样协方差也就标准化了，它反应的就是两个变量每单位变化时的情况。

如果光看答案才头疼

均匀分布

原点矩：将x^k^看作是一个整体，则极限a到bx^k^f（x）dx为x^k^的原点矩，显然，一阶原点矩矩即为期望

负二项分布

负二项分布是几何分布和二项分布的集合

几何分布

几何分布，可以理解为等比分布，几何级数，也可以理解为等比数列的前n项和。

他的期望是1/p，我们观察，其实这个是符合我们的直觉的，通过率为30%，说明可能考试比较难，就大约3次才能通过，这也是我们为什么把E（x）翻译成期望，而不是平均值的原因。

为何我们将其称之为几何分布？我们从图像已经感觉到是指数级别的递减，指数级在数学上又称为几何级，从代数上看呢，有跟几何级数有关。以下是证明几何分布的期望是1/p.用了错位相减法。

超几何分布

他和二项分布的关系相当紧密，我们先来看一个二项分布的例子

将其改为不放回，则为超几何分布。

以下为用定义的思想。

还可以使用乘法法则。（二项分布的思想）

当样本基数远远大于抽取数量，可以使得超几何分布近似为二项分布（放不放回都一样）

伯努利分布（0-1分布）

其实这个是二项分布的前置，是最基础的分布。

切比雪夫不等式

最大似然估计

未知参数取何值时，样本的观测值出现的概率最大

现在我们的任务是：公务员考试的考试次数与通过人数之间的关系（共100人），这里举个例子，考了三次通过的人数是多少？是不是p（x=3）= （1-p)² * p ，假设p等于0.3（代表考试难，也就是说，E（x）= 3，大概三次可以通过，p = 0.8代表考试比较容易，大概就是一次也能通过

离散性中，似然函数和概率等价，连续性问题则不与概率等价了

数学的魅力，crazy，为何可以ln？取到的最大值其实是不变的。也就是求导之后的鞍点。我们可以观察，这种估计在大数定律和公式法估计之间，我们认为最大似然估计是一个合理估计，因为他用到了能用到的所有信息。

这里运算的是有100个独立事件同时发生时的最大概率。因为最大似然估计要做的是让概率最大化，因为存在即合理，并且存在一定合理，那我们要取最大的可能性。既然已经发生了这样的情况，并且已经有100个真实的数据，那么只需要得出最大可能的P，那就是真实的P