中央极限定理

中心、分散度、形状

它的中心思想是:无论你的样本总体有多抽象(就算不服从正态分布),但是只要样本数量足够大(n>=30)那么他们的样本均值一定服从正态分布

image-20221007211509828

image-20221007211523191

image-20221007211723437

x^-服从正态分布N(u,…) 其中u为全部样本均值,…为方差,σ为总体标准差(SD也是Standard deviation),n为x ^-的个数

Z的公式为标准正态分布公式(归一化到0~1之间)

x^-为采样部分样本的均值。

关于lim,就是说,如果n>30,那么我们可以说该式子约等于φ(x),但,如果n足够大,趋近于极限,那肯定就直接等于了呗

image-20221008121841746

image-20221007212231957

正太分布

image-20221007214105484

SAT与ACT同为美国高考,是两种形式,现在两位同学想要申请同一所学校,比较谁更优秀

image-20221007214409153

我们用标准差来计算,σ离中心越远,在同样大于平均值的情况,就说明谁更出众。

Z-score,含义就是数据距离均值的距离有几个标准差!!!!

因为x服从正态分布,所以z服从正态分布,并且z的公式就是标准正态分布的公式,即z的均值为0,z的标准差为1

一般的正态分布X N(μ,σ^2)
其概率密度函数为:f(x) = e^[-(x - μ)^2/(2σ^2)] / [√(2π)σ]
引入标准正态变量Z:z = (x - μ) / σ
可以算出 z的平均值为0、标准差为1:
z的平均值 = E(Z) = E(X- μ)/σ = (E(X)-μ)/σ = (μ-μ)/σ = 0
z的标准差 = E[(Z-E(Z))^2] = E[(X-μ)^2/σ^2]=σ^2/σ^2 = 1
因此标准正态变量的平均值是为0、标准差为1,记作:Z N(0,1)

image-20221007220240185

二项分布

二项分布:二项概率的集合

伯努利事件:独立的,可重复的,而且只有两个结果的事件

image-20221007111252299

E(x)=np D(x)=np(1-p) 均值和方差

投十次,期望进五次

E(x)和D(x)证明:

证明:X可以分解成n个相互独立的,都服从以p为参数的(0-1)分布的随机变量之和:
X=X1+X2+…+Xn,Xi~b(1,p),i=1,2,…,n.
P{Xi=0}= 1 - p,P(Xi=1)=p.
EXi=0 * (1-p)+1 * p=p,
E(Xi^2^)=0^2^* (1-p)+1^2^ * p=p,
DXi=E(Xi^2^)-(EXi)^2^=p-p^2^=p(1-p).
EX=EX1+EX2+…+EXn=np,
DX=DX1+DX2+…+DXn=np(1-p).

D(X)=E{[X-E(X)]²}
=E{X² - 2XE(X)+[E(X)]²}
=E(X²)- 2E(X)E(X)+[E(X)]²
=E(X²)- [E(X)]²

image-20221007111656123

因为我们是把这几个s看成不同的字母(s1,s2……)但是实际上在同一个位子上s1=s2=……是一样的,所以要除去重复的字母

image-20221007111941497

二项分布从下图可以看出有一点点像正态分布,并且实际上,也确实可以做到近似

image-20221007112144848

二项分布近似正态分布

为何有这样关系的原因是因为他们都服从0-1分布或者说是正态分布。

image-20221011221842152

正态分布近似二项分布

n比较大时

image-20221011222547172

image-20221011222637213

那么n需要多大呢?保守起见np>10并且n(1-p)>10,若不满足,且n很大,p很小,用泊松分布来近似二项分布

image-20221011222758986

image-20221011222933628

多少个标准差,如果我们用的是一个值,就比如说解出来的130.5,那么可能就会产生相当大的误差,通常是用一段范围来进行修正,这个就采用的取前后1.5的来求得一片区间替代单点。

image-20221011223149008

泊松分布和指数分布

我们可以看到他们的数学期望是呈倒数关系,那么他们两种分布是否有某种关系呢?

image-20221008115211515

image-20221008115754907

看到这里可能还以为两种分布的期望和概率是一样的,其实不是这样的,这种情况只是巧合

image-20221008120120693

因此可以得到结论,在单位时间里,λ的取值才有可能相同, 但是呢,概率通常都是一样的~

泊松分布近似二项分布

n很大,p很小的情况,用泊松分布代替二项分布的计算

image-20221011223848550

t分布和t检验

t分布是对z分布(标准正态分布)的一个修正

换句话说,也是基于中央极限定理

df是自由度的意思,如下例,也就是我们都锁定了x1,x2,和x^-,那么x3就没有自由了,他的值就确定了,所以df等于n-1

注意:σ是总体标准差,s是样本标准差,如是总体,标准差公式根号内除以n,如是样本,标准差公式根号内除以(n-1)

因为我们大部分时候找到我们假设中的全部总体是不现实的,比如调查全体中国男性,因此通常都只能采取抽样的方式,也就是用样本标准差进行计算。普遍发现,除以n-1会使得效果更加接近于真实标准差。

image-20221008120938814

image-20221008122018444

t分布主要适合于两个不同种类的比较,超过两个就不用这个,用F分布

问题,女性吸烟对婴儿体重是否产生影响

image-20221008122624419

自由度取保守一点,为49(n-1),通过下面的正态分布图,找到1.54那个t检验的点,因为判断条件为=和≠,所以为双侧检验,最终得到的概率是0.13>0.05(设置的显著水平),所以拒绝原假设,不能得到是否吸烟和孩子体重的关系

image-20221008122826640

卡方分布

用于定类问题,使用观察数据和期望数据的差异,差异越大,模型越不合适(变量越独立),这个用于类别型变量(有无新搜索),之前的T检验用于数值型变量(婴儿的体重)

image-20221008165304907

用人数总数比例,再乘每个算法的测试人数,得到no new search的期望应该是3539

image-20221008165932993

在这个情况下得到的x²的值太小了,也就是说并不能观测到是否他们一不一样好,拒绝原假设。说明他们并不一样好,不是成比例分布的。并且卡方检验也不能告诉我们那个算法好

image-20221008170434636

卡方分布证明

image-20221008171703734

image-20221008171837864

F分布和方差分析

方差分析(Anova:analysis of variance)并不是对方差进行分析,而是用方差的思想去分析多总体均值的比较

这里的重点是,,如果是两个总体,就用t检验和t分布

image-20221009170619068

快速回顾T检验

image-20221009170629287

组间平均差异:同样要除以自由度利用样本方差的思想

组间平均差异:对组内平均差异的标准化。

image-20221009171935630

m - n是ssw的自由度,n就是选了多少个组计算组内分布,m就是这些组一共的数据,反正最多每个组有一个是不自由的,加起来也就是m-n的自由度

image-20221009172504779

例题

image-20221009173613222

image-20221009173643838

样本比率服从正态分布

其实我们观察$\bar{x}$和$\hat{p}$的值,其实他们是相等的。也就是说,样本比率其实就可以看做是样本均值,只不过是伯努利分布下的样本均值,他是置信区间和假设检验的基础

image-20221012105043049

置信区间

已知样本个数和样本均值,求总体均值。听上去很让人一头雾水,但我们得试着分析他

背后的理论是正态分布和中心极限定理

image-20221009174321894

image-20221009175354046

image-20221009175253944

这里是用正态分布来举例的,也就是我们如果有了一个样本均值x^-(n> 30),那么我们有95%的信心,这个总体均值的位置就在样本均值正负两个标准差之间。

假设检验

假设检验专治各种夸大其词,用科学的手段合理怀疑原假设,证明它是错的

image-20221009182106732

因为待机时间为36小时,所以小于36小时的数据都可以当做证明物,那么我们求出来(这里σ没给你,就随便大概取了一个)算出来的值远远小于显著水平,我们来想一下我们现在做的事,我们要证明待机时间为48小时(46作为正太分布的均值)声明下面,我们观察到的平均时间36小时发生的概率太小了,此时48是理想情况,36是真实情况,但是最终得到的概率是p-value为0.0062<<0.05的显著水平,说明实际观测与理想不符,拒绝原假设,选择另外一个区间

​ α可以理解为事件发生的概率有多小算反常的一个值:通常叫做显著性水平或者第一类错误概率

image-20221010165013322

image-20221010165252645

协方差和相关系数

有的时候从生活出发,理解往往更佳简单,统计学是源于生活的规律

协方差是衡量两个因素之间关系的工具,相关系数是协方差的归一化

协方差除以标准差,也就是把协方差中变量变化幅度对协方差的影响剔除掉,这样协方差也就标准化了,它反应的就是两个变量每单位变化时的情况。

image-20221010170051969

如果光看答案才头疼

image-20221010170229362

均匀分布

原点矩:将x^k^看作是一个整体,则极限a到bx^k^f(x)dx为x^k^的原点矩,显然,一阶原点矩矩即为期望

image-20221010224244934

image-20221010224822572

负二项分布

负二项分布是几何分布和二项分布的集合

image-20221010225119829

image-20221010225257591

几何分布

几何分布,可以理解为等比分布,几何级数,也可以理解为等比数列的前n项和

image-20221010230110395

他的期望是1/p,我们观察,其实这个是符合我们的直觉的,通过率为30%,说明可能考试比较难,就大约3次才能通过,这也是我们为什么把E(x)翻译成期望,而不是平均值的原因。

image-20221010225548956

为何我们将其称之为几何分布?我们从图像已经感觉到是指数级别的递减,指数级在数学上又称为几何级,从代数上看呢,有跟几何级数有关。以下是证明几何分布的期望是1/p.用了错位相减法。

image-20221010230026102

超几何分布

他和二项分布的关系相当紧密,我们先来看一个二项分布的例子

image-20221011210343497

将其改为不放回,则为超几何分布。

以下为用定义的思想。

image-20221011210650499

还可以使用乘法法则。(二项分布的思想)

image-20221011211118548

当样本基数远远大于抽取数量,可以使得超几何分布近似为二项分布(放不放回都一样)

image-20221011211247189

伯努利分布(0-1分布)

其实这个是二项分布的前置,是最基础的分布。

image-20221011213227113

切比雪夫不等式

image-20221011213737826

image-20221011214041323

最大似然估计

未知参数取何值时,样本的观测值出现的概率最大

现在我们的任务是:公务员考试的考试次数与通过人数之间的关系(共100人),这里举个例子,考了三次通过的人数是多少?是不是p(x=3)= (1-p)² * p ,假设p等于0.3(代表考试难,也就是说,E(x)= 3,大概三次可以通过,p = 0.8代表考试比较容易,大概就是一次也能通过

image-20221011214651004

离散性中,似然函数和概率等价,连续性问题则不与概率等价了

image-20221011215315319

数学的魅力,crazy,为何可以ln?取到的最大值其实是不变的。也就是求导之后的鞍点。我们可以观察,这种估计在大数定律和公式法估计之间,我们认为最大似然估计是一个合理估计,因为他用到了能用到的所有信息。

这里运算的是有100个独立事件同时发生时的最大概率。因为最大似然估计要做的是让概率最大化,因为存在即合理,并且存在一定合理,那我们要取最大的可能性。既然已经发生了这样的情况,并且已经有100个真实的数据,那么只需要得出最大可能的P,那就是真实的P

image-20221011215802525

似然和概率的区别

对于离散型随机变量而言呢,似然函数就是n个样本观测值同时发生的概率

对于连续性变量,似然函数则是概率密度的乘积,而不是概率的乘积。

  • 进一步说,似然函数是模型的度量值的乘积,似然函数的值大呢,说明样本数据支持假设的模型以及参数

image-20221012104115789

我们观察其实可以发现,似然函数大,黄色的分布时,似然函数一定是最大的,所以说这个其实不是指样本发生的概率大,而是样本的数据支持我们给定的一个假设模型以及它的参数,也就是说,我们黄色的模型得到了样本数据的最大支持

image-20221012104351136