<style>
.reveal {
font-size: 24px;
}
</style>
###### tags: `statistics` `stat` `timeseries`
# 统计学分享
---
## 乳腺癌切除手术
- 乳腺癌切除之后需要吃药,为了验证药效,分了实验组和对照组,5年后吃了安慰剂的对照组50%的概率复发,实验组没有,我们能说这个药有效吗?
- 显然需要看病人的数量
- 那么问题来了,多少病人可以证明药效
- 假设我们比较穷,只找了8个人,对半分,其中任取两人在同一组的概率为$P=\frac{\tbinom{2}{6}}{\tbinom{4}{8}} = \frac{3}{7}$
- 出现这种结果的可能性是非常大的
- 我们提高参数8到1000后$P=2.42*10^{-94}$, 如果药效有效的结论是错误的话,发生的概率是非常低的,因此利用这个指标可以帮助我们更好的设计实验降低成本
---
## 定义与应用之争
- 在P值的概念被创立之后,工业界由此掌握了一套学习成本很低的应用模式,即通过P值来判断生产的产品是否符合出厂标准,随着应用领域的扩大,P值开始出现了奇怪的用法
- 心理学的研究人员开始尝试利用P值调查`千里眼`存在的可能性,做法只是让受试者蒙住眼睛,通过受试者的随意猜测得到一个显著的P值,以此说明`千里眼`不存在,并且是显著不存在。这时P值的创建者开始批评这种瞎猜的实验设计
> 显著性检验只是告诉他什么是应该忽略掉的,也就是说应该把所有那些无法得到显著性结果的实验忽略掉。当他知道如何设计一个实验,而这个实验几乎一定能给出一个显著性的结果时,他也只能说明,这仅是一种实验上可以验证的现象.
---
## P值的改造
- 在P值出现之后,人们迫切想要找到一个定义来帮助大家计算这个P值,而不像之前提到的乳腺癌的例子,某些实验的结果并没有一个明显的公式帮助人们去计算P值
- 因为`中心极限定理`和`大数定理的出现`, 在假定误差只来自于噪音时,我们能方便的假设预期值和实际值的差在大量统计的基础上是正太分布,这也是为什么我们可以试用$3\sigma$算法的原因
- 然而对于某些不是正太分布的奇怪数据我们就得选择其他办法了
1. 把数据改造成常见部分,比如加个对数
2. 找到其他分布并研究规律
---
## 常用分布
- 正态分布
- z分布 标准正态
- t分布
- $\chi^2$分布(chi-squared) 1900
- F分布
---
## 检验效力 Power
- 有这么多选择我们用哪一种方式呢
- power的两种概念
---
## 皮尔森相关系数的流式算法
[实时多项式拟合](https://developer.aliyun.com/article/61971)
---
## 离群值检验
- 时序预测
- 深度学习
- CNN
- RNN
- LSTM
- VAE
- Auto Encoder
- 统计模型
- ARIMA
- Holt winters
- STL
- Kalman Filter
- 代数模型
- Regression
---
## 同质性(homogeneity)/方差齐性(homoscedasticity)
同质方差  异质方差 
---
## A table all test

{"metaMigratedAt":"2023-06-15T14:59:44.754Z","metaMigratedFrom":"Content","title":"统计学分享","breaks":true,"contributors":"[{\"id\":\"84e12f3e-7eb4-4eb1-a466-12136154a6cc\",\"add\":2293,\"del\":493}]"}