概率统计基础：从贝叶斯定理到AI不确定性量化

贝叶斯定理

Bayes' Theorem

P(A|B) = P(B|A) × P(A) / P(B)

医学诊断案例

• 疾病发病率: 0.1%

• 测试准确率: 99%

• 阳性预测值: 9.01%

即使测试99%准确，阳性结果真正患病的概率仅为9%！

垃圾邮件分类器
Naive Bayes Classifier
87.5%
分类准确率

# Python实现贝叶斯垃圾邮件过滤器
def calculate_spam_probability(email_words):
    spam_prob = 1.0
    for word in email_words:
        word_spam_prob = get_word_spamicity(word)
        spam_prob *= word_spam_prob
    return spam_prob > 0.5
            
关键词权重分布
"免费"
85%
"紧急"
78%

概率分布

Probability Distributions

高斯分布

Normal Distribution

σ = 1, μ = 0
68-95-99.7规则

伯努利分布

Bernoulli Distribution

p = 0.3
二项式试验基础

泊松分布

Poisson Distribution

λ = 3
稀有事件建模

假设检验
Hypothesis Testing
α = 0.05
显著性水平

                    第一类错误
                    5%
                
                    第二类错误
                    β
                
                    统计功效
                    1-β
                
天气预报准确性

置信区间

Confidence Intervals

95%

置信水平

CI = x̄ ± t_α/2 × s/√n

Python实现: scipy.stats.t.interval()

最大似然估计

Maximum Likelihood Estimation

L(θ) = ∏_i=1ⁿ f(x_i|θ)

似然函数

步骤

构建似然函数
取对数简化计算
求导并令其为零
解方程得到估计值

# Python MLE实现示例
import numpy as np
from scipy.optimize import minimize_scalar

def neg_log_likelihood(mu, data):
    return -np.sum(np.log(norm.pdf(data, mu, 1)))

result = minimize_scalar(
    neg_log_likelihood, 
    args=(data,)
)
mle_estimate = result.x

θ̂

最优估计值

因果推理
Causal Inference
相关性 ≠ 因果性
混淆变量控制

                        通过随机对照试验、工具变量法等方法识别真正的因果关系
                    
应用场景
• 药物疗效评估
• 营销策略影响
• 政策效果分析

不确定性量化
Uncertainty Quantification
认知不确定性
Epistemic
随机不确定性
Aleatoric

                
            

                    AI模型中的应用: 
                    贝叶斯神经网络、Monte Carlo Dropout、集成方法
                

Python实战案例

Hands-on Python Examples

数据集描述性统计

import pandas as pd
import numpy as np
from scipy import stats

# 加载数据
data = pd.read_csv('dataset.csv')

# 描述性统计
print(data.describe())

# 正态性检验
statistic, p_value = stats.shapiro(data['values'])
print(f'Shapiro-Wilk test: p={p_value:.4f}')

假设检验实现

# t检验
from scipy.stats import ttest_1samp

# 单样本t检验
t_stat, p_val = ttest_1samp(sample, pop_mean)

# 置信区间计算
confidence_interval = stats.t.interval(
    0.95, len(sample)-1,
    loc=np.mean(sample),
    scale=stats.sem(sample)
)

学习路径推荐

理论基础

概率论、数理统计、贝叶斯推理

编程实践

Python、R、统计软件包

项目应用

实际案例、数据分析项目

视频资源

Video Learning

3Blue1Brown

贝叶斯定理几何直觉

504万观看

PyData

贝叶斯建模与PyMC

专业教程

StataCorp

贝叶斯统计基础概念

53万观看

学习建议: 结合理论视频和代码实践，通过动画理解抽象概念

核心要点总结
理论掌握1
贝叶斯定理本质
理解先验、似然、后验的关系
2
概率分布特性
高斯、伯努利等分布的应用场景
3
统计推断方法
假设检验、置信区间、MLE
实践应用1
贝叶斯分类器
垃圾邮件过滤、文本分类
2
统计分析报告
描述性统计、假设检验实施
3
AI模型不确定性
因果推理、不确定性量化

                        从概率直觉到AI应用的完整链条
                    

                        掌握概率统计不仅是数学工具，更是现代AI和数据科学的思维基础