本书系统地探讨了概率与统计在人工智能领域中的广泛应用,从理论基础到实战技术,内容全面且深入。全书共 13 章,涵盖概率论、统计学、回归分析、时间序列、特征工程与选择、网络模型构建与优化等基础知识,延伸至自然语言处理、计算机视觉、推荐系统和强化学习等前沿应用场景。
通过理论讲解、模型分析和代码实践,深入剖析概率和统计在算法建模、性能优化和结果解释中的关键作用。
本书配有丰富的案例分析、课后练习及可视化示例,适合人工智能从业者、研究人员及相关专业学生学习和参考。
王卓,前阿里达摩院创新业务中心资深算法工程师,参与了通义千大模型系列Qwen1、Qwen1.5的落地工作。精通大模型开发、计算机视觉、自然语言处理等方向的技术,负责多个深度学习算法在各种大模型和不同场景的业务落地。
薛栋,华东理工大学信息科学与技术学院副教授/硕士生导师,德国慕尼黑工业大学工学博士,“上海市高层次青年人才计划”“浦江人才计划”获得者。长期从事基于人工智能与大数据相关研究。
王圣强,华东理工大学数学学院副教授、数学与应用数学系副主任,复旦大学数学科学学院理学博士,先后荣获第五届上海高校青年教师教学竞赛一等奖,上海市教学能手,校优秀共产党员,校青年五四奖章,校教学新星、校研究生课程优秀任课教师等荣誉。
第1章 概率论基础 001
1.1 概率的基本概念 002
1.1.1 概率的定义 002
1.1.2 概率的公理 002
1.1.3 概率的衍生 003
1.1.4 事件的运算:并、交、补 004
1.2 样本空间与事件 007
1.2.1 样本空间的定义 007
1.2.2 事件的分类:简单事件与复合事件 010
1.2.3 事件概率的运算:加法与乘法规则 012
1.3 条件概率与独立性 016
1.3.1 条件概率的定义与计算 016
1.3.2 事件的独立性 019
1.3.3 全概率公式与贝叶斯定理 021
1.4 随机变量与其分布 024
1.4.1 随机变量的定义与类型 024
1.4.2 概率密度函数与概率质量函数 026
1.4.3 随机变量的分布 029
1.5 期望值、方差与协方差 031
1.5.1 期望值的定义与计算 032
1.5.2 方差与标准差 035
1.5.3 协方差与相关系数 037
1.6 大数定律与中心极限定理 039
1.6.1 大数定律的概念与证明 039
1.6.2 弱大数定律与强大数定律 042
1.6.3 中心极限定理的概念与证明 043
1.7 随机过程 045
1.8 课后练习 048
第2章 描述统计与推断统计 049
2.1 描述统计的基本概念 050
2.2 点估计与区间估计 055
2.3 假设检验 061
2.3.1 t 检验 061
2.3.2 z 检验 064
2.3.3 卡方检验 067
2.4 课后练习 070
第3章 回归分析与方差分析 071
3.1 线性回归介绍 072
3.1.1 线性回归的背景 072
3.1.2 线性回归的基本概念 072
3.1.3 线性回归的分类 072
3.2 简单线性回归 073
3.3 多元线性回归与相关性分析 076
3.3.1 多元线性回归模型 076
3.3.2 相关性分析 079
3.3.3 多重共线性问题 081
3.4 逻辑回归 083
3.4.1 逻辑回归模型的基本概念 083
3.4.2 最大似然估计 086
3.4.3 逻辑回归模型的评估 088
3.5 正则化技术 091
3.5.1 正则化的基本概念 092
3.5.2 L1 正则化(Lasso 回归) 092
3.5.3 L2 正则化(Ridge 回归) 094
3.5.4 Elastic Net 正则化(Elastic Net 回归) 096
3.6 方差分析(ANOVA) 098
3.7 课后练习 101
第4章 时间序列分析与蒙特卡洛模拟 103
4.1 时间序列分析 104
4.1.1 时间序列的定义与分类 104
4.1.2 时间序列的组成 104
4.1.3 时间序列的平稳性与非平稳性 105
4.2 自回归模型(AR)与移动平均模型(MA)105
4.2.1 自回归模型(AR) 105
4.2.2 移动平均模型(MA) 108
4.2.3 自回归模型和移动平均模型的比较与选择 111
4.3 ARIMA 模型 112
4.3.1 ARIMA 模型的基本概念 112
4.3.2 模型识别与参数估计 114
4.4 时间序列的季节性与趋势分析 119
4.4.1 季节性分析 119
4.4.2 趋势分析 123
4.5 随机抽样与蒙特卡洛方法 125
4.5.1 随机抽样 125
4.5.2 蒙特卡洛方法 126
4.5.3 蒙特卡洛方法的优化 128
4.5.4 时间序列建模与蒙特卡洛模拟 130
4.6 课后练习 132
第5章 数据表示与预处理 134
5.1 数据统计描述与可视化 135
5.2 数据归一化与标准化 136
5.2.1 数据归一化 136
5.2.2 数据标准化 138
5.3 数据清洗与处理 141
5.3.1 异常值检测与处理 141
5.3.2 缺失值处理 144
5.3.3 数据变换与缩放 147
5.4 特征工程 150
5.4.1 特征构造与转换 150
5.4.2 特征选择的统计方法 152
5.5 课后练习 156
第6章 特征提取与选择 157
6.1 特征提取基础 158
6.1.1 特征提取的定义与目的 158
6.1.2 特征提取的方法 158
6.2 统计方法在特征提取中的应用 159
6.2.1 主成分分析(PCA) 159
6.2.2 独立成分分析 163
6.2.3 线性判别分析 166
6.3 特征选择 168
6.3.1 基于统计的特征选择方法 169
6.3.2 基于模型的特征选择方法 171
6.3.3 嵌入式特征选择方法 173
6.4 课后练习 176
第7章 网络模型架构:从理论到实践 177
7.1 网络模型解析 178
7.1.1 模型演进之路:从传统机器学习到深度学习 178
7.1.2 模型架构基础:定义标准与分类图谱 179
7.2 机器学习模型的构建与应用 182
7.2.1 线性回归模型:数据预测的基石 182
7.2.2 逻辑回归模型:二分类问题的解决之道 186
7.2.3 支持向量机(SVM):寻找最优分类超平面 190
7.2.4 决策树:基于特征分裂的决策模型 193
7.2.5 随机森林:集成学习方法提升模型泛化能力 195
7.2.6 K- 最近邻算法模型:基于实例的学习方法 198
7.3 深度学习模型的构建与创新 202
7.3.1 前馈神经网络(FNN):神经网络的基本形态 202
7.3.2 卷积神经网络:图像识别的强大工具 205
7.3.3 循环神经网络:处理序列数据 210
7.3.4 长短期记忆人工神经网络:解决梯度
消失与爆炸问题 213
7.3.5 生成对抗网络:生成模型的创新突破 217
7.4 课后练习 220
第8章 模型优化:从理论到实践 221
8.1 模型优化技术解析 222
8.2 基础优化算法:梯度下降与自适应学习率 222
8.2.1 梯度下降的原理与应用 222
8.2.2 自适应学习率算法的基础理论和实际应用 226
8.3 二阶优化算法的原理与应用 229
8.3.1 牛顿法与拟牛顿法 230
8.3.2 RMSprop:适应性二阶近似 233
8.3.3 二阶优化深度探索 236
8.4 正则化技术与模型泛化 239
8.4.1 正则化技术概述 239
8.4.2 L1 正则化:稀疏性约束 240
8.4.3 L2 正则化:权重衰减 242
8.4.4 Dropout:使神经元“失活” 244
8.5 超参数优化策略 247
8.5.1 超参数基础概念 247
8.5.2 贝叶斯优化:高效优化策略 247
8.6 课后练习 250
第9章 模型评估与解释:从度量到洞察 251
9.1 模型评估介绍 252
9.1.1 常用的模型评估指标 252
9.1.2 评估指标的数学基础:概率与统计原理 252
9.2 性能指标与损失函数对照 255
9.2.1 损失函数与性能指标的关联 255
9.2.2 性能指标中概率与统计的应用 256
9.3 模型解释性技术解析 260
9.3.1 模型解释性技术的核心理念 260
9.3.2 概率与统计在模型解释性技术中的应用 260
9.4 重要评估参数:灵敏度分析与梯度检查 264
9.4.1 概率与统计在灵敏度分析中的应用 264
9.4.2 梯度检查:验证反向传播的正确性 266
9.5 误差分析与模型诊断 270
9.5.1 误差分析:误差类型与来源识别 270
9.5.2 模型诊断流程:从可视化到改进策略 273
9.6 课后练习 278
第10章 计算机语言处理的数学基石:NLP 中的概率与统计实战 279
10.1 初识 NLP 280
10.1.1 NLP 的基本概念与多元应用 280
10.1.2 概率与统计在 NLP 中的关键作用 280
10.2 词嵌入的概念与应用 281
10.2.1 概率与统计在词嵌入中的作用 281
10.2.2 主流词嵌入模型介绍 281
10.3 表示学习的概念与应用 284
10.3.1 表示学习的核心思想与流程 284
10.3.2 概率与统计在表示学习中的作用 285
10.4 语言模型与序列建模的简介与应用 287
10.4.1 语言模型的应用 288
10.4.2 概率与统计在语言模型中的应用 288
10.5 注意力机制与 Transformer 的创新应用 291
10.6 课后练习 295
第11章 计算机视觉中的概率与统计应用 296
11.1 计算机视觉技术基础 297
11.1.1 计算机视觉的应用 297
11.1.2 概率与统计在视觉识别中的作用 297
11.2 图像处理与变换技术 298
11.2.1 常用的图像处理技术 298
11.2.2 图像处理:梯度计算与边缘检测 299
11.2.3 图像增强:画质提升关键技术 301
11.2.4 几何变换和图像变换技术的原理与应用 304
11.2.5 图像分割技术的原理与应用 307
11.3 特征提取与描述的原理与应用 310
11.3.1 特征提取的核心方法 310
11.3.2 概率和统计在特征提取中的应用 310
11.4 概率与统计在计算机视觉中的应用 313
11.4.1 卷积神经网络的原理与实践 313
11.4.2 分类利器:支持向量机(SVM) 316
11.4.3 图像生成与变换 319
11.5 目标检测与定位的原理与应用 323
11.5.1 传统方法回顾:早期目标检测技术盘点 323
11.5.2 基于深度学习的目标检测技术 325
11.6 课后练习 327
第 12 章 推荐系统介绍及概率和统计的作用 328
12.1 推荐系统概述 329
12.1.1 推荐系统的分类与特点 329
12.1.2 推荐系统的应用领域 329
12.1.3 概率与统计在推荐系统中的作用 330
12.2 推荐算法的原理与应用 331
12.2.1 精确匹配:基于内容的推荐 331
12.2.2 “众人之选”:基于协同过滤的推荐 333
12.3 基于标签的推荐 336
12.3.1 获取用户标签 336
12.3.2 基于用户兴趣标签的推荐算法介绍 337
12.3.3 基于物品标签的推荐算法介绍 340
12.4 基于深度学习的推荐模型 343
12.4.1 深度学习在推荐系统中的应用 343
12.4.2 基于 MLP 的推荐模型在推荐系统中的应用 343
12.4.3 基于卷积神经网络的推荐模型 348
12.5 课后练习 354
第 13 章 强化学习介绍及概率与统计的应用 356
13.1 强化学习概述 357
13.1.1 强化学习的核心机制 357
13.1.2 强化学习与其他机器学习方法的综合对比 357
13.1.3 概率与统计在强化学习中的作用 358
13.2 状态表示与动作表示的基本概念与应用 359
13.2.1 状态表示和动作表示的基本概念 359
13.2.2 概率与统计在状态表示和动作表示中的作用 359
13.3 价值函数的基本概念与应用 362
13.3.1 价值函数的基本概念 362
13.3.2 概率与统计在价值函数中的应用 363
13.4 策略表示的基本概念与应用 364
13.4.1 策略表示的基本概念 364
13.4.2 概率与统计在策略表示中的应用 365
13.5 马尔可夫决策过程的基本概念与应用 369
13.5.1 马尔可夫决策过程的核心要素 369
13.5.2 概率与统计在马尔可夫决策过程中的应用 370
13.5.3 贝尔曼方程的形式及概率与统计的作用 373
13.6 蒙特卡洛方法的基本概念与应用 380
13.6.1 蒙特卡洛方法的核心思想及概率与统计的作用 381
13.6.2 蒙特卡洛方法的改进 384
13.7 Q-Learning 算法 387
13.7.1 Q-Learning 的动作值函数 387
13.7.2 概率与统计在 Q-Learning 中的作用 388
13.8 课后练习 392