体育数据分析方法--数学和统计学在棒球、足球、篮球等运动中的应用(原书第二版)
定 价:160 元
- 作者:卢文云,虞思逸,刘雨剑
- 出版时间:2026/1/1
- ISBN:9787030823885
- 出 版 社:科学出版社
- 中图法分类:G80-32
- 页码:338
- 纸张:
- 版次:1
- 开本:B5
本书以精炼而系统的方式,介绍在体育研究中切实有用的分析与统计方法。全书以体育数据的实际应用与结果解读为主线,突出体育数据分析有别于常规统计分析的特性。全书汇集了多种运动项目的大量典型案例,为各章提供必要的计算指导与进阶阅读建议,帮助读者进一步将所述方法有效落地。
更多科学出版社服务,请扫码获取。
主持国家社科基金项目3项、国家体育总局决策咨询研究重大项目2项、国家社科基金重大招标项目子课题2项,参与国家社科基金项目12项;作为执笔人撰写3份专报获副国级领导批示;在核心期刊发表论文40余篇,出版专著4部;获省政府一等奖2项,三等奖2项;曾获全国教育硕士优秀教育管理者荣誉。
目录
1 引言 1
1.1 体育数据的分析方法 1
1.2 全书架构 2
1.3 数据 3
1.4 计算 4
1.5 进阶阅读建议 5
2 体育数据描述与汇总 7
2.1 引言 7
2.2 体育数据的种类 8
2.3 频率分布 10
2.4 单指数结果汇总:平均值与中位数 18
2.5 体育数据中的变化检测 21
2.6 定性变量中的变化检测:以投球种类为例 24
2.7 使用数学变换来提高球队和球员表现的测量水平 26
2.8 每垒全垒打数与每全垒打垒数 30
2.9 计算 33
2.10 进阶阅读建议 43
2.11 练习 44
3 概率 46
3.1 引言 46
3.2 在体育领域应用概率规则 46
3.3 将体育事件结果作为随机变量进行建模 49
3.4 总结随机变量的分布 52
3.5 得分分布与期望得分 53
3.6 概率分布与体育数据间的关系 55
3.7 在特定条件下的概率计算:条件概率 56
3.8 无条件概率与条件概率的纽带:全概率法则 60
3.9 足球中率先进球得分的重要性 61
3.10 获胜概率 63
3.11 基于全概率法则对体育统计量进行修正 64
3.12 NFL得分王对比 67
3.13 体育数据建模的两大重要分布:二项分布与正态分布 68
3.14 使用Z分数来比较NFL赛季的接球表现 72
3.15 使用概率论分析体育中的连胜纪录 76
3.16 使用概率论评价统计中的“怪现象” 79
3.17 计算 82
3.18 进阶阅读建议 84
3.19 练习 85
4 统计方法 88
4.1 引言 88
4.2 使用误差范围量化体育统计中的变化 88
4.3 计算均值和相关统计的误差范围 92
4.4 使用模拟分析检测复杂统计中的变化 96
4.5 NFL传球评分中的误差范围 99
4.6 球队与球员间的比较 102
4.7 当前结果是不是偶然的?理解统计显著性 104
4.8 比较美国联盟与国家联盟 105
4.9 误差范围与修正统计量 108
4.10 将统计学方法应用到体育数据时的重要注意事项 111
4.11 计算 112
4.12 进阶阅读建议 118
4.13 练习 118
5 运用相关性分析来发现数据中的统计关系 121
5.1 引言 121
5.2 线性关系:相关系数 121
5.3 “毕达哥拉斯公式”能被用于预测队伍下半场的表现吗? 127
5.4 运用秩相关来描述一些特定的非线性关系 128
5.5 一名顶级跑卫在NFL比赛中的重要性 129
5.6 识别和移除潜在变量的影响 130
5.7 MLB比赛中投手防御率与残垒率的关系 131
5.8 运用自相关来发现体育数据中的规律 132
5.9 量化NFL中薪资帽的影响 135
5.10 描述类别变量间的关联性 136
5.11 分析传球冲击对Brady比赛表现的影响 142
5.12 纳达尔为什么在红土场地表现很好 143
5.13 使用球队层面的数据所要注意的事项 144
5.14 倾向于面对更多投球的击球员表现会更优秀吗? 146
5.15 计算 148
5.16 进阶阅读建议 153
5.17 练习 154
6 运用线性回归进行体育数据建模 157
6.1 引言 157
6.2 运用简单线性回归来对两个变量间的关系进行建模 157
6.3 回归系数的不确定性:误差范围与统计显著性 162
6.4 胜于替补与团队获胜之间的关系 164
6.5 均值回归:为什么表现极佳的队伍可能会逐渐变差而垫底球队
可能会逐渐提升 166
6.6 寻找逆转局势的击打 170
6.7 NFL教练会落伍吗?一次数据不全的案例 172
6.8 运用多项式回归来建模非线性关系 173
6.9 英超联赛中传球与进球的关系 178
6.10 用log 变换对那些在运动分析中有乘积效应的变量进行建模 180
6.11 使用多年度数据进行分析时的注意事项 186
6.12 计算 188
6.13 进阶阅读建议 195
6.14 练习 195
7 多变量的回归模型 199
7.1 引言 199
7.2 多元回归分析 199
7.3 多元回归分析中系数的意义 200
7.4 三振率与投球速度和投球轨迹的关系建模 203
7.5 英超联赛中传球与进球关系的进一步分析 205
7.6 多变量相关性与回归 206
7.7 分析西甲选手的进攻贡献 207
7.8 利用交互作用对有协同效应和拮抗效应的变量进行建模 210
7.9 冲刺时间与体重和力量的建模 212
7.10 分析三振率与投球速度和轨迹的模型中变量之间的交互关系 214
7.11 运用如联盟和位置等类别变量进行预测 215
7.12 NBA中篮板与得分的关系 218
7.13 确定模型中最重要的变量:预测变量的相对重要性 221
7.14 影响PGA高尔夫选手得分的因子 225
7.15 选择预测变量:找到最适合的NFL球队得分模型 226
7.16 运用回归模型对预测进行修正 231
7.17 修正后的平均失球率 233
7.18 使用Excel 计算 235
7.19 进阶阅读建议 241
7.20 练习 242
8 一些进阶方法 245
8.1 引言 245
8.2 使用交叉验证和重采样评价统计模型 246
8.3 二元响应变量回归模型 253
8.4 使用树方法对复杂关系进行建模 263
8.5 使用随机森林对观测进行分类 269
8.6 分析变异性 272
8.7 使用池化方法提高队伍及选手特定变量的估算能力 279
8.8 使用随机效应对回归模型中的相关性进行建模 285
8.9 使用样条函数对非线性关系进行建模 289
8.10 使用主成分分析对多变量数据进行汇总 299
8.11 进阶阅读建议 309
8.12 练习 310
参考文献 314
可用数据集 318
图表目录
图2.1 Braun 2011赛季安打数直方图 14
图2.2 Brady 2001—2011赛季传球码数直方图 15
图2.3 正态分布形状 15
图2.4 Charles 2010赛季进攻尝试码数 16
图2.5 2010—2011赛季NBA球员的命中率 16
图2.6 2010—2011赛季不同位置NBA球员的命中率分布 17
图2.7 2010—2011赛季不同位置NBA球员的命中率分布 18
图2.8 2012年PGA高尔夫球员的奖金分布 30
图2.9 2011年MLB职业球员每棒全垒打数分布 32
图2.10 2011年MLB职业球员每全垒打棒数分布 32
图2.11 Seahawks队2012年输赢场次数据表 33
图2.12 Brady数据表若干行 33
图2.13 直方图制作流程中的对话框 34
图2.14 表格中的区间间断值区域 34
图2.15 Brady例子中的直方图制作对话框 35
图2.16 直方图制作结果 35
图2.17 Brady传球数据的默认直方图 36
图2.18 描述性统计对话框 36
图2.19 描述性统计结果 37
图3.1 一个示例性的直方图 51
图3.2 P(a图3.3 正态分布的示例 70
图4.1 Flacco逐场比赛的表现统计 112
图4.2 Flacco的一次模拟赛季结果 113
图4.3 Flacco的第二次模拟赛季结果 114
图5.1 2011赛季MLB选手的得分数与安打数 122
图5.2 2011赛季MLB选手的保送数与安打数 122
图5.3 2011—2012赛季NBA选手的场均进攻篮板与场均防守篮板 123
图5.4 2009赛季NFL四分卫选手的达阵与被擒杀 123
图5.5 MLB球队2011赛季胜场数与2010赛季胜场数 124
图5.6 2011赛季NFL球队场均得分与场均失分 124
图5.7 MLB球队的每次上垒击打中投球数与上垒率 147
图5.8 MLB球员的每次上垒击打中投球数与上垒率 147
图5.9 MLB球员2011赛季的得分与安打数据示例 148
图5.10 相关性对话框 149
图5.11 相关性对话框的输出 149
图5.12 2011赛季MLB球员安打数据的示例 149
图5.13 2011赛季MLB球员安打数据的相关性矩阵 150
图5.14 2011赛季NFL球队数据示例 150
图5.15 2011赛季MLB球队的秩数据 151
图5.16 Chris Paul的一阶滞后每场得分 151
图6.1 2007—2011赛季MLB球队得分与OPS的散点图 158
图6.2 球队得分与OPS的回归线 160
图6.3 球队得分与OPS的两条回归线 160
图6.4 2007—2011赛季MLB球队得分与全垒打的关系 161
图6.5 Griffey每年的全垒打率 174
图6.6 二次函数的一些例子 175
图6.7 用二次回归函数拟合Griffey的全垒打率 175
图6.8 NHL前锋场均得分与平均出场时间 176
图6.9 NHL前锋场均得分与平均出场时间的二次回归 177
图6.10 EPL场均进球和传球成功率的关系 178
图6.11 EPL场均得分和传球成功率关系的二次曲线图 179
图6.12 NHL比赛中log每场比赛得分与平均上场比赛时间的关系 181
图6.13 NHL比赛中每场比赛得分与平均上场比赛时间的关系 181
图6.14 40码冲刺时间和体重的关系 183
图6.15 2007—2011赛季MLB球队的得分和OPS数据的前几行 188
图6.16 回归的对话框 188
图6.17 得分与OPS例子的回归结果 189
图6.18 Griffey数据的前几列 189
图6.19 Griffey数据的二次回归结果 190
图6.20 趋势线(Trendline)按钮 191
图6.21 趋势线(Trendline)对话框 191
图7.1 MLB进攻数据的前几列 235
图7.2 MLB例子中的回归程序对话框 236
图7.3 2009赛季MLB投手数据的前几列示例 236
图7.4 包含联盟指示变量的2009 MLB投手数据 237
图8.1 NBA每场比赛的平均得分 250
图8.2 使用不同的p得到的NBA得分数据的回归模型估计 251
图8.3 不同拟合优度在不同p下的值 252
图8.4 射门命中率估计曲线 257
图8.5 基于选秀和大学数据的外接手职业生涯预测分类树 265
图8.6 剪枝后的外接手职业生涯预测分类树 266
图8.7 NBA得分数据的4节点线性样条估计 291
图8.8 NBA得分数据的4节点三次样条估计 291
图8.9 NBA得分数据的3节点三次样条估计 292
图8.10 使用不同节点数的三次样条估计拟合NBA得分数据 293
图8.11 NBA得分数据的32节点惩罚三次样条估计 294
图8.12 NBA得分数据的16 节点惩罚三次样条估计 295
图8.13 场均得分和场均投篮次数的关系 296
图8.14 式(8.15)中关于年份与得分的样条估计 296
图8.15 5 个假想点的近似 301
图8.16 仿真点以及其对应的最大方差方向与回归直线 302
表2.1 洋基队2011赛季胜负场记录 10
表2.2 洋基队2011赛季胜负场统计 10
表2.3 Braun 2011赛季安打数据 11
表2.4 Brady 2001—2011赛季传球码数频数表Ⅰ 11
表2.5 Brady 2001—2011赛季传球码数频数表Ⅱ 12
表2.6 Brady 2001—2011赛季传球码数频数表Ⅲ 12
表2.7 Charles 2010 赛季进攻尝试码数频数表Ⅰ 13
表2.8 Charles 2010 赛季进攻尝试码数频数表Ⅱ 13
表2.9 2011MLB选手进攻数据统计 19
表2.10 各联盟队伍得分和失分的标准差 22
表2.11 各联盟队伍得分和失分的标准差 23
表2.12 打击数据的四分位数范围及标准差 24
表2.13 2012赛季投球变化率最高与最低的五位MLB投手 26
表2.14 2012年PGA高尔夫球手奖金收入 28
表2.15 2012年PGA高尔夫球员对数变换奖金 29
表3.1 一个概率分布的例子 50
表3.2 一个分布函数的例子 50
表3.3 在2009年综合BAA是0.244的投球手的调整BAA 66
表3.4 标准正态分布的概率 71
表3.5 不同时代的最佳接球码数 72
表3.6 至少有一次接球的所有球员当年度接球码数均值与标准差 73
表3.7 相较于表3.5的调整后的接球码数 75
表3.8 基于最佳球员的均值与标准差统计量 76
表3.9 基于Miguel Cabrera数据的连续安打分布 77
表3.10 连胜纪录的概率分布 79
表4.1 Durant 2011—2012赛季表现数据统计结果 92
表4.2 p<0.4时不同样本量的误差范围 94
表4.3 Durant 2011—2012赛季的每场得分 97
表4.4 Durant模拟赛季的每场得分 98
表4.5 不同模拟次数对应的误差范围的分布 99
表4.6 2012赛季NFL最强四分卫的传球评分及其误差范围 101
表4.7 Durant与James 2011—2012赛季比赛得分统计均值 102
表5.1 NFL胜率的滞后年数与自相关系数 135
表5.2 NFL胜率的滞后年数与自相关系数 136
表5.3 2014赛季NFL半场比赛结果和全场比赛结果的关系 137
表5.4 表示两种分类变量的一般性表格 138
表5.5 2012赛季MLB先发投手数据 138
表5.6 2012赛季MLB先发投手的假想数据 139
表5.7 2012赛季MLB先发投手的实际数据 139
表5.8 2009—2012赛季Brady 触地传球与擒杀数之间的关系 142
表5.9 Nadal在红土场地和非红土场地上的表现 143
表5.10 Nadal在红土场地和非红土场地时在自己发球局的表现 143
表5.11 Nadal在红土场地和非红土场地时在对手发球局的表现 144
表6.1 均值回归的一些例子 168
表6.2 均值回归进一步的一些例子 168
表6.3 2011赛季关键OPS排名前十和后十的MLB选手 171
表6.4 2011赛季OPS排名前十和后十的MLB选手 172
表7.1 西甲联赛中进攻贡献排名前20 位球员 209
表7.2 高尔夫数据的分析 225
表7.3 使用14个预测特征的回归分析结果 227
表7.4 模型Ⅱ回归分析结果 228
表7.5 模型Ⅲ回归分析结果 230
表7.6 模型Ⅳ回归分析结果 231
表7.7 2011赛季调整后的防守率(Adj RA)榜 233
表7.8 2010—2011赛季守门员中调整平均失球数(Adj GAA)最优榜 234
表8.1 不同概率的优势和对数优势 255