知识图谱以直观方式呈现实体间的关系,能够有效整合、表示和挖掘复杂知识,为信息检索、智能问答、数据分析等众多领域提供强大的知识支撑。本书系统讲解知识图谱的完整体系,从基础到应用层层深入。第一部分介绍基础知识,内容包括知识图谱的建模和表示方法。第二部分聚焦知识图谱构建过程,涵盖领域发现、命名实体识别、信息提取等技术。第三部分讲解知识图谱补全技术,包括实例匹配、统计关系学习等。第四部分阐述知识图谱的访问方式,涉及推理、检索、结构化查询及问答。第五部分展现知识图谱生态系统,介绍关联数据及知识图谱在多个领域中的应用。
从数据混沌到智能洞察,用知识图谱读懂AI世界
* 全景式展现知识图谱知识体系
* MIT机器学习丛书系列新作
* 近130道精选习题
系统讲解知识图谱的完整体系,从基础到应用层层深入
马扬克·柯内瓦尔(Mayank Kejriwal)
美国南加州大学工业与系统工程系研究副教授,他拥有计算机科学博士学位,其毕业论文获2017年语义网科学协会最佳论文奖。他在ISWC、AAAI等顶会/期刊上发表论文40余篇,并入选2019年Forbes 30 Under 30科学榜。
克雷格·A. 诺布洛克(Craig A. Knoblock)
AAAI会士、ACM会士,美国南加州大学信息科学研究所执行所长、知识图谱研究中心研究主任,卡内基?梅隆大学计算机科学博士,曾任国际人工智能联合会议(IJCAI)主席及理事,人工智能重要奖项罗伯特·S. 恩格尔莫尔奖得主。
佩德罗·塞凯伊(Pedro Szekely)
亚马逊首席应用科学家,卡内基?梅隆大学计算机科学博士,曾任职于美国南加州大学信息科学研究所及多个学术会议程序委员会。他在“领域洞察图谱”方面的研究成果荣获多项最佳论文奖。
第 一部分 知识图谱基础知识
第 1章 知识图谱导论 2
1.1 图 2
1.2 将知识表示为图 3
1.3 知识图谱应用案例 7
1.3.1 案例1:学术出版物和学者 7
1.3.2 案例2:电子商务、产品和公司 8
1.3.3 案例3:社会网络 8
1.3.4 案例4:地缘政治事件 9
1.4 如何阅读本书 11
1.5 本章小结 11
1.6 软件和资源 12
1.7 文献注释 12
1.8 习题 14
第 2章 知识图谱建模与表示 16
2.1 概览 16
2.1.1 RDF 17
2.1.2 RDF 序列化 20
2.2 RDF 模式 22
2.2.1 RDF 模式的类别 22
2.2.2 RDF 模式的属性 24
2.3 以属性为中心的模型 25
2.4 Wikidata 模型 26
2.4.1 Wikidata 数据项 29
2.4.2 Wikidata 属性 30
2.5 语义网多层蛋糕 32
2.6 模式异质性和语义标记 33
2.7 本章小结 35
2.8 软件和资源 35
2.9 文献注释 36
2.10 习题 38
第二部分 知识图谱构建
第3章 领域发现 42
3.1 概览 42
3.2 聚焦抓取 44
3.2.1 设计要素 45
3.2.2 最佳优先爬虫 47
3.2.3 语义爬虫 48
3.2.4 学习爬虫 49
3.2.5 聚焦抓取的性能评估 50
3.3 有影响力的系统和方法 51
3.3.1 语境爬虫 51
3.3.2 领域发现工具 53
3.4 本章小结 57
3.5 软件和资源 57
3.6 文献注释 58
3.7 习题 60
第4章 命名实体识别 62
4.1 概览 62
4.2 为什么很难提取信息 65
4.3 命名实体识别方法 66
4.3.1 监督学习方法 67
4.3.2 半监督学习方法和无监督学习方法 70
4.4 用于命名实体识别的深度学习 71
4.5 具体领域的命名实体识别 73
4.6 评估信息提取质量 73
4.7 本章小结 74
4.8 软件和资源 75
4.9 文献注释 75
4.10 习题 77
第5章 互联网信息提取 78
5.1 概览 78
5.2 生成包装器 81
5.2.1 手动构建的包装器和监督包装器 82
5.2.2 半监督包装器 85
5.2.3 无监督包装器 86
5.2.4 实证比较分析 89
5.3 不止包装器:针对结构化数据的信息提取 90
5.4 本章小结 95
5.5 软件和资源 96
5.6 文献注释 97
5.7 习题 98
第6章 关系提取 100
6.1 概览 100
6.2 本体和相关项目 102
6.2.1 ACE 102
6.2.2 其他本体:简要入门 104
6.3 关系提取技术 105
6.3.1 监督关系提取 105
6.3.2 评估监督关系提取 108
6.3.3 半监督关系提取 108
6.3.4 无监督关系提取 110
6.4 最近的研究:针对关系提取的深度学习 111
6.5 关系提取拓展:事件提取和联合信息提取 114
6.6 本章小结 115
6.7 软件和资源 115
6.8 文献注释 116
6.9 习题 117
第7章 非传统信息提取 118
7.1 概览 118
7.2 开放信息提取 119
7.2.1 KnowItAll 124
7.2.2 TextRunner 125
7.2.3 评估和比较不同的开放信息提取系统 126
7.3 社交媒体信息提取 128
7.3.1 TWICAL 129
7.3.2 TwitIE 130
7.4 其他非传统信息提取类型 131
7.5 本章小结 132
7.6 软件和资源 133
7.7 文献注释 134
7.8 习题 135
第三部分 知识图谱补全
第8章 实例匹配 138
8.1 概览 138
8.2 形式 140
8.3 为什么实例匹配具有挑战性 142
8.4 两步流程 142
8.4.1 分块步骤 143
8.4.2 相似性步骤 150
8.5 评估两步流程 153
8.5.1 评估分块步骤 154
8.5.2 评估相似性步骤 155
8.6 后相似性步骤 156
8.6.1 聚类和传递闭包 156
8.6.2 实体命名系统 158
8.7 用Swoosh 形式化实例匹配 160
8.8 关于研究前沿的说明 162
8.9 不限于实例匹配的数据清理 164
8.10 本章小结 168
8.11 软件和资源 168
8.12 文献注释 170
8.13 习题 171
第9章 统计关系学习 175
9.1 概览 175
9.2 依存关系建模 176
9.3 统计关系学习框架 177
9.3.1 马尔可夫逻辑网络 178
9.3.2 概率软逻辑 182
9.4 知识图谱识别 183
9.4.1 表示不确定的提取内容 184
9.4.2 表示实例匹配输出 185
9.4.3 执行本体约束 185
9.4.4 整合:非确定知识图谱的概率分布 186
9.4.5 关于实验性能的说明 186
9.5 其他应用 186
9.5.1 集合分类 187
9.5.2 链接预测 187
9.5.3 社会网络建模 187
9.6 高级研究领域:数据编程 187
9.7 本章小结 188
9.8 软件和资源 188
9.9 文献注释 189
9.10 习题 190
第 10章 知识图谱表示学习 191
10.1 概览 191
10.2 嵌入式架构:入门 193
10.2.1 CBOW 模型 194
10.2.2 skip-gram 模型 195
10.3 超越词嵌入 195
10.4 知识图谱嵌入 196
10.5 有影响力的知识图谱嵌入系统 199
10.5.1 结构化嵌入 199
10.5.2 神经张量网络 201
10.5.3 平移嵌入模型 202
10.5.4 TransE 203
10.5.5 其他Trans*算法 204
10.6 超事实语境 208
10.6.1 实体类型 208
10.6.2 文本描述 209
10.6.3 超越文本和概念:其他信息集 210
10.7 应用 211
10.7.1 链接预测 211
10.7.2 三元组分类 212
10.7.3 实体分类 213
10.7.4 重温实例匹配 213
10.7.5 其他应用 214
10.8 本章小结 214
10.9 软件和资源 215
10.10 文献注释 215
10.11 习题 216
第四部分 访问知识图谱
第 11章 推理与检索 220
11.1 概览 220
11.2 推理 222
11.2.1 描述逻辑:简要入门 223
11.2.2 网络本体语言 224
11.2.3 范例推理框架:Protégé 228
11.3 检索 229
11.4 对比检索与推理 231
11.4.1 评估 232
11.4.2 范例检索框架:Lucene 237
11.5 本章小结 238
11.6 软件和资源 239
11.7 文献注释 239
11.8 习题 240
第 12章 结构化查询 243
12.1 概览 243
12.2 SPARQL 243
12.3 知识图谱查询的关系处理 246
12.3.1 三元组(垂直)表存储 247
12.3.2 属性表存储 248
12.3.3 水平表存储 249
12.4 NoSQL 250
12.4.1 键 值存储 251
12.4.2 图数据库 254
12.4.3 具有极高可扩展性的NoSQL 数据库 259
12.5 本章小结 261
12.6 软件和资源 261
12.7 文献注释 262
12.8 习题 263
第 13章 问答 266
13.1 概览 266
13.2 作为独立应用的问答 267
13.2.1 从会话式对话中学习:KnowBot 268
13.2.2 BERT 269
13.2.3 知识图谱的必要性 272
13.3 作为知识图谱查询的问答 273
13.3.1 挑战与解决方法 274
13.3.2 基于模板的解决方案 280
13.3.3 语义问答评估 281
13.4 本章小结 282
13.5 软件和资源 283
13.5.1 BERT 和基于语言模型的问答系统 283
13.5.2 HOBBIT 283
13.6 文献注释 283
13.7 习题 285
第五部分 知识图谱生态系统
第 14章 关联数据 288
14.1 概览 288
14.1.1 原则1 292
14.1.2 原则2 292
14.1.3 原则3 294
14.1.4 原则4 294
14.2 关联数据原则的影响和采用 295
14.3 关联开放数据生态系统中的重要知识图谱 297
14.3.1 DBpedia 298
14.3.2 GeoNames 298
14.3.3 YAGO 299
14.3.4 Wikidata 299
14.3.5 UMBEL 300
14.3.6 FOAF 301
14.3.7 其他例子 302
14.4 本章小结 302
14.5 软件和资源 303
14.6 文献注释 303
14.7 习题 304
第 15章 企业和政府机构 305
15.1 概览 305
15.2 企业 306
15.2.1 知识宝库 308
15.2.2 社交媒体和开放图谱协议 311
15.2.3 Schema 网站 312
15.3 政府机构和非营利组织 313
15.3.1 公开政务数据 313
15.3.2 BBC 315
15.4 未来展望 316
15.5 本章小结 317
15.6 软件和资源 317
15.7 文献注释 318
15.8 习题 320
第 16章 自然科学领域中的知识图谱和本体 322
16.1 概览 322
16.2 生物学 323
16.3 化学 328
16.3.1 ChEBI 328
16.3.2 PubChem 330
16.4 地球科学、环境科学和地理科学 ... 330
16.4.1 SWEET 330
16.4.2 GEON 门户和OpenTopography 332
16.4.3 ENVO 333
16.5 本章小结 335
16.6 软件和资源 335
16.7 文献注释 336
16.8 习题 337
第 17章 在特定领域具有社会影响力的知识图谱 338
17.1 概览 338
17.2 DIG 339
17.2.1 领域设置 340
17.2.2 领域探索 344
17.3 替代方案:DeepDive 346
17.4 应用和用例 347
17.4.1 调查领域 347
17.4.2 危机信息学 350
17.5 本章小结 351
17.6 软件和资源 352
17.7 文献注释 352
17.8 习题 354