本书围绕社交媒体中的风险信息检测问题,系统地梳理了作者的研究成果,结合传统机器学习与典型深度学习方法,深入探讨关键技术,并提出创新性解决方案。全书主要分为数据篇、用户篇和应用篇3个部分。数据篇介绍了社交媒体数据的获取方法,并整合公开数据集,为风险信息检测提供数据支撑。用户篇分析用户情感特征,提出3种基于用户表示的情感分类方法,提高分类准确性。应用篇针对垃圾邮件和谣言等风险信息,提出多种检测方法,为今后的社交媒体风险信息检测研究奠定基础,为同类研究提供参考。
本书的读者群体主要包括社交媒体分析、人工智能、网络安全、数据挖掘等相关领域的研究人员、工程师及高校师生。希望本书能够为读者提供新的研究思路和技术支持,推动社交媒体风险信息检测技术的发展,为构建健康、安全的网络生态贡献力量。
1.本书是一本集理论与实践于一体的专业书,旨在为社交网络、信息安全、人工智能等领域的研究者和实践者提供全面的社交媒体风险信息检测知识体系和应用案例。
2.本书作者王友卫是中央财经大学副教授、硕士生导师、中央财经大学“菁英学者”,多年来一直从事网络内容安全分析领域的教学和研究工作,对社交媒体风险信息检测技术有深入的研究。
3.本书系统地介绍了社交媒体风险信息检测的基本概念、关键技术、应用场景和发展趋势,内容覆盖了从基础理论到实际应用的各个方面,为读者提供了一个完整的社交媒体风险信息检测知识体系,有助于读者在掌握社交媒体风险信息识别关键技术的同时了解该领域的发展方向。
王友卫,中央财经大学信息学院副教授,硕士生导师,CCF会员,中央财经大学“菁英学者”。多年来一直从事网络内容安全分析领域的研究工作,近年来,以第一作者身份在领域高质量期刊上发表论文14篇。这些研究成果中许多与社交媒体内容安全相关,为本著作撰写提供了坚实的理论基础和丰富的研究经验。作者主持并完成了国家自然科学基金项目1项、北京市自然科学基金项目1项、教育部人文社科项目1项、中央财经大学青年发展基金项目1项,参与了国家重点研发计划项目及国家自然科学基金项目多项,积累了丰富的理论和实践经验。
第 1章 概述 1
1.1 研究背景 1
1.1.1 社交媒体中风险信息的概念 1
1.1.2 问题提出 2
1.2 相关研究 2
1.2.1 社交媒体用户表示 3
1.2.2 风险信息检测 4
1.3 主要内容 6
1.3.1 数据篇 6
1.3.2 用户篇 7
1.3.3 应用篇 8
参考文献 9
数据篇
第 2章 数据准备 15
2.1 数据采集方法 15
2.2 相关数据集介绍 17
2.2.1 自行爬取的数据集 17
2.2.2 网络公开数据集 17
2.3 小结 19
参考文献 19
用户篇
第3章 基于用户兴趣词典的情感分类方法 23
3.1 引言 23
3.2 方法描述 25
3.2.1 基于用户兴趣词典的情感分类 25
3.2.2 基于LSTM的情感分类 27
3.2.3 基于用户兴趣词典和LSTM的情感分类 28
3.3 实验结果与分析 29
3.3.1 数据集及预处理 29
3.3.2 算法性能评价标准 30
3.3.3 实验对比算法 30
3.3.4 阈值th取值选择 31
3.3.5 不同算法精度对比 32
3.3.6 不同算法效率对比 33
3.4 小结 34
参考文献 35
第4章 基于用户历史特征的情感分类方法 37
4.1 引言 37
4.2 相关理论 38
4.2.1 知识蒸馏 38
4.2.2 情感知识增强预训练模型 39
4.3 方法描述 40
4.3.1 问题描述 40
4.3.2 方法设计 41
4.4 实验结果与分析 48
4.4.1 数据集 48
4.4.2 对比方法及参数设置 48
4.4.3 数据增强验证和测试集选定 49
4.4.4 带时间属性的用户特征有效性验证 50
4.4.5 综合比较 51
4.4.6 模型通用性验证 52
4.5 小结 53
参考文献 54
第5章 基于用户性格特征的情感分类方法 57
5.1 引言 57
5.2 相关理论 59
5.2.1 大五人格模型 59
5.2.2 门控循环单元(GRU) 60
5.3 方法描述 61
5.3.1 问题定义 61
5.3.2 方法描述 61
5.4 实验结果与分析 67
5.4.1 实验环境和数据集 67
5.4.2 算法性能评价标准 68
5.4.3 实验对比方法及参数设置 68
5.4.4 大五人格模型有效性验证 69
5.4.5 方法有效性验证 70
5.4.6 注意力机制有效性验证 72
5.4.7 综合对比 73
5.5 小结 77
参考文献 77
应用篇
第6章 基于用户兴趣集的垃圾邮件快速在线识别方法 83
6.1 引言 83
6.2 方法描述 84
6.2.1 样本预处理 84
6.2.2 特征提取及样本训练 85
6.2.3 样本分类 85
6.2.4 主动学习 86
6.2.5 更新用户兴趣集 88
6.2.6 更新训练集 88
6.3 实验结果与分析 89
6.3.1 实验设置 89
6.3.2 算法耗时分析 89
6.3.3 实验结果 91
6.4 小结 95
参考文献 96
第7章 基于图卷积网络的归纳式微博谣言检测方法 98
7.1 引言 98
7.2 方法描述 99
7.2.1 问题定义 99
7.2.2 方法设计 100
7.3 实验结果与分析 104
7.3.1 实验设置 104
7.3.2 评价指标 105
7.3.3 评论利用时间对谣言检测效率的影响 105
7.3.4 微博事件建图方法对比 107
7.3.5 不同池化方法对比 110
7.3.6 与现有典型方法的比较 111
7.4 小结 113
参考文献 114
第8章 基于事件 词语 特征异质图的微博谣言检测方法 117
8.1 引言 117
8.2 相关理论 119
8.2.1 图神经网络 119
8.2.2 中文语言查询和词数统计词典 119
8.3 方法描述 120
8.3.1 问题描述 120
8.3.2 方法设计 120
8.4 实验结果与分析 126
8.4.1 实验设置 126
8.4.2 隐藏层维度取值影响 127
8.4.3 节点聚合方法比较 128
8.4.4 消融实验 130
8.4.5 与现有典型方法的比较 132
8.4.6 微博评论数量影响分析 133
8.5 小结 134
参考文献 135
第9章 基于时序 结构交互特征和用户信息的谣言检测方法 138
9.1 引言 138
9.2 方法描述 139
9.2.1 问题定义 140
9.2.2 全局用户特征提取 141
9.2.3 基于BiGRU的时序空间特征提取 144
9.2.4 基于GAT的结构交互特征提取 146
9.2.5 谣言分类 147
9.3 实验结果与分析 148
9.3.1 数据集与实验设置 148
9.3.2 评估指标与典型方法介绍 148
9.3.3 与典型方法的对比实验 149
9.3.4 消融实验 151
9.3.5 谣言早期检测实验 153
9.4 小结 155
参考文献 155
第 10章 总结与展望 157
10.1 本书总结 157
10.2 未来展望 158
10.3 结束语 158