第 1章绪论 1
1.1基本概念 1
1.2文本挖掘任务 2
1.3文本挖掘面临的困难 5
1.4方法概述与本书的内容组织 8
1.5进一步阅读 10
习题 11
第 2章数据预处理和标注 12
2.1概述 12
2.2数据获取 12
2.3数据预处理 16
2.4数据标注 18
2.5基本工具 20
2.5.1汉语自动分词与词性标注 20
2.5.2句法分析 22
2.5.3 n元语法模型 23
2.6进一步阅读 24
习题 24
第 3章文本表示 25
3.1概述 25
3.2向量空间模型 25
3.2.1向量空间模型的基本概念 25
3.2.2特征项的构造与权重 26
3.2.3文本长度规范化 27
3.2.4特征工程 28
3.2.5其他文本表示方法 30
3.3词的分布式表示 31
文本数据挖掘 (第 2版)
3.3.1神经网络语言模型 32
3.3.2 C&W模型 36
3.3.3 CBOW与 Skip-gram模型 38
3.3.4噪声对比估计与负采样 39
3.3.5字词混合的分布式表示方法 41
3.4短语的分布式表示 43
3.4.1基于词袋的分布式表示 43
3.4.2基于自动编码器的分布式表示 43
3.5句子的分布式表示 46
3.5.1通用的句子表示 46
3.5.2任务相关的句子表示 49
3.6文档的分布式表示 52
3.6.1通用的文档分布式表示 53
3.6.2任务相关的文档分布式表示 55
3.7进一步阅读 56
习题 57
第 4章预训练语言模型 58
4.1概述 58
4.2 ELMo:源自语言模型的语境化分布式向量表示 58
4.2.1基于双向 LSTM的语言模型 59
4.2.2适应下游任务的语境化 ELMo词向量 60
4.3 GPT:生成式预训练模型 61
4.3.1 Transformer .62
4.3.2 GPT预训练 63
4.3.3 GPT微调 64
4.4 BERT:双向 Transformer编码表示 65
4.4.1 BERT预训练 66
4.4.2 BERT微调 68
4.4.3 XLNet:广义自回归预训练模型 68
4.4.4 UniLM 71
4.5进一步阅读 72
习题 72
第 5章文本分类 74
5.1概述 74
5.2传统文本表示 75
目录 XI
5.3特征选择 76
5.3.1互信息法 76
5.3.2信息增益法 . 79
5.3.3卡方统计量法 80
5.3.4其他方法 81
5.4传统分类算法 82
5.4.1朴素贝叶斯模型 82
5.4.2 logistic回归、 softmax回归与最大熵模型 84
5.4.3支持向量机 . 86
5.4.4集成学习 88
5.5深度神经网络方法 89
5.5.1基于前馈神经网络的文本分类方法 89
5.5.2基于卷积神经网络的文本分类方法 89
5.5.3基于循环神经网络的文本分类方法 91
5.6文本分类性能评估 94
5.7进一步阅读 97
习题 97
第 6章文本聚类 99
6.1概述 99
6.2文本相似性度量 99
6.2.1样本间的相似性 100
6.2.2簇间的相似性 102
6.2.3样本与簇之间的相似性 103
6.3文本聚类算法 103
6.3.1 K-均值聚类 103
6.3.2单遍聚类 107
6.3.3层次聚类 108
6.3.4密度聚类 111
6.4性能评估 113
6.4.1外部标准 113
6.4.2内部标准 115
6.5进一步阅读 115
习题 116
第 7章主题模型 117
7.1概述 117
文本数据挖掘 (第 2版)
7.2潜在语义分析 118
7.2.1词项-文档矩阵的奇异值分解 118
7.2.2词项和文档的概念表示及相似度计算 121
7.3概率潜在语义分析 123
7.3.1模型假设 123
7.3.2参数学习 124
7.4潜在狄利克雷分布 125
7.4.1模型假设 125
7.4.2词项和主题序列的联合概率 127
7.4.3模型推断 129
7.4.4新文档的推断 131
7.4.5 PLSA与 LDA的联系与区别 132
7.5进一步阅读 132
习题 133
第 8章情感分析与观点挖掘 135
8.1概述 135
8.2情感分析任务类型 136
8.2.1按目标形式划分 136
8.2.2按分析粒度划分 137
8.3文档或句子级情感分析方法 139
8.3.1基于规则的无监督情感分类 140
8.3.2基于传统机器学习的监督情感分类 141
8.3.3深度神经网络方法 144
8.4词语级情感分析与情感词典构建 146
8.4.1基于语义知识库的方法 147
8.4.2基于语料库的方法 147
8.4.3情感词典性能评估 149
8.5属性级情感分析 150
8.5.1属性抽取 150
8.5.2属性情感分类 153
8.5.3主题与情感的生成式建模 157
8.6情感分析中的特殊问题 159
8.6.1情感极性转移问题 159
8.6.2领域适应问题 160
8.7文本情绪分析 163
8.7.1心理学情绪理论 163
目录 XIII
8.7.2文本情绪识别 163
8.7.3情绪原因挖掘 165
8.8进一步阅读 167
习题 168
第 9章话题检测与跟踪 . 170
9.1概述 170
9.2术语与任务 172
9.2.1术语 172
9.2.2任务 173
9.3报道或话题的表示与相似性计算 175
9.4话题检测 177
9.4.1话题在线检测 177
9.4.2话题回溯检测 179
9.5话题跟踪 179
9.6评估方法 181
9.7社交媒体话题检测与跟踪 182
9.7.1社交媒体话题检测 182
9.7.2社交媒体话题跟踪 184
9.8突发话题检测 184
9.8.1突发状态识别 185
9.8.2以文档为中心的方法 187
9.8.3以特征为中心的方法 188
9.9进一步阅读 190
习题 190