文本数据挖掘/宗成庆等

首页 > 图书 > 教材教辅/2020-09-23 / 加入收藏 / 阅读 [打印]
文本数据挖掘/宗成庆等

文本数据挖掘/宗成庆等

作者:宗成庆、夏睿、张家俊

开 本:其他

书号ISBN:9787302519904

定价:

出版时间:2019-05-01

出版社:清华大学出版社

文本数据挖掘/宗成庆等 本书特色

本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。

文本数据挖掘/宗成庆等 内容简介

本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。

文本数据挖掘/宗成庆等 目录

第 1章绪论 .1

1.1基本概念 1

1.2文本挖掘任务 .2

1.3文本挖掘面临的困难 .5

1.4方法概述与本书的内容组织 .7

1.5进一步阅读 .9

第 2章数据预处理和标注 . 11

2.1数据获取 11

2.2数据预处理 . 15

2.3数据标注 17

2.4基本工具 19

2.4.1汉语自动分词与词性标注 19

2.4.2句法分析 . 20

2.4.3 n元语法模型 . 21

2.5进一步阅读 . 22

第 3章文本表示 . 23

3.1向量空间模型 . 23

3.1.1向量空间模型的基本概念 23

3.1.2特征项的构造与权重 . 24

3.1.3文本长度规范化 . 25

3.1.4特征工程 . 26

3.1.5其他文本表示方法 27

3.2词的分布式表示 29

3.2.1神经网络语言模型 29

3.2.2 C&W模型 . 32

3.2.3 CBOW与 Skip-gram模型 34

3.2.4噪声对比估计与负采样 . 35

3.2.5字词混合的分布式表示方法 . 37

3.3短语的分布式表示 . 38

3.3.1基于词袋的分布式表示 . 39

3.3.2基于自动编码器的分布式表示 . 39

3.4句子的分布式表示 . 42

3.4.1通用的句子表示 . 42

3.4.2任务相关的句子表示 . 45

3.5文档的分布式表示 . 48

3.5.1通用的文档分布式表示 . 48

3.5.2任务相关的文档分布式表示 . 49

3.6进一步阅读 . 52

第 4章文本分类 . 53

4.1概述 . 53

4.2传统文本表示 . 54

4.3特征选择 55

4.3.1互信息法 . 55

4.3.2信息增益法 58

4.3.3卡方统计量法 . 59

4.3.4其他方法 . 60

4.4传统分类算法 . 61

4.4.1朴素贝叶斯模型 . 61

4.4.2 Logistic回归、 Softmax回归与*大熵模型 . 63

4.4.3支持向量机 65

4.4.4集成学习 . 67

4.5深度神经网络方法 . 68

4.5.1多层前馈神经网络 68

4.5.2卷积神经网络 . 69

4.5.3循环神经网络 . 71

4.6文本分类性能评估 . 78

4.7进一步阅读 . 81

第 5章文本聚类 . 83

5.1概述 . 83

5.2文本相似性度量 83

5.2.1样本间的相似性 . 83

5.2.2簇间的相似性 . 86

目录 IX
5.2.3样本与簇之间的相似性 . 87

5.3文本聚类算法 . 87

5.3.1 K-均值聚类 . 87

5.3.2单遍聚类 . 91

5.3.3层次聚类 . 92

5.3.4密度聚类 . 95

5.4性能评估 97

5.4.1外部标准 . 97

5.4.2内部标准 . 99

5.5进一步阅读 . 99

第 6章主题模型 . 101

6.1概述 . 101

6.2潜在语义分析 . 102

6.2.1奇异值分解 102

6.2.2词项 -文档矩阵的奇异值分解 103

6.2.3词项和文档的概念表示及相似度计算 . 104

6.3概率潜在语义分析 . 106

6.3.1模型假设 . 106

6.3.2参数学习 . 107

6.4潜在狄利克雷分布 . 108

6.4.1模型假设 . 108

6.4.2词项和主题序列的联合概率 . 110

6.4.3模型推断 . 112

6.4.4新文档的推断 . 114

6.4.5 PLSA与 LDA的联系与区别 . 115

6.5进一步阅读 . 115

第 7章情感分析与观点挖掘 117

7.1概述 . 117

7.2情感分析任务类型 . 118

 1/3    1 2 3 下一页 尾页

教材 研究生/本科/专科教材 工学

在线阅读

 1/3    1 2 3 下一页 尾页
  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐
上一篇:中级计量经济学/孙敬水     下一篇:税法(第三版)