国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 本书特色
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。
普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解*前沿技术并进一步推动该领域的发展。
《数据挖掘原理(第3版)》在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 内容简介
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。
普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解很前沿技术并进一步推动该领域的发展。
本书在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 目录
目 录 第 1 章 数据挖掘简介 1 1.1 数据爆炸 1 1.2 知识发现 2 1.3 数据挖掘的应用 3 1.4 标签和无标签数据 4 1.5 监督学习:分类 4 1.6 监督学习:数值预测 5 1.7 无监督学习:关联规则 6 1.8 无监督学习:聚类 7 第 2 章 用于挖掘的数据 9 2.1 标准制定 9 2.2 变量的类型 10 2.3 数据准备 11 2.4 缺失值 13 2.4.1 丢弃实例 13 2.4.2 用*频繁值/平均值替换 13 2.5 减少属性个数 14 2.6 数据集的UCI存储库 15 2.7 本章小结 15 2.8 自我评估练习 15 第 3 章 分类简介:朴素贝叶斯和*近邻算法 17 3.1 什么是分类 17 3.2 朴素贝叶斯分类器 18 3.3 *近邻分类 24 3.3.1 距离测量 26 3.3.2 标准化 28 3.3.3 处理分类属性 29 3.4 急切式和懒惰式学习 30 3.5 本章小结 30 3.6 自我评估练习 30 第 4 章 使用决策树进行分类 31 4.1 决策规则和决策树 31 4.1.1 决策树:高尔夫示例 31 4.1.2 术语 33 4.1.3 degrees数据集 33 4.2 TDIDT算法 36 4.3 推理类型 38 4.4 本章小结 38 4.5 自我评估练习 39 第 5 章 决策树归纳:使用熵进行属性选择 41 5.1 属性选择:一个实验 41 5.2 替代决策树 42 5.2.1 足球/无板篮球示例 42 5.2.2 匿名数据集 44 5.3 选择要分裂的属性:使用熵 46 5.3.1 lens24数据集 46 5.3.2 熵 47 5.3.3 使用熵进行属性选择 48 5.3.4 信息增益*大化 50 5.4 本章小结 51 5.5 自我评估练习 51 第 6 章 决策树归纳:使用频率表进行属性选择 53 6.1 实践中的熵计算 53 6.1.1 等效性证明 55 6.1.2 关于零值的说明 56 6.2 其他属性选择标准:多样性基尼指数 56 6.3 χ2属性选择准则 57 6.4 归纳偏好 60 6.5 使用增益比进行属性选择 61 6.5.1 分裂信息的属性 62 6.5.2 总结 63 6.6 不同属性选择标准生成的规则数 63 6.7 缺失分支 64 6.8 本章小结 65 6.9 自我评估练习 65 第 7 章 估计分类器的预测精度 67 7.1 简介 67 7.2 方法1:将数据划分为训练集和测试集 68 7.2.1 标准误差 68 7.2.2 重复训练和测试 69 7.3 方法2:k-折交叉验证 70 7.4 方法3:N -折交叉验证 70 7.5 实验结果I 71 7.6 实验结果II:包含缺失值的数据集 73 7.6.1 策略1:丢弃实例 73 7.6.2 策略2:用*频繁值/平均值替换 74 7.6.3 类别缺失 75 7.7 混淆矩阵 75 7.8 本章小结 77 7.9 自我评估练习 77 第 8 章 连续属性 79 8.1 简介 79 8.2 局部与全局离散化 81 8.3 向TDIDT添加局部离散化 81 8.3.1 计算一组伪属性的信息增益 82 8.3.2 计算效率 86 8.4 使用ChiMerge算法进行全局离散化 88 8.4.1 计算期望值和χ2 90 8.4.2 查找阈值 94 8.4.3 设置minIntervals和maxIntervals 95 8.4.4 ChiMerge算法:总结 96 8.4.5 对ChiMerge算法的评述 96 8.5 比较树归纳法的全局离散化和局部离散化 97 8.6 本章小结 98 8.7 自我评估练习 98 第 9 章 避免决策树的过度拟合 99 9.1 处理训练集中的冲突 99 9.2 关于过度拟合数据的更多规则 103 9.3 预剪枝决策树 104 9.4 后剪枝决策树 106 9.5 本章小结 111 9.6 自我评估练习 111 第 10 章 关于熵的更多信息 113 10.1 简介 113 10.2 使用位的编码信息 116 10.3 区分值 117 10.4 对“非等可能”的值进行编码 118 10.5 训练集的熵 121 10.6 信息增益必须为正数或零 122 10.7 使用信息增益来简化分类任务的特征 123 10.7.1 示例1:genetics数据集 124 10.7.2 示例2:bcst96数据集 126 10.8 本章小结 128 10.9 自我评估练习 128 第 11 章 归纳分类的模块化规则 129 11.1 规则后剪枝 129 11.2 冲突解决 130 11.3 决策树的问题 133 11.4 Prism算法 135 11.4.1 基本Prism算法的变化 141 11.4.2 将Prism算法与TDIDT算法进行比较 142 11.5 本章小结 143 11.6 自我评估练习 143 第 12 章 度量分类器的性能 145 12.1 真假正例和真假负例 146 12.2 性能度量 147 12.3 真假正例率与预测精度 150 12.4 ROC图 151 12.5 ROC曲线 153 12.6 寻找*佳分类器 153 12.7 本章小结 155 12.8 自我评估练习 155 第 13 章 处理大量数据 157 13.1 简介 157 13.2 将数据分发到多个处理器 159 13.3 案例研究:PMCRI 161 13.4 评估分布式系统PMCRI的有效性 163 13.5 逐步修改分类器 167 13.6 本章小结 171 13.7 自我评估练习 171 第 14 章 集成分类 173 14.1 简介 173 14.2 估计分类器的性能 175 14.3 为每个分类器选择不同的训练集 176 14.4 为每个分类器选择一组不同的属性 177 14.5 组合分类:替代投票系统 177 14.6 并行集成分类器 180 14.7 本章小结 181 14.8 自我评估练习 181 第 15 章 比较分类器 183 15.1 简介 183 15.2 配对t检验 184 15.3 为比较评估选择数据集 189 15.4 抽样 191 15.5 “无显著差异”的结果有多糟糕? 193 15.6 本章小结 194 15.7 自我评估练习 194 第 16 章 关联规则挖掘I 195 16.1 简介 195 16.2 规则兴趣度的衡量标准 196 16.2.1 Piatetsky-Shapiro标准和RI度量 198 16.2.2 规则兴趣度度量应用于chess数据集 200 16.2.3 使用规则兴趣度度量来解决冲突 201 16.3 关联规则挖掘任务 202 16.4 找到*佳N条规则 202 16.4.1 J-Measure:度量规则的信息内容 203 16.4.2 搜索策略 204 16.5 本章小结 207 16.6 自我评估练习 207 第 17 章 关联规则挖掘II 209 17.1 简介 209 17.2 事务和项目集 209 17.3 对项目集的支持 211 17.4 关联规则 211 17.5 生成关联规则 213 17.6 Apriori 214 17.7 生成支持项目集:一个示例 217 17.8 为支持项目集生成规则 219 17.9 规则兴趣度度量:提升度和杠杆率 220 17.10 本章小结 222 17.11 自我评估练习 222 第 18 章 关联规则挖掘III:频繁模式树 225 18.1 简介:FP-growth 225 18.2 构造FP-tree 227 18.2.1 预处理事务数据库 227 18.2.2 初始化 229 18.2.3 处理事务1:f, c, a, m, p 230 18.2.4 处理事务2:f, c, a, b, m 231 18.2.5 处理事务3:f, b 235 18.2.6 处理事务4:c, b, p 236 18.2.7 处理事务5:f, c, a, m, p 236 18.3 从FP-tree中查找频繁项目集 238 18.3.1 以项目p结尾的项目集 240 18.3.2 以项目m结尾的项目集 248 18.4 本章小结 254 18.5 自我评估练习 254 第 19 章 聚类 255 19.1 简介 255 19.2 k-means聚类 257 19.2.1 示例 258 19.2.2 找到*佳簇集 262 19.3 凝聚式层次聚类 263 19.3.1 记录簇间距离 265 19.3.2 终止聚类过程 268 19.4 本章小结 268 19.5 自我评估练习 268 第 20 章 文本挖掘 269 20.1 多重分类 269 20.2 表示数据挖掘的文本文档 270 20.3 停用词和词干 271 20.4 使用信息增益来减少特征 272 20.5 表示文本文档:构建向量空间模型 272 20.6 规范权重 273 20.7 测量两个向量之间的距离 274 20.8 度量文本分类器的性能 275 20.9 超文本分类 275 20.9.1 对网页进行分类 276 20.9.2 超文本分类与文本分类 277 20.10 本章小结 279 20.11 自我评估练习 280 第 21 章 分类流数据 281 21.1 简介 281 21.2 构建H-Tree:更新数组 283 21.2.1 currentAtts数组 284 21.2.2 splitAtt数组 284 21.2.3 将记录排序到适当的叶节点 284 21.2.4 hitcount数组 285 21.2.5 classtotals数组 285 21.2.6 acvCounts阵列 285 21.2.7 branch数组 286 21.3 构建H-Tree:详细示例 287 21.3.1 步骤1:初始化根节点0 287 21.3.2 步骤2:开始读取记录 287 21.3.3 步骤3:考虑在节点0处分裂 288 21.3.4 步骤4:在根节点上拆分并初始化新的叶节点 289 21.3.5 步骤5:处理下一组记录 290 21.3.6 步骤6:考虑在节点2处分裂 292 21.3.7 步骤7:处理下一组记录 292 21.3.8 H-Tree算法概述 293 21.4 分裂属性:使用信息增益 295 21.5 分裂属性:使用Hoeffding边界 297 21.6 H-Tree算法:*终版本 300 21.7 使用不断进化的H-Tree进行预测 302 21.8 实验:H-Tree与TDIDT 304 21.8.1 lens24数据集 304 21.8.2 vote数据集 306 21.9 本章小结 307 21.10 自我评估练习 307 第 22 章 分类流数据II:时间相关数据 309 22.1 平稳数据与时间相关数据 309 22.2 H-Tree算法总结 311 22.2.1 currentAtts数组 312 22.2.2 splitAtt数组 312 22.2.3 hitcount数组 312 22.2.4 classtotals数组 312 22.2.5 acvCounts数组 313 22.2.6 branch数组 313 22.2.7 H-Tree算法的伪代码 313 22.3 从H-Tree到CDH-Tree:概述 315 22.4 从H-Tree转换到CDH-Tree:递增计数 315 22.5 滑动窗口法 316 22.6 在节点处重新分裂 320 22.7 识别可疑节点 320 22.8 创建备用节点 322 22.9 成长/遗忘备用节点及其后代 325 22.10 用备用节点替换一个内部节点 327 22.11 实验:跟踪概念漂移 333 22.11.1 lens24数据:替代模式 335 22.11.2 引入概念漂移 335 22.11.3 使用交替lens24数据的实验 336 22.11.4 关于实验的评论 343 22.12 本章小结 343 22.13 自我评估练习 343 附录 A 基本数学知识 345 附录 B 数据集 357 附录 C 更多信息来源 371 附录 D 词汇表和符号 373 附录 E 自我评估练习题答案 391 参考文献 419
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 作者简介
Max Bramer是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。
自从 “数据挖掘”“数据库中的知识发现”“大数据”和“预测分析”等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。
Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。
|