Hadoop 大数据开发基础

首页 > 图书 > 教材教辅/2020-09-24 / 加入收藏 / 阅读 [打印]
Hadoop 大数据开发基础

Hadoop 大数据开发基础

作者:余明辉

开 本:32开

书号ISBN:9787115370662

定价:

出版时间:2018-02-01

出版社:人民邮电



第5章 MapReduce进阶编程 110

任务5.1 筛选日志文件并生成序列化文件 111

5.1.1 MapReduce输入格式 111

5.1.2 MapReduce输出格式 113

5.1.3 任务实现 113

任务5.2 Hadoop Java API读取序列化日志文件 115

5.2.1 FileSystem API管理文件夹 115

5.2.2 FileSystem API操作文件 119

5.2.3 FileSystem API读写数据 121

5.2.4 任务实现 123

任务5.3 优化日志文件统计程序 124

5.3.1 自定义键值类型 124

5.3.2 初步探索Combiner 128

5.3.3 浅析Partitioner 130

5.3.4 自定义计数器 132

5.3.5 任务实现 134

任务5.4 Eclipse提交日志文件统计程序 137

5.4.1 传递参数 137

5.4.2 Hadoop辅助类ToolRunner 139

5.4.3 Eclipse自动打包并提交任务 140

小结 144

实训 144

实训1 统计全球每年的高气温和低气温 144

实训2 筛选气温在15~25℃之间的数据 145

课后练习 146

第6章 项目案例:电影网站用户性别预测 151

任务6.1 认识KNN算法 152

6.1.1 KNN算法简介 152

6.1.2 KNN算法原理及流程 152

任务6.2 数据预处理 154

6.2.1 获取数据 154

6.2.2 数据变换 155

6.2.3 数据清洗 160

6.2.4 划分数据集 163

任务6.3 实现用户性别分类 167

6.3.1 实现思路 167

6.3.2 代码实现 169

任务6.4 评价分类结果的准确性 179

6.4.1 评价思路 179

6.4.2 实现分类评价 180

6.4.3 寻找优K值 184

小结 188

参考文献 189

Hadoop 大数据开发基础 作者简介

张良均,高级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编《Hadoop大数据分析与挖掘实战》《Python数据分析与挖掘实战》《R语言数据分析与挖掘实战》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

Hadoop 大数据开发基础

 2/2   首页 上一页 1 2

教材 研究生/本科/专科教材 工学

在线阅读

  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐
上一篇:晋商风云     下一篇:国际投资简明教程