SPARK大数据技术与应用/赵红艳

首页 > 图书 > 教材教辅/2020-09-23 / 加入收藏 / 阅读 [打印]
SPARK大数据技术与应用/赵红艳

SPARK大数据技术与应用/赵红艳

作者:赵红艳 许桂秋

开 本:其他

书号ISBN:9787115503473

定价:

出版时间:2018-08-01

出版社:人民邮电出版社



4.6.2 广播变量 45

4.7 依赖关系 47

4.7.1 血统 47

4.7.2 宽依赖与窄依赖 47

4.7.3 shuffle 48

4.7.4 DAG的生成 49

4.8 Spark RDD的持久化 50

4.8.1 持久化使用方法 50

4.8.2 持久化存储等级 51

4.8.3 检查点 52

4.9 小结 52

习题 52

第5章 DataFrame与Spark SQL 54

5.1 DataFrame 54

5.1.1 DataFrame介绍 54

5.1.2 DataFrame创建 55

5.2 Spark SQL 56

5.2.1 Spark SQL介绍 56

5.2.2 Spark SQL的执行原理 57

5.2.3 Spark SQL的创建 58

5.3 Spark SQL、DataFrame的常用操作 61

5.3.1 字段计算 61

5.3.2 条件查询 62

5.3.3 数据排序 63

5.3.4 数据去重 63

5.3.5 数据分组统计 64

5.3.6 数据连接 65

5.3.7 数据绘图 67

5.4 小结 68

习题 69

第6章 Spark Streaming 70

6.1 Spark Streaming介绍 70

6.1.1 什么是Spark Streaming 70

6.1.2 Spark Streaming工作原理 70

6.2 流数据加载 71

6.2.1 初始化StreamingContext 71

6.2.2 Discretized Stream离散化流 71

6.2.3 Spark Streaming数据源 72

6.3 DStream输出操作 73

6.4 DStream转换操作 75

6.4.1 map转换 75

6.4.2 flatMap转换 76

6.4.3 filter转换 76

6.4.4 reduceByKey转换 77

6.4.5 count转换 77

6.4.6 updateStateByKey转换 77

6.4.7 其他转换 78

6.5 DataFrame与SQL操作 78

6.6 实时WordCount实验 79

6.7 小结 81

习题 81

第7章 Spark机器学习库 82

7.1 Spark机器学习库 82

7.1.1 机器学习简介 82

7.1.2 Spark机器学习库的构成 82

7.2 准备数据 83

7.2.1 获取数据 83

7.2.2 数据预处理 84

7.2.3 数据探索 84

7.3 使用MLlib机器学习库 85

7.3.1 搭建环境 85

7.3.2 加载数据 86

7.3.3 探索数据 89

7.3.4 预测婴儿生存机会 92

7.4 使用ML机器学习库 93

7.4.1 转换器、评估器和管道 94

7.4.2 预测婴儿生存率 95

7.5 小结 97

习题 97

第8章 GraphFrames图计算 98

8.1 图 98

8.1.1 度 99

8.1.2 路径和环 99

8.1.3 二分图 100

8.1.4 多重图和伪图 100

8.2 GraphFrames介绍 101

8.2.1 应用背景 101

8.2.2 GraphFrames库 102

8.2.3 使用GraphFrames库 102

8.3 GraphFrame编程模型 102

8.3.1 GraphFrame实例 103

8.3.2 视图和图操作 104

8.3.3 模式发现 105

8.3.4 图加载和保存 105

8.4 GraphFrames实现的算法 106

8.4.1 广度优先搜索 106

8.4.2 *短路径 106

8.4.3 三角形计数 107

8.4.4 连通分量 107

8.4.5 标签传播算法 108

8.4.6 PageRank算法 109

8.5 基于GraphFrames的网页排名 110

8.5.1 准备数据集 110

8.5.2 创建GraphFrames 111

8.5.3 使用PageRank进行网页排名 111

8.6 小结 111

习题 111

第9章 出租车数据分析 112

9.1 数据处理 112

9.2 数据分析 113

9.2.1 创建DataFrame 113

9.2.2 KMeans聚类分析 114

9.3 百度地图可视化 115

9.3.1 申请地图key 115

9.3.2 聚类结果可视化 116

9.4 小结 117

第10章 图书推荐系统 118

10.1 Django简介 118

10.1.1 Django是什么 118

10.1.2 ORM模型 119

10.1.3 Django模板 119

10.1.4 View视图 120

10.2 Django项目搭建 121

10.2.1 创建项目 121

10.2.2 创建应用 122

10.2.3 创建模型 122

10.3 推荐引擎设计 124

10.3.1 导入数据 124

10.3.2 训练模型 126

10.3.3 图书推荐 127

10.4 系统设计与实现 128

10.4.1 Bootstrap介绍与使用 128

10.4.2 Redis数据库安装与使用 129

10.4.3 视图与路由设计 130

10.5 小结 132

SPARK大数据技术与应用/赵红艳 作者简介

许桂秋,计算机学士,工商管理硕士。 2009年-2012年,中国石油天然气股份有限公司,负责项目管理工作,企业内部高级讲师; 2012年-2015年,曙光信息产业股份有限公司,负责项目管理与企业内部培训工作,企业内部高级讲师; 2016年至今,曙光瑞翼教育合作中心,教学运营总监,负责各高校合作项目部的具体运营管理及指导工作。

 2/3   首页 上一页 1 2 3 下一页 尾页

教材 研究生/本科/专科教材 工学

在线阅读

  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐