SPARK大数据技术与应用/赵红艳

首页 > 图书 > 教材教辅/2020-09-23 / 加入收藏 / 阅读 [打印]
SPARK大数据技术与应用/赵红艳

SPARK大数据技术与应用/赵红艳

作者:赵红艳 许桂秋

开 本:其他

书号ISBN:9787115503473

定价:

出版时间:2018-08-01

出版社:人民邮电出版社

SPARK大数据技术与应用/赵红艳 本书特色

本书是关于大数据和Spark的实用手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理如何监控Spark应用等。

SPARK大数据技术与应用/赵红艳 内容简介

本书是关于大数据和Spark的实用手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理如何监控Spark应用等。

SPARK大数据技术与应用/赵红艳 目录

第1章 Spark简介与运行原理 1

1.1 Spark是什么 1

1.1.1 Spark的版本发展历程 2

1.1.2 Spark与Hadoop的区别与联系 2

1.1.3 Spark的应用场景 3

1.2 Spark的生态系统 3

1.3 Spark的架构与原理 4

1.3.1 Spark架构设计 4

1.3.2 Spark作业运行流程 5

1.3.3 Spark分布式计算流程 6

1.4 Spark 2.X新特性 6

1.4.1 精简的API 6

1.4.2 Spark作为编译器 7

1.4.3 智能化程度 7

1.5 小结 7

习题 8

第2章 Spark的环境搭建 9

2.1 环境搭建前的准备 9

2.2 Spark相关配置 13

2.2.1 安装SSH 13

2.2.2 SSH免密码登录 14

2.2.3 修改访问权限 15

2.2.4 修改profile文件 15

2.2.5 修改Spark配置文件 16

2.3 Spark集群启动与关闭 17

2.4 Spark应用提交到集群 18

2.5 Spark Web监控页面 19

2.6 小结 20

习题 20

第3章 使用Python开发Spark应用 21

3.1 Python编程语言 21

3.1.1 Python语言介绍 21

3.1.2 PySpark是什么 22

3.2 PySpark的启动与日志设置 22

3.2.1 PySpark的启动方式 22

3.2.2 日志输出内容控制 24

3.3 PySpark开发包的安装 24

3.3.1 使用pip命令安装 24

3.3.2 使用离线包安装 25

3.4 使用PyCharm编写Spark应用 25

3.4.1 PyCharm的安装与基本配置 25

3.4.2 编写Spark应用 27

3.5 小结 29

习题 30

第4章 Spark RDD 31

4.1 弹性分布式数据集 31

4.1.1 RDD的定义 31

4.1.2 RDD的特点 32

4.1.3 RDD的创建 33

4.1.4 RDD的操作 34

4.2 transform算子 34

4.2.1 map转换 34

4.2.2 flatMap转换 35

4.2.3 filter转换 35

4.2.4 union转换 35

4.2.5 intersection转换 36

4.2.6 distinct转换 36

4.2.7 sortBy转换 36

4.2.8 mapPartitions转换 36

4.2.9 mapPartitionsWithIndex转换 37

4.2.10 partitionBy转换 37

4.3 action算子 37

4.3.1 reduce(f)动作 37

4.3.2 collect( )动作 38

4.3.3 count( )动作 38

4.3.4 take(num)动作 39

4.3.5 first( )动作 39

4.3.6 top(num)动作 39

4.3.7 saveAsTextFile( )动作 39

4.3.8 foreach(f)动作 40

4.3.9 foreachPartition(f)动作 40

4.4 RDD Key-Value转换算子 41

4.4.1 mapValues(f)操作 41

4.4.2 flatMapValues(f)操作 41

4.4.3 combineByKey操作 41

4.4.4 reduceByKey操作 42

4.4.5 groupByKey操作 42

4.4.6 sortByKey操作 43

4.4.7 keys( )操作 43

4.4.8 values( )操作 43

4.4.9 join操作 43

4.4.10 leftOuterJoin操作 43

4.4.11 rightOuterJoin操作 44

4.5 RDD Key-Value动作运算 44

4.5.1 collectAsMap( )操作 44

4.5.2 countByKey( )操作 44

4.6 共享变量 45

4.6.1 累加器 45

 1/3    1 2 3 下一页 尾页

教材 研究生/本科/专科教材 工学

在线阅读

 1/3    1 2 3 下一页 尾页
  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐