大数据技术与应用丛书SPARK大数据分析与实战
大数据技术与应用丛书SPARK大数据分析与实战作者:黑马程序员 开 本:其他 书号ISBN:9787302534327 定价: 出版时间:2018-03-01 出版社:清华大学出版社 |
大数据技术与应用丛书SPARK大数据分析与实战 本书特色
本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Spark框架开发流式计算系统。掌握Spark相关技术,能够很好地适应企业开发的技术需要,为离线、实时数据处理平台的开发奠定基础。 本书附有配套源代码、教学PPT、题库、教学视频、教学补充案例、教学设计等资源。为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,大数据课程的专用教材,是一本适合广大计算机编程爱好者的优秀读物。
大数据技术与应用丛书SPARK大数据分析与实战 内容简介
本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Spark框架开发流式计算系统。掌握Spark相关技术,能够很好地适应企业开发的技术需要,为离线、实时数据处理平台的开发奠定基础。 本书附有配套源代码、教学PPT、题库、教学视频、教学补充案例、教学设计等资源。为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,大数据课程的专用教材,是一本适合广大计算机编程爱好者的很好读物。
大数据技术与应用丛书SPARK大数据分析与实战 目录
目录第1章Scala语言基础1
1.1初识Scala1
1.1.1Scala概述1
1.1.2Scala的下载安装2
1.1.3在IDEA开发工具中下载安装
Scala插件4
1.1.4开发**个Scala程序6
1.2Scala的基础语法9
1.2.1声明值和变量9
1.2.2数据类型9
1.2.3算术和操作符重载10
1.2.4控制结构语句10
1.2.5方法和函数13
1.3Scala的数据结构15
1.3.1数组15
1.3.2元组18
1.3.3集合19
1.4Scala面向对象的特性24
1.4.1类与对象24
1.4.2继承25
1.4.3单例对象和伴生对象26
1.4.4特质28
1.5Scala的模式匹配与样例类29
1.5.1模式匹配30
1.5.2样例类31
1.6本章小结31
1.7课后习题32
第2章Spark基础33
2.1初识Spark33目录Spark大数据分析与实战
2.1.1Spark概述33
2.1.2Spark的特点34
2.1.3Spark应用场景35
2.1.4Spark与Hadoop对比36
2.2搭建Spark开发环境37
2.2.1环境准备37
2.2.2Spark的部署方式37
2.2.3Spark集群安装部署38
2.2.4Spark HA集群部署41
2.3Spark运行架构与原理45
2.3.1基本概念45
2.3.2Spark集群运行架构45
2.3.3Spark运行基本流程46
2.4体验**个Spark程序47
2.5启动Spark?Shell49
2.5.1运行Spark?Shell命令49
2.5.2运行Spark?Shell读取HDFS文件50
2.6IDEA开发WordCount程序52
2.6.1以本地模式执行Spark程序52
2.6.2集群模式执行Spark程序54
2.7本章小结58
2.8课后习题59
第3章Spark RDD弹性分布式数据集60
3.1RDD简介60
3.2RDD的创建方式61
3.2.1从文件系统加载数据创建RDD61
3.2.2通过并行集合创建RDD62
3.3RDD的处理过程63
3.3.1转换算子63
3.3.2行动算子67
3.3.3编写WordCount词频统计案例70
3.4RDD的分区71
3.5RDD的依赖关系71
3.6RDD机制73
3.6.1持久化机制73
3.6.2容错机制75
3.7Spark的任务调度76
3.7.1DAG的概念76
3.7.2RDD在Spark中的运行流程76
3.8本章小结78
3.9课后习题78
第4章Spark SQL结构化数据文件处理80
4.1Spark SQL的基础知识80
4.1.1Spark SQL的简介80
4.1.2Spark SQL架构81
4.2DataFrame的基础知识82
4.2.1DataFrame简介82
4.2.2DataFrame的创建83
4.2.3DataFrame的常用操作86
4.3Dataset的基础知识89
4.3.1Dataset简介89
4.3.2Dataset对象的创建89
4.4RDD转换为DataFrame90
教材 研究生/本科/专科教材 工学
在线阅读
- 最新内容
- 相关内容
- 网友推荐
- 图文推荐
[高考] 2022 西安电子科技大学《软件工程》大作业答案 (2022-04-25) |
[家长教育] 孩子为什么会和父母感情疏离? (2019-07-14) |
[教师分享] 给远方姐姐的一封信 (2018-11-07) |
[教师分享] 伸缩门 (2018-11-07) |
[教师分享] 回家乡 (2018-11-07) |
[教师分享] 是风味也是人间 (2018-11-07) |
[教师分享] 一句格言的启示 (2018-11-07) |
[教师分享] 无规矩不成方圆 (2018-11-07) |
[教师分享] 第十届全国教育名家论坛有感(二) (2018-11-07) |
[教师分享] 贪玩的小狗 (2018-11-07) |