Spark大数据处理_原理算法与实例

资源目录:

第1章从Hadoop到Spark

1.1Hadoop——大数据时代的火种

1.1.1大数据的由来

1.1.2Google解决大数据计算问题的方法

1.1.3Hadoop的由来与发展

1.2Hadoop的局限性

1.2.1Hadoop运行机制

1.2.2Hadoop的性能问题

1.2.3针对Hadoop的改进

1.3大数据技术新星——Spark

1.3.1Spark的出现与发展

1.3.2Spark协议族

1.3.3Spark的应用及优势

第2章体验Spark

2.1安装和使用Spark

2.1.1安装Spark

2.1.2了解Spark目录结构

2.1.3使用Spark Shell

2.2编写和运行Spark程序

2.2.1安装Scala插件

2.2.2编写Spark程序

2.2.3运行Spark程序

2.3Spark Web UI

2.3.1访问实时Web UI

2.3.2从实时UI查看作业信息

第3章Spark原理

3.1Spark工作原理

3.2Spark架构及运行机制

3.2.1Spark系统架构与节点角色

3.2.2Spark作业执行过程

3.2.3应用初始化

3.2.4构建RDD有向无环图

3.2.5RDD有向无环图拆分

3.2.6Task调度

3.2.7Task执行

第4章RDD算子

4.1创建算子

4.1.1基于集合类型数据创建RDD

4.1.2基于外部数据创建RDD

4.2变换算子

4.2.1对Value型RDD进行变换

4.2.2对Key/Value型RDD进行变换

4.3行动算子

4.3.1数据运算类行动算子

4.3.2存储型行动算子

4.4缓存算子

第5章Spark算法设计

5.1过滤

5.2去重计数

5.3相关计数

5.4相关系数

5.5数据联结

5.6Top—K

5.7K—means

5.8关联规则挖掘

5.9kNN

5.10朴素贝叶斯分类

第6章善用Spark

6.1合理分配资源

6.2控制并行度

6.3利用持久化

6.4选择恰当的算子

6.5利用共享变量

6.5.1累加器变量

6.5.2广播变量

6.6利用序列化技术

6.7关注数据本地性

6.8内存优化策略

6.9集成外部工具

参考文献

截图:

Spark大数据处理_原理算法与实例

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理