基于Apache Kylin 构建大数据分析平台 

内容简介:

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

本书分为21章,详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发布KAP大数据分析平台,对读者有极大的参考价值。

本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用于高等院校和培训学校相关专业师生教学参考。

资源目录:

第一部分 Apache Kylin基础部分

第1章 Apache Kylin前世今生 3

1.1 Apache Kylin的背景 3

1.2 Apache Kylin的应用场景 3

1.3 Apache Kylin的发展历程 4

第2章 Apache Kylin前奏 7

2.1 事实表和维表 7

2.2 星型模型和雪花型模型 7

2.2.1 星型模型 7

2.2.2 雪花型模型 8

2.2.3 星型模型示例 8

2.3 OLAP 9

2.3.1 OLAP分类 9

2.3.2 OLAP的基本操作 10

2.4 数据立方体(Data Cube) 11

第3章 Apache Kylin 工作原理和体系架构 12

3.1 Kylin工作原理 12

3.2 Kylin体系架构 13

3.3 Kylin中的核心部分:Cube构建 15

3.4 Kylin的SQL查询 16

3.5 Kylin的特性和生态圈 16

第4章 搭建CDH大数据平台 18

4.1 系统环境和安装包 19

4.1.1 系统环境 19

4.1.2 安装包的下载 20

4.2 准备工作:系统环境搭建 21

4.2.1 网络配置(CDH集群所有节点) 21

4.2.2 打通SSH,设置ssh无密码登录(所有节点) 21

4.3 正式安装CDH:准备工作 29

4.4 正式安装CDH5:安装配置 30

4.4.1 CDH5的安装配置 30

4.4.2 对Hive、HBase执行简单操作 39

第5章 使用Kylin构建企业大数据分析平台的4种部署方式 41

5.1 Kylin部署的架构 41

5.2 Kylin的四种典型部署方式 42

第6章 单独为Kylin部署HBase集群 44

第7章 部署Kylin集群环境 58

7.1 部署Kylin的先决条件 58

7.2 部署Kylin集群环境 61

7.3 为Kylin集群搭建负载均衡器 70

7.3.1 搭建Nginx环境 70

7.3.2 配置Nginx实现Kylin的负载均衡 73

第二部分 Apache Kylin 进阶部分

第8章 Demo案例实战 77

8.1 Sample Cube案例描述 77

8.2 Sample Cube案例实战 78

8.2.1 准备数据 78

8.2.2 构建Cube 81

第9章 多维分析的Cube创建实战 89

9.1 Cube模型 89

9.2 创建Cube的流程 90

9.2.1 步骤一:Hive中事实表,以及多张维表的处理 90

9.2.2 步骤二:Kylin中建立项目(Project) 95

9.2.3 步骤三:Kylin中建立数据源(Data Source) 95

9.2.4 步骤四:Kylin中建立数据模型(Model) 98

9.2.5 步骤五:Kylin中建立Cube 104

9.2.6 步骤六:Build Cube 114

9.2.7 步骤七:查询Cube 118

第10章 Build Cube的来龙去脉 120

10.1 流程分析 120

10.2 小结 134

第三部分 Apache Kylin 高级部分

第11章 Cube优化 137

第12章 备份Kylin的Metadata 142

12.1 Kylin的元数据 142

12.2 备份元数据 143

12.3 恢复元数据 146

第13章 使用Hive视图 147

13.1 使用Hive视图 147

13.2 使用视图实战 149

第14章 Kylin的垃圾清理 153

14.1 清理元数据 153

14.2 清理存储器数据 154

第15章 JDBC访问方式 157

第16章 通过RESTful访问Kylin 161

第17章 Kylin版本之间升级 179

17.1 从1.5.2升级到最新版本1.5.3 179

17.2 从1.5.1升级到1.5.2版本 180

17.3 从Kylin 1.5.2.1升级到Kylin 1.5.3实战 181

17.4 补充内容 187

第18章 大数据可视化实践 189

18.1 可视化工具简述 189

18.2 安装Kylin ODBC驱动 190

18.3 通过Excel访问Kylin 192

18.4 通过Power BI访问Kylin 194

18.4.1 安装配置Power BI 194

18.4.2 实战操作 198

18.5 通过Tableau访问Kylin 199

18.6 Kylin + Mondrian + Saiku 205

18.7 实战演练:通过Saiku访问Kylin 211

18.7.1 第一个Schema例子:myproject_pvuv_cube的演示 211

18.7.2 第二个Schema例子:kylin_sales_cube的演示 219

18.7.3 Saiku使用的一些问题 223

18.8 通过Apache Zepplin访问Kylin 229

18.9 通过Kylin的“Insight”查询 232

第19章 使用Streaming Table 构建准实时Cube 236

第20章 快速数据立方算法 251

20.1 快速数据立方算法概述 251

20.2 快速数据立方算法优点和缺点 253

20.3 获取Fast Cubing算法的优势 254

第四部分 Apache Kylin的扩展部分

第21章 大数据智能分析平台KAP 257

21.1 大数据智能分析平台KAP概述 257

21.2 KAP的安装部署 259

截图:

基于Apache Kylin 构建大数据分析平台

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理