Hadoop大数据开发案例教程与项目实战
云计算教程

Hadoop大数据开发案例教程与项目实战

Hadoop大数据开发案例教程与项目实战  内容简介: 本书是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括第1~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS、计算系统MapReduce、计算模型Yarn、数据云盘。提高篇包括第7~11章,具体包括协调系统Zookeeper、Hadoop数据库Hbase、Hadoop数据仓库Hive、Hadoop数据采集Flume、OTA离线数据分析平台。全书内容结构合理,知识点全面,讲解详细,重点难点突出。 本书适合作为院校计算机及相关专业大数据课程的教材,也可供学习者自学参考。 资源目录: 基础篇 第1章 Hadoop概述 1 1.1 Hadoop简介 1 1.2 Hadoop相关项目 2 1.3 Hadoop来源 3 1.4 Hadoop的发展史 4 1.5 Hadoop特点 5 1.6 Hadoop体系架构 6 1.6.1 HDFS体系结构 7 1.6.2 MapReduce体系结构 7 本章小结 8 习题 8 第2章 Hadoop基础环境配置 9 2.1 准备Linux环境 9 2.1.1 安装VMware12虚拟机 9 2.1.2 部署CentOS 64位操作系统 11 2.2 Linux配置 16 2.2.1 什么是Linux 16 2.2.2 Linux发行版 16 2.2.3 配置网络 16 2.2.4 Linux终端 17 2.3 Hadoop环境搭建 21 2.3.1 JDK安装和测试 21 2.3.2 Hadoop安装和配置 25 2.3.3 SSH免密码配置 31 本章小结 33 习题 34 第3章 分布式存储HDFS 35 3.1 HDFS概念 35 3.1.1 HDFS简介 35 3.1.2 HDFS设计思路和理念 35 3.2 HDFS体系结构 36 3.3 HDFS文件存储机制 36 3.4 HDFS Shell介绍 39 3.4.1 命令格式 39 3.4.2 HDFS用户命令 40 3.4.3 HDFS管理员命令 40 3.5 Hadoop项目创建 47 3.6 RPC通信原理 53...
大数据技术原理与应用 概念、存储、处理、分析与应用
云计算教程

大数据技术原理与应用 概念、存储、处理、分析与应用

大数据技术原理与应用 概念、存储、处理、分析与应用  内容简介: 大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受关注。大数据处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业,都融入了大数据的印迹,大数据对人类的社会生产和生活必将产生重大而深远的影响。 大数据时代的到来,迫切需要高校及时建立大数据技术课程体系,为社会培养和输送一大批具备大数据专业素养的高级人才,满足社会对大数据人才日益旺盛的需求。本书定位为大数据技术入门教材,为读者搭建起通向“大数据知识空间”的桥梁和纽带。本书将系统梳理总结大数据相关技术,介绍大数据技术的基本原理和大数据主要应用,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域“深耕细作”奠定基础、指明方向。在本书的基础上,感兴趣的读者可以通过其他诸如《Hadoop权威指南》等工具书,继续深入学习和实践大数据相关技术。 资源目录: 第一篇大数据基础 第1章大数据概述 1.1大数据时代 1.1.1第三次信息化浪潮 1.1.2信息科技为大数据时代 提供技术支撑 1.1.3数据产生方式的变革促成 大数据时代的来临 1.1.4大数据的发展历程 1.2大数据的概念 1.2.1数据量大 1.2.2数据类型繁多 1.2.3处理速度快 1.2.4价值密度低 1.3大数据的影响 1.3.1大数据对科学研究的影响 1.3.2大数据对思维方式的影响 1.3.3大数据对社会发展的影响 1.3.4大数据对就业市场的影响 1.3.5大数据对人才培养的影响 1.4大数据的应用 1.5大数据关键技术 1.6大数据计算模式 1.6.1批处理计算 1.6.2流计算 1.6.3图计算 1.6.4查询分析计算 1.7大数据产业 1.8大数据与云计算、物联网 1.8.1云计算 1.8.2物联网 1.8.3大数据与云计算、物联网的关系 1.9本章小结 1.10习题 第2章大数据处理架构Hadoop 2.1概述 2.1.1Hadoop简介 2.1.2Hadoop的发展简史 2.1.3Hadoop的特性 2.1.4Hadoop的应用现状...
Hadoop大数据处理
云计算教程

Hadoop大数据处理

Hadoop大数据处理 内容简介: 《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。   《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。最后附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。   《Hadoop大数据处理》适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。 资源目录: 第1章 大数据处理概论 1 1.1 什么是大数据 2 1.2 数据处理平台的基础架构 5 1.3 大数据处理的存储 7 1.3.1 提升容量 7 1.3.2 提升吞吐量 11 1.4 大数据处理的计算模式 17 1.4.1 多处理技术 17 1.4.2 并行计算 20 1.5 大数据处理系统的容错性 26 1.5.1 数据存储容错 27 1.5.2 计算任务容错 28 1.6 大数据处理的云计算变革 30 本章参考文献 32 第2章 基于Hadoop的大数据处理架构 35 2.1 Google核心云计算技术 35 2.1.1 并行计算编程模型MapReduce 36 2.1.2 分布式文件系统GFS 38 2.1.3 分布式结构化数据存储BigTable 39 2.2 Hadoop云计算技术及发展 41 2.2.1 Hadoop的由来 41 2.2.2 Hadoop原理与运行机制 42 2.2.3 Hadoop相关技术及简介 45 2.2.4 Hadoop技术的发展与演进 47 2.3 基于云计算的大数据处理架构 48 2.4 基于云计算的大数据处理技术的应用 51 2.4.1 百度 51 2.4.2 阿里巴巴 56 2.4.3 腾讯 58 2.4.4 华为 60 2.4.5 中国移动 62 2.5 Hadoop运行实践 63 本章参考文献 64 第3章 MapReduce计算模式 66 3.1 MapReduce原理 66 3.2 MapReduce工作机制 69 3.2.1 MapReduce运行框架的组件 70 3.2.2 MapReduce作业的运行流程 70 3.2.3 作业调度 72 3.2.4 异常处理 73...
Hadoop 2.X HDFS源码剖析
云计算教程

Hadoop 2.X HDFS源码剖析

Hadoop 2.X HDFS源码剖析 内容简介: 《Hadoop 2.X HDFS源码剖析》以Hadoop 2.6.0源码为基础,深入剖析了HDFS 2.X中各个模块的实现细节,包括RPC框架实现、Namenode实现、Datanode实现以及HDFS客户端实现等。《Hadoop 2.X HDFS源码剖析》一共有5章,其中第1章从总体上介绍了HDFS的组件、概念以及典型的流程,同时详细介绍了HDFS各个组件间RPC接口的定义。第2章介绍了Hadoop RPC框架的实现,Hadoop RPC是HDFS各个组件间通信所依赖的底层框架,可以理解为HDFS的神经系统。第3~5章分别介绍了Namenode、Datanode以及HDFS客户端这三个组件的实现细节,同时穿插介绍了HDFS 2.X的新特性,例如Namenode HA、Federation Namenode等。 阅读《Hadoop 2.X HDFS源码剖析》可以帮助读者从架构设计与源码实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧以及编程规范等。这些对于读者全面提高自己的技术水平有很大的帮助。 资源目录: 第1章 HDFS 1 1.1 HDFS概述 1 1.1.1 HDFS体系结构 1 1.1.2 HDFS基本概念 2 1.2 HDFS通信协议 4 1.2.1 Hadoop RPC接口 4 1.2.2 流式接口 20 1.3 HDFS主要流程...
CloudStack入门指南
云计算教程

CloudStack入门指南

CloudStack入门指南 内容简介: 本书是国内第一本系统介绍CloudStack的专业书籍。   本书从历史发展、架构设计、安装配置、基本功能、开发入门等角度对CloudStack进行了全面的介绍。作为云计算IaaS平台,尽管CloudStack的安装非常简单,但其规划和安装对保证CloudStack系统稳定运行而言至关重要,很多用户正是在此部分遇到了大量问题,所以本书在安装部分下了较大笔墨,规划了一个简单、通用的场景,并对实际配置过程进行了详细介绍。   本书以深入浅出的方式介绍了CloudStack,能够为计划使用IaaS将现有IT设施迁移到云上的公司、数据中心及系统集成行业的相关人员进行系统选型和对比提供帮助。对于那些对CloudStack没有深入了解及在安装和使用上遇到困难的技术工程师、售前及售后支持工程师、学生等人员,本书能够为他们学习正确的CloudStack的安装和使用步骤,以及对CloudStack进行全面、系统的认识提供帮助。   本书是国内第一本系统介绍CloudStack的专业书籍。   本书从历史发展、架构设计、安装配置、基本功能、发门等角度对CloudStack行了全面的介绍。作为云计算IaaS平台,尽管CloudStack的安装非常简单,但其规划和安装对保证CloudStack系统稳定运行而言至关重要,很多用户正是在此部分遇到了大量问题,所以本书在安装部分下了较大笔墨,规划了一个简单、通用的场景,并对实际配置过程行了详细介绍。   本书以深浅出的方式介绍了CloudStack,能够为计划使用IaaS将现有IT设施迁移到云上的公司、数据中心及系统集成行业的相关人员行系统选型和对比提供帮助。对于那些对CloudStack没有深了解及在安装和使用上遇到困难的技术工程师、售前及售后支持工程师、学生等人员,本书能够为他们学习正确的CloudStack的安装和使用步骤,以及对CloudStack行全面、系统的认识提供帮助。 资源目录: 第1章 CloudStack简介………………………………………………………………….. 1 1.1 CloudStack的历史与发展……………………………………………………………………………….2 1.1.1 CloudStack的历史……………………………………………………………………………….2 1.1.2 CloudStack生态圈……………………………………………………………………………….3 1.1.3 CloudStack的路线规划………………………………………………………………………..4 1.2 如何加入CloudStack社区……………………………………………………………………………….5 1.2.1 CloudStack社区有哪些资源…………………………………………………………………5 1.2.2 如何使用邮件列表……………………………………………………………………………..6 1.2.3 如何成为Commitor…………………………………………………………………………..10 1.2.4 使用Transifex翻译Apache CloudStack文档…………………………………………..12 1.2.5 小结…………………………………………………………………………………………………19 1.3 CloudStack中国用户组…………………………………………………………………………………20 1.4 Apache基金会与Apache 2.0协议……………………………………………………………………22 第2章 CloudStack架构………………………………………………………………… 31 2.1 CloudStack的功能与特点……………………………………………………………………………..32 2.2 CloudStack系统的主要组成部分…………………………………………………………………..36 2.3 CloudStack的架构………………………………………………………………………………………..44 第3章 CloudStack的网络功能……………………………………………………… 49 3.1 网络即服务…………………………………………………………………………………………………50 3.2 网络类型…………………………………………………………………………………………………….51 3.2.1 公共网络………………………………………………………………………………………….51 3.2.2 来宾网络………………………………………………………………………………………….52 3.2.3 管理网络………………………………………………………………………………………….52 3.2.4 存储网络………………………………………………………………………………………….52 3.2.5 本地链路网络…………………………………………………………………………………..53 3.3 虚拟路由器…………………………………………………………………………………………………53 3.4 基础网络…………………………………………………………………………………………………….55 3.4.1 基础网络概述…………………………………………………………………………………..55 3.4.2 安全组……………………………………………………………………………………………..55 3.4.3 参考架构………………………………………………………………………………………….58 3.5 高级网络…………………………………………………………………………………………………….59 3.5.1 高级网络概述…………………………………………………………………………………..59...
云计算与分布式系统 从并行处理到物联网
云计算教程

云计算与分布式系统 从并行处理到物联网

云计算与分布式系统 从并行处理到物联网  内容简介: 随着信息技术的广泛应用和快速发展,云计算作为一种新兴的商业计算模型日益受到人们的广泛关注。本书是一本完整讲述云计算与分布式系统基本理论及其应用的教材。书中从现代分布式模型概述开始,介绍了并行、分布式与云计算系统的设计原理、系统体系结构和创新应用,并通过开源应用和商业应用例子,阐述了如何为科研、电子商务、社会网络和超级计算等创建高性能、可扩展的、可靠的系统。 本书特色  全面覆盖现代分布式计算技术,包括集群、网格、面向服务的体系结构、大规模并行处理器、对等网络和云计算。  提供的案例研究来自主流分布式计算供应商,如亚马逊、微软、谷歌等。  解释如何利用虚拟化来促进管理、调试、迁移和灾难恢复。  专为本科生或研究生的分布式系统课程而设计——每章后都配有习题和进一步阅读建议,并为教师提供配套的PPT等教辅资源。 资源目录: 出版者的话 中文版序 序 前言 第一部分系统建模、集群化和虚拟化 第1章分布式系统模型和关键技术 1.1互联网之上的可扩展计算 1.1.1互联网计算的时代 1.1.2可扩展性计算趋势和新的范式 1.1.3物联网和CPS 1.2基于网络的系统技术 1.2.1多核CPU和多线程技术 1.2.2大规模和超大规模GPU计算 1.2.3内存、外部存储和广域网 1.2.4虚拟机和虚拟化中间件 1.2.5云计算的数据中心虚拟化 1.3分布式和云计算系统模型 1.3.1协同计算机集群 1.3.2网格计算的基础设施 1.3.3对等网络家族 1.3.4互联网上的云计算 1.4分布式系统和云计算软件环境 1.4.1面向服务的体系结构(SOA) 1.4.2分布式操作系统趋势 1.4.3并行和分布式编程模型 1.5性能、安全和节能 1.5.1性能度量和可扩展性分析 1.5.2容错和系统可用性 1.5.3网络威胁与数据完整性 1.5.4分布式计算中的节能 1.6参考文献和习题 第2章可扩展并行计算集群...
Spark大数据处理_原理算法与实例
云计算教程

Spark大数据处理_原理算法与实例

Spark大数据处理_原理算法与实例 资源目录: 第1章从Hadoop到Spark 1.1Hadoop——大数据时代的火种 1.1.1大数据的由来 1.1.2Google解决大数据计算问题的方法 1.1.3Hadoop的由来与发展 1.2Hadoop的局限性 1.2.1Hadoop运行机制 1.2.2Hadoop的性能问题 1.2.3针对Hadoop的改进 1.3大数据技术新星——Spark 1.3.1Spark的出现与发展 1.3.2Spark协议族 1.3.3Spark的应用及优势 第2章体验Spark 2.1安装和使用Spark 2.1.1安装Spark 2.1.2了解Spark目录结构 2.1.3使用Spark Shell 2.2编写和运行Spark程序 2.2.1安装Scala插件 2.2.2编写Spark程序 2.2.3运行Spark程序 2.3Spark Web UI 2.3.1访问实时Web UI 2.3.2从实时UI查看作业信息 第3章Spark原理 3.1Spark工作原理 3.2Spark架构及运行机制 3.2.1Spark系统架构与节点角色 3.2.2Spark作业执行过程 3.2.3应用初始化 3.2.4构建RDD有向无环图 3.2.5RDD有向无环图拆分 3.2.6Task调度 3.2.7Task执行 第4章RDD算子 4.1创建算子 4.1.1基于集合类型数据创建RDD 4.1.2基于外部数据创建RDD 4.2变换算子...
写给大家看的大数据
云计算教程

写给大家看的大数据

写给大家看的大数据 内容简介: 大数据是当前信息科技领域最为炙手可热的话题之一。《写给大家看的大数据》简单而系统地介绍了大数据体系涉及的各方面知识,涵盖大数据的基本概念、大数据的技术基础、大数据管理、大数据分析、大数据在现实工作中如何实现和实施等关键内容,涉及大数据基础架构、大数据使用的数据库和分布式技术、对大数据进行基础分析和高级分析的特点及异同,以及企业如何应用大数据转变其商业运作模式等内容,能够对想要了解大数据全貌,或是想要使用大数据的企业和个人提供全面的知识内容和学习借鉴。 《写给大家看的大数据》语言生动,内容覆盖面广,理论结合实例,非常适合对大数据感兴趣的广大读者。对于从事与大数据相关工作的人员,本书也有很高的参考价值。 资源目录: 第一部分 大数据入门  第1章 大数据基础 第2章 研究大数据类型  第3章 当老古董遇上新生代:分布式计算 第二部分 大数据的技术基础  第4章 深入大数据技术组件  第5章 虚拟化及其如何支持分布式计算  第6章 云和大数据  第三部分 大数据管理  第7章 操作型数据库  第8章 MapReduce基础  第9章 探索Hadoop的世界  第10章 Hadoop基础和生态  第11章 设备和大数据仓库  第四部分 数据分析与大数据  第12章 定义大数据分析  第13章 理解文本分析和大数据  第14章 大数据分析的定制化 第五部分 大数据实现  第15章 集成数据源  第16章 处理实时数据流和复杂事件  第17章 可操作的大数据  第18章 在企业中应用大数据  第19章 大数据环境的安全和管理  第六部分 现实中的大数据解决方案  第20章 大数据对业务的重要性  第21章 从现实视角看数据分析  第22章 从现实视角看大数据分析对业务流程的优化  第23章 十条大数据最佳实践  第24章 十个大数据资源 第25章 十条“要”与“不要” 截图:
实战Hadoop 2.0:从云计算到大数据(第二版)
云计算教程

实战Hadoop 2.0:从云计算到大数据(第二版)

实战Hadoop 2.0:从云计算到大数据(第二版) 内容简介: 书是刘鹏教授主编的国内第一本Hadoop编程书籍《实战Hadoop》的第二版。Hadoop堪称业界最经典的源云计算和大数据平台软件。本书系统介绍了Hadoop 2.0生态圈的核心和扩展组件,包括:管理工具Ambari、分布式文件系统HDFS、分布式资源管理器YARN、分布式并行处理MapReduce、内存型计算框架Spark、数据流实时处理系统Storm、分布式锁服务ZooKeeper、分布式数据库HBase、数据仓库工具Hive,以及Pig、Oozie、Flume、Mahout等。 书是刘鹏教授主编的国内第一本Hadoop编程书籍《实战Hadoop》的第二版。Hadoop堪称业界最经典的源云计算和大数据平台软件。本书系统介绍了Hadoop 2.0生态圈的核心和扩展组件,包括:管理工具Ambari、分布式文件系统HDFS、分布式资源管理器YARN、分布式并行处理MapReduce、内存型计算框架Spark、数据流实时处理系统Storm、分布式锁服务ZooKeeper、分布式数据库HBase、数据仓库工具Hive,以及Pig、Oozie、Flume、Mahout等 截图: