实战大数据
云计算教程

实战大数据

实战大数据 内容简介: “数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。 本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。 本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。 资源目录: 第一篇 大数据基础篇 第1章 大数据介绍 1.1 大数据相关概念 1.1.1 大数据的历史 1.1.2 大数据的定义 1.2 大数据研究内容 1.3 大数据研究现状 1.3.1 学术界现状 1.3.2 产业界现状 1.3.3 政府机构现状 1.4 大数据的应用领域 1.4.1 大数据在制造业的应用 1.4.2 大数据在服务业的应用 1.4.3 大数据在交通行业的应用 1.4.4 大数据在医疗行业的应用 1.5 本章小结 第2章 数据存储技术 2.1 数据存储技术介绍 2.2 数据采集与存储技术研究现状 2.2.1 传统关系型数据库...
大数据Spark企业级实战
云计算教程

大数据Spark企业级实战

大数据Spark企业级实战 内容简介: Spark是当今大数据领域最活跃、最热门、高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大开源项目之一。   在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心的计算平台。   《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。   《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。 资源目录: 第1章 Spark编程模型 1.1 Spark:一体化、多元化的高速 大数据通用计算平台和库 1.1.1 为什么需要使用Spark 1.1.2 Spark技术生态系统简介 1.2 Spark大数据处理框架 1.2.1 Spark速度为何如此之快 1.2.2 RDD:分布式函数式编程 1.3 Spark子框架解析 1.3.1 图计算框架Spark GraphX 1.3.2 实时流处理框架 (Spark Streaming) 1.3.3 交互式SQL处理框架 Spark SQL 1.3.4...
Apache Spark源码剖析
云计算教程

Apache Spark源码剖析

Apache Spark源码剖析 内容简介: 《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。 《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。 《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。 资源目录: 第一部分Spark概述1 第1章初识Spark 3 1.1 大数据和Spark 3 1.1.1 大数据的由来4 1.1.2 大数据的分析4 1.1.3 Hadoop 5 1.1.4 Spark简介6 1.2 与Spark的第一次亲密接触7 1.2.1 环境准备7 1.2.2 下载安装Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13 第2章Spark整体框架 15 2.1 编程模型15 2.1.1 RDD 17...
Storm技术内幕与大数据实践
云计算教程

Storm技术内幕与大数据实践

Storm技术内幕与大数据实践 内容简介:  《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。 资源目录: 第1章 绪论   1.1 Storm的基本组件    1.1.1 集群组成    1.1.2 核心概念    1.1.3 Storm的可靠性    1.1.4 Storm的特性   1.2 其他流式处理框架    1.2.1 Apache S4    1.2.2 Spark Streaming    1.2.3 流计算和Storm的应用  第2章 实时平台介绍   2.1 实时平台架构介绍   2.2 Kafka架构    2.2.1 Kafka的基本术语和概念    2.2.2 Kafka在实时平台中的应用    2.2.3 消息的持久化和顺序读写    2.2.4 sendfile系统调用和零复制    2.2.5 Kafka的客户端    2.2.6 Kafka的扩展   2.3 大众点评实时平台    2.3.1 相关数据    2.3.2 实时平台简介    2.3.3 Blackhole   2.4 1号店实时平台  第3章 Storm集群部署和配置   3.1 Storm的依赖组件   3.2 Storm的部署环境   3.3 部署Storm服务    3.3.1 部署ZooKeeper    3.3.2 部署Storm    3.3.3 配置Storm   3.4 启动Storm   3.5 Storm的守护进程   3.6 部署Storm的其他节点   3.7 提交Topology  第4章 Storm内部剖析   4.1 Storm客户端   4.2 Nimbus    4.2.1 启动Nimbus服务    4.2.2 Nimbus服务的执行过程 ...
深入理解Hadoop.第2版
云计算教程

深入理解Hadoop.第2版

深入理解Hadoop.第2版  内容简介: 本书作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。主要内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的关键概念,以及进行Hadoop平台管理的关键概念要素。第5章~第7章是本书的重点,深入分析了MapReduce框架,不仅包括MapReduce框架的API,还介绍MapReduce框架的更复杂概念及其设计理念。第8章~第14章介绍Hadoop生态系统,包括支持MapReduce程序的单元测试和集成测试框架、Hadoop系统的监控和日志系统、Hive框架、Pig和Crunch框架、HCatalog框架、Hadoop日志流处理、HBase等。第15章~第17章介绍了数据科学基本概念及应用、云计算实例、分布式下载服务实例等。 资源目录: 译者序 作者简介 前言 第1章为什么会有大数据1 第2章Hadoop中的概念13 第3章初识Hadoop框架34 第4章Hadoop系统管理51 第5章MapReduce开发基础78 第6章MapReduce开发进阶111 第7章 Hadoop输入/输出155 第8章 测试Hadoop程序186 第9章Hadoop的监控203 第10章使用Hadoop构建数据仓库215 第11章使用Pig进行数据处理238 第12章HCatalog和企业级Hadoop266 第13章使用Hadoop分析日志277 第14章使用HBase构建实时系统286 第15章Hadoop与数据科学317 第16章Hadoop与云计算334 第17章构建YARN应用程序349 附录A安装Hadoop 附录B使用Maven和Eclipse 附录CApache Ambari 截图:
高可用性的HDFS——Hadoop分布式文件系统深度实践
云计算教程

高可用性的HDFS——Hadoop分布式文件系统深度实践

高可用性的HDFS——Hadoop分布式文件系统深度实践 内容简介: 《高可用性的hdfs—hadoop分布式文件系统深度实践》专注于hadoop分布式文件系统(hdfs)的主流ha解决方案,内容包括:hdfs元数据解析、hadoop元数据备份方案、hadoopbackup node方案、avatarnode解决方案以及最新的ha解决方案cloudrea ha namenode等。其中有关backupnode方案及avatarnode方案的内容是本书重点,尤其是对avatarnode方案从运行机制到异常处理方案的步骤进行了详尽介绍,同时还总结了各种异常情况下avatarnode的各种处理方案。   《高可用性的hdfs—hadoop分布式文件系统深度实践》从代码入手并结合情景分析、案例解说对hdfs的元数据以及主流的hdfsha解决方案的运行机制进行了深入剖析,力求使读者在解决问题时做到心中有数,不仅知其然还知其所以然。   本书光盘包含本书部分操作的视频教程以及所有源代码、脚本等开发文件。   《高可用性的hdfs—hadoop分布式文件系统深度实践》读者主要为云计算相关领域的研发人员、云计算系统管理维护人员,也适合作为高校研究生和高年级本科生的专业课辅助教材。 资源目录: 第1章 hdfs ha及解决方案  1.1 hdfs系统架构  1.2 ha定义  1.3 hdfs ha原因分析及应对措施  1.3.1 可靠性  1.3.2 可维护性  1.4 现有hdfs ha解决方案  1.4.1 hadoop的元数据备份方案  1.4.2 hadoop的secondarynamenode方案  1.4.3 hadoop的checkpoint ode方案  1.4.4 hadoop的backupnode方案  1.4.5 drdb方案  1.4.6 facebook的avatarnode方案  1.5 方案优缺点比较 第2章 hdfs元数据解析  2.1 概述...
大数据存储MongoDB实战指南
云计算教程

大数据存储MongoDB实战指南

大数据存储MongoDB实战指南 内容简介: MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。 《大数据存储MongoDB实战指南》从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。 《大数据存储MongoDB实战指南》适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。 资源目录: 第一部分基础知识 第1章大数据与云计算 1.1什么是大数据 1.2什么是云计算 1.3大数据与云计算 1.4什么是MongoDB 1.5大数据与MongoDB 1.6MongoDB特点 1.7安装MongoDB 1.8几个重要的进程介绍 1.8.1mongod进程 1.8.2mongo进程 1.8.3其他进程 1.9适合哪些业务 1.10小结 第2章查询语言系统 2.1查询选择器 2.2查询投射 2.3数组操作 2.4小结 第3章索引与查询优化 3.1索引 3.1.1单字段索引 3.1.2复合索引 3.1.3数组的多键索引 3.1.4索引管理 3.2查询优化 3.3小结 第4章增改删操作 4.1插入语句 4.2修改语句 4.3删除语句 4.4小结 第二部分深入理解MongoDB 第5章Journaling日志功能 5.1两个重要的存储视图 5.2Journaling工作原理 5.3小结 第6章聚集分析 6.1管道模式进行聚集...
Spark核心技术与高级应用
云计算教程

Spark核心技术与高级应用

Spark核心技术与高级应用 内容简介: 本书共分为四大部分: 基础篇(1~10章)介绍了Spark的用途、扩展、安装、运行模式、程序开发、编程模型、工作原理,以及SparkSQL、SparkStreaming、MLlib、GraphX、Bagel等重要的扩展; 实战篇(11~14)讲解了搜索结果的排序、个性化推荐系统、日志分析系统、自然语言处理、数据挖掘等方面的案例; 高级篇(15~18)则讲解了Spark的调度管理、存储管理、监控管理、性能优化、最佳实践以及重点算法的解读; 扩展篇(19~20)讲解了Sparkjob-server和Tachyon。 资源目录: 前言 基础篇 第1章Spark简介2 第2章Spark部署和运行11 第3章Spark程序开发27 第4章编程模型44 第5章作业执行解析59 第6章SparkSQL与DataFrame73 第7章深入了解SparkStreaming97 第8章SparkMLlib与机器学习116 第9章GraphX图计算框架与应用148 第10章SparkR(RonSpark)167 实战篇 第11章大数据分析系统188 第12章系统资源分析平台200 第13章在Spark上训练LR模型215 第14章获取二级邻居关系图225 高级篇 第15章调度管理238 第16章存储管理254 第17章监控管理264 第18章性能调优273 第19章Spark—jobserver实践282 第20章SparkTachyon实战292 截图:
让云落地 云计算服务模式(SAAS、PAAS和IAAS)设计决策
云计算教程

让云落地 云计算服务模式(SAAS、PAAS和IAAS)设计决策

让云落地  云计算服务模式(SAAS、PAAS和IAAS)设计决策 内容简介: 云计算落地已成事实。从前几年的概念普及,到如今越来越多的企业将业务迁移至云上,云计算正在改变整个社会的信息资源使用观念和方式。云计算还在不断成长,技术细节也在不断变化之中。对于使用者而言,能够基于自身的业务、技术和组织需求等各方面情况,选择正确的云服务模式,是成功使用云计算最关键的技术决策之一。 《让云落地:云计算服务模式(SaaS、PaaS和IaaS)设计决策》共有 16 章,作者有意避开了那些与产品或供应商相关的细节,侧重于架构师及架构涉及各方应当解决的各种挑战,或者说如何以适当的解决方案来解决业务问题;通过对具体问题的分析和案例讲解,向读者提供了大量可供参考的设计决策,并对所有云架构中都必须应对的重点领域进行了强调说明。 对于每一位想要或正在实施云计算项目的首席技术官、企业架构师、产品经理和技术决策者,《让云落地:云计算服务模式(SaaS、PaaS和IaaS)设计决策》都是必读之作。 资源目录: 第1章 为什么是云计算,为什么是现在 1 1.1 云计算的进化 4 1.2 进入云 9 1.3 初创企业案例研究:Instagram,一夜之间,从0到10亿美元 10 1.4 成熟公司案例研究:Netflix,从本地向云端迁移 11 1.5 政府案例研究: NOAA、电子邮件,以及云端协作 13 1.6 非营利案例研究:奥巴马竞选运动,在线6个月,峰值仅几天 14 1.7 总结 14 第2章 云服务模式 17 2.1 基础设施即服务 17 2.2 平台即服务 20 2.3 软件即服务 23...