Hadoop技术内幕 深入理解MapReduce架构设计与实现原理
云计算教程

Hadoop技术内幕 深入理解MapReduce架构设计与实现原理

Hadoop技术内幕 深入理解MapReduce架构设计与实现原理 内容简介: 《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。 资源目录: 前 言 第一部分 基础篇 第1章 阅读源代码前的准备/ 2 1.1 准备源代码学习环境/ 2 1.1.1 基础软件下载/ 2 1.1.2 如何准备Windows环境/ 3 1.1.3 如何准备Linux环境/ 6 1.2 获取Hadoop源代码/ 7 1.3 搭建Hadoop源代码阅读环境/ 8 1.3.1 创建Hadoop工程/ 8 1.3.2 Hadoop源代码阅读技巧/ 9 1.4 Hadoop源代码组织结构/ 10 1.5 Hadoop初体验/ 13 1.5.1 启动Hadoop/ 13 1.5.2 Hadoop Shell介绍/ 15 1.5.3 Hadoop Eclipse插件介绍/ 15 1.6 编译及调试Hadoop源代码/ 19 1.6.1 编译Hadoop源代码/ 19 1.6.2 调试Hadoop源代码/ 20 1.7 小结/ 23 第2章 MapReduce设计理念与基本架构/...
Hadoop大数据分析与挖掘实战
云计算教程

Hadoop大数据分析与挖掘实战

Hadoop大数据分析与挖掘实战 内容简介: 《Hadoop大数据分析与挖掘实战》共14章,分三个部分:基础篇、实战篇、高级篇。基础篇介绍了数据挖掘、Hadoop大数据的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得大数据项目挖掘分析经验,同时快速领悟看似难懂的大数据分析与挖掘理论知识。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助TipDM-HB大数据挖掘建模平台,通过上机实验,以快速理解相关知识与理论。 资源目录: 前 言 基 础 篇 第1章 数据挖掘基础2 1.1 某知名连锁餐饮企业的困惑2 1.2 从餐饮服务到数据挖掘3 1.3 数据挖掘的基本任务4 1.4 数据挖掘建模过程4 1.4.1 定义挖掘目标4 1.4.2 数据取样5 1.4.3 数据探索6 1.4.4 数据预处理12 1.4.5 挖掘建模14 1.4.6 模型评价14 1.5 餐饮服务中的大数据应用15 1.6 小结15 第2章 Hadoop基础16 2.1 概述16 2.1.1 Hadoop简介16 2.1.2 Hadoop生态系统17 2.2 安装与配置19 2.3 Hadoop原理26 2.3.1 Hadoop HDFS原理26 2.3.2 Hadoop MapReduce原理27 2.3.3 Hadoop YARN原理28 2.4 动手实践30 2.5 小结33 第3章 Hadoop生态系统:Hive34 3.1 概述34 3.1.1 Hive简介34 3.1.2 Hive安装与配置35 3.2 Hive原理38 3.2.1 Hive架构38 3.2.2 Hive的数据模型40 3.3 动手实践41 3.4 小结45 第4章 Hadoop生态系统:HBase46 4.1 概述46 4.1.1 HBase简介46 4.1.2 HBase安装与配置47...
性能之巅 洞悉系统、企业与云计算
云计算教程

性能之巅 洞悉系统、企业与云计算

性能之巅 洞悉系统、企业与云计算 内容简介: 《性能之巅:洞悉系统、企业与云计算》基于Linux 和Solaris 系统阐述了适用于所有系统的性能理论和方法,Brendan Gregg 将业界普遍承认的性能方法、工具和指标收集于本书之中。阅读本书,你能洞悉系统运作的方式,学习到分析和提高系统与应用程序性能的方法,这些性能方法同样适用于大型企业与云计算这类最为复杂的环境的性能分析与调优。 资源目录: 第1 章 绪论 ………………………………………………………………………….. 1 第2 章 方法 ……………………………………………………………………………………………….. 13 第3 章 操作系统 ……………………………………………………………………………… 72 第4 章 观测工具 …………………………………………………………………………… 98 第5 章 应用程序 ………………………………………………………………………………… 131 第6 章 CPU ………………………………………………………………………………… 162 第7 章 内存 …………………………………………………………………………………………….. 228 第8 章...
Hadoop应用架构
云计算教程

Hadoop应用架构

Hadoop应用架构 内容简介: -使用Hadoop进行数据存储和建模的着眼点和思路 -将数据输入、输出系统的最佳方案 -MapReduce、Spark和Hive等数据处理框架介绍 -数据去重、窗口分析等常见Hadoop处理模式应用 -在Hadoop上采用Giraph、GraphX等图形处理工具 -综合使用工作流以及Apache Oozie等调度工具 -以Apache Oozie、Apache Spark Streaming和Apache Flume进行近实时流处理 -点击流分析、欺诈检验和数据仓库的架构案例 本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。 为加强训练,本书后半部分提供了详细的案例,涵盖最为常见的Hadoop应用架构。无论是设计Hadoop应用,还是将Hadoop同现有数据基础架构集成,本书都可以提供详实的参考。 资源目录: 版权声明 O'Reilly Media, Inc. 介绍 译者序 序 前言 第一部分 考虑 Hadoop 应用的架构设计 第 1 章 Hadoop 数据建模 第 2 章 Hadoop 数据移动 第 3 章 Hadoop 数据处理 第 4 章 Hadoop 数据处理通用范式...
Spark快速大数据分析
云计算教程

Spark快速大数据分析

Spark快速大数据分析 内容简介: 本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。 资源目录: 推荐序  xi 译者序  xiv 序  xvi 前言  xvii 第1章 Spark数据分析导论  1 1.1 Spark是什么  1 1.2 一个大一统的软件栈  2 1.2.1 Spark Core  2 1.2.2 Spark SQL  3 1.2.3 Spark Streaming  3 1.2.4 MLlib  3 1.2.5 GraphX  3 1.2.6 集群管理器  4 1.3 Spark的用户和用途  4 1.3.1 数据科学任务  4 1.3.2 数据处理应用  5 1.4 Spark简史  5 1.5 Spark的版本和发布  6 1.6 Spark的存储层次  6 第2章 Spark下载与入门  7 2.1 下载Spark  7 2.2 Spark中Python和Scala的shell  9 2.3 Spark 核心概念简介  12 2.4 独立应用  14 2.4.1 初始化SparkContext  15 2.4.2 构建独立应用  16 2.5 总结  19 第3章 RDD编程  21 3.1 RDD基础  21 3.2 创建RDD  23 3.3 RDD操作  24 3.3.1 转化操作  24 3.3.2 行动操作  26 3.3.3 惰性求值  27...
Hadoop核心技术
云计算教程

Hadoop核心技术

Hadoop核心技术 内容简介: 百度资深Hadoop技术专家和高级算法工程师撰写,结合百度大数据实践,直击企业痛点,多位大数据技术专家联袂推荐! 从使用、原理、运维和开发4个方面深度讲解Hadoop最核心的技术 这是一本技术深度与企业实践并重的著作,由百度顶尖的Hadoop技术工程师撰写,是百度Hadoop技术实践经验的总结。本书使用、实现原理、运维和开发4个方面对Hadoop的核心技术进行了深入的讲解: (1)使用:详细讲解了HDFS存储系统、MapReduce计算框架,以及HDFS的命令系统; (2)原理:结合源代码,深度分析了MapReduce、HDFS、Streaming、Pipes、Hadoop作业调度系统等重要技术和组件的架构设计、工作机制和实现原理; (3)运维:结合百度的实际生产环境,详细讲解了Hadoop集群的安装、配置、测试以及管理和运维; (4)开发:详细讲解了Hadoop Streaming、Pipes的使用和开发实践,以及MapReduce的编程实践和常见问题。 与市面上已有的Hadoop相比,本书的最大不同之处是它直切企业应用和实践Hadoop技术的痛点,深入讲解了企业最需要和最头疼的技术和问题,内容上非常聚焦。 资源目录: 前 言 基 础 篇 第1章 认识Hadoop 2 1.1 缘于搜索的小象 2 1.1.1 Hadoop的身世 2 1.1.2 Hadoop简介 3 1.1.3 Hadoop发展简史 6 1.2 大数据、Hadoop和云计算 7 1.2.1 大数据 7 1.2.2 大数据、Hadoop和云计算的关系 8 1.3 设计思想与架构 9 1.3.1 数据存储与切分 9 1.3.2 MapReduce模型 11 1.3.3 MPI和MapReduce 13 1.4 国外Hadoop的应用现状 13 1.5 国内Hadoop的应用现状 17 1.6 Hadoop发行版 20 1.6.1 Apache Hadoop...
Hadoop海量数据处理
云计算教程

Hadoop海量数据处理

Hadoop海量数据处理 内容简介: Hadoop是目前最受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深入探讨了Hadoop的运维和调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。 本书的最大特点是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。 本书由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。 截图:
Splunk大数据分析
云计算教程

Splunk大数据分析

Splunk大数据分析 内容简介: Splunk是一种典型的大数据处理工具,能够高效地按时序对数据进行存储、索引、访问,已广泛应用在多个领域。本书是介绍如何实时处理大数据并从中获得商业价值的一本实用指南。本书通过真实的大数据分析项目,从数据导入、访问、挖掘和可视化角度全面而系统地介绍Splunk的基本概念和使用方法,以帮助读者快速掌握Splunk。 全书共16章,分为四个部分:第一部分(第1~7章)介绍Splunk的基本操作,包括利用Splunk进行数据收集、处理、分析及结果可视化等的基本操作和命令,以及使用日志文件创建高级数据分析报表的方法;第二部分(第8~11章)使用“航空公司准点性能数据”介绍一个典型的数据分析案例,详细讲解如何运用Splunk深度挖掘现有数据仓库,并介绍一些新的Splunk命令和实用技巧;第三部分(第12~14章)详细介绍如何收集、处理、分析推文和Foursquare的签到信息等,涵盖分析社会化媒体流数据所需的知识;第四部分(第15~16章)详细介绍如何按需求扩展Splunk,以及分布式处理和高可用性的基本概念。此外,还包括两个附录,展示Splunk的性能以及各种可用的应用程序。 资源目录: 第1章 大数据和Splunk / 1 1.1 什么是大数据 / 1 1.2 非传统的数据处理技术 / 5 1.3 Splunk是什么 / 6 1.4 关于本书 / 7 第2章 将数据导入Splunk / 9 2.1 数据的多样性 / 9 2.2 Splunk如何处理多样化的数据 / 10 2.2.1 文件和目录 / 11 2.2.2 数据生成器 / 16 2.2.3 生成样本数据 / 17 2.2.4 网络资源 / 21 2.2.5 Windows数据 / 21 2.2.6 其他资源 /...
Hadoop集群与安全
云计算教程

Hadoop集群与安全

Hadoop集群与安全 内容简介: Hadoop自动化安装和配置的问题在于隐藏了许多Hadoop组件协同工作的重要细节,本书介绍如何手动安装和配置主要的Hadoop组件,以便高效使用Hadoop平台。通过设置一个完全可运行的集群,可对Hadoop内部的运行机制产生更深入的了解,并且有助于你调试任何可能发生的问题。本书还介绍了保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计,并包括在企业内部来确保Hadoop及其生态系统相关组件安全的详细方案。 资源目录: 第1章 导言 1.1 研究日本大众传播学发展脉络的现实背景 1.2 本书的写作视角 1.3 学界对日本大众传播学研究的现状分析 1.4 日本大众传播学研究发展脉络的研究方法 第2章 社会因素对大众传播学研究体系的影响 2.1 思想层面的要因 2.2 日本民族特征对学术研究的影响 第3章 日本大众传播学研究的发展历程 3.1 前大众传播学研究时期的新闻学研究(1929~1948) 3.2 大众传播研究时期(1949~1990) 3.3 社会信息学研究时期(1991~2003) 3.4 信息研究的学科融合时期(2004至今) 第4章 日本大众传播学理论研究的特征 4.1 日本大众传播学研究的理论源流 4.2 社会心理学取向的研究 4.3 大众社会论取向的研究 4.4 马克思主义取向的研究 第5章 扎根于日本社会的大众传播学研究——以灾害信息学研究为例 5.1 灾害信息学研究的开端 5.2 日本灾害信息学研究的历史脉络...
Spark内核设计的艺术架构设计与实现
云计算教程

Spark内核设计的艺术架构设计与实现

Spark内核设计的艺术架构设计与实现 内容简介: 本书赞誉 前言 第1章 环境准备 ········································1 1.1 运行环境准备 ···········································2 1.1.1 安装JDK ·········································2 1.1.2 安装Scala ········································2 1.1.3 安装Spark ·······································3 1.2 Spark初体验 ···································4 1.2.1 运行spark-shell ·······························4 1.2.2 执行word count ······························5 1.2.3 剖析spark-shell ·······························9 1.3 阅读环境准备 ·········································14 1.3.1 安装SBT ·······································15 1.3.2 安装Git ·········································15 1.3.3 安装Eclipse Scala IDE插件 ········15 1.4 Spark源码编译与调试 ·························17 1.5 小结 ···························23 第2章 设计理念与基本架构 ···············24 2.1 初识Spark ··································25 2.1.1 Hadoop MRv1的局限···················25 2.1.2 Spark的特点 ·································26 2.1.3...