大数据:正在到来的数据革命
云计算教程

大数据:正在到来的数据革命

大数据:正在到来的数据革命 内容简介: 入榜《亚洲周刊》“年度十大好书”,持续畅销;叫醒中国,领跑大数据时代最好的书。   中国高层人物汪洋,读后非常有启发,针对国人数据意识的淡薄由来已久,中国如何应对大数据时代的挑战,他在工作会议上说:“我希望大家能认真读一读这本书,带着问题读,带着想法读。”   哈佛大学商学院访问教授、全球顶尖管理咨询师达文波特,为中国政经两界提示智库建言:“无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重要的书。”   史学大家、匹兹堡大学历史系荣誉讲座教授许倬云,有感于“老大哥”的影子,专门作序:“我们要对涂子沛先生致敬与致谢,因为他为华文世界提出一个重要的话题。”   美国第一,中国第几?公布官员财产美国是怎么做的,美国能让少部人腐败起来吗,美国式上访是怎么回事,凭什么美国矿难那么少,全民医改美国做得到吗,美国总统大选有什么利器才能赢,下一轮全球洗牌我们世界工厂会被淘汰吗……   除了上帝,任何人都必须用数据来说话。   大数据浪潮,汹涌来袭,与互联网的发明一样,这绝不仅仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。现代管理学之父德鲁克有言,预测未来最好的方法,就是去创造未来。而“大数据战略”,则是当下领航全球的先机。   大数据,这一世界大潮的来龙去脉如何?数据技术变革,何以能推动政府信息公开、透明和社会公正?何以促发行政管理和商业管理革新,并创造无限商机?又何以既便利又危及我们每个人的生活?Google、百度之类搜索服务,何以会不再有立足之地?引领世界的数据帝国——美国和西欧,正在如何应对大数据时代?我们中国,又当如何作为?   本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等,为您一一细解,数据创新给公民、政府、社会带来的种种挑战和变革。   美国是全书主体,但又处处反观中国当下的现实。回望中国,胡适批评“差不多先生”,黄仁宇求索“数目字管理”,作者从太平洋对面看到中美两国的差距,深知中国缺少什么、需要什么,故将十多年观察、思索所得,又新增微学校、微学位等教育领域正在发生的革命,以及建言中国“大数据战略”的重要文章和访谈,淘洗成这本“2.0升级版”——   《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》。 资源目录: 序言一 大数据:为华文世界提出一个重要话题/许倬云 序言二 中国的雄心应该拓展到大数据领域/托马斯?H?达文波特 序 幕 新总统的第一天 一人一票:把“黑”人送进“白”宫 大国新政:阳光是最好的防腐剂 上 篇 帝国风云:得数据者得天下——美国的成功经验 第一章 历史争战《信息自由法》 第四股力量:知情权的起点 国会议员:孤独的战争 白宫当家人:一个妥协者和机动者 政府VS. 社会:旧剧情重现新时代 第二章 数据帝国的兴起 摩尔定律:全世界半个世纪的发展规律 最小数据集:上升到立法高度的开路先锋 民意几时有:选票催生的创新 普适计算:计算机本身将从人们的视线中消失 “大数据”战略:争夺全世界的下一个前沿 第三章 数据治国 循“数”管理:平安大道怎样铺 数据“验”平权:民权史上的碑石 数据“打”假:最大的争议就是福利滥用 CompStat...
Spark快速数据处理
云计算教程

Spark快速数据处理

Spark快速数据处理 内容简介: Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。   本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。 资源目录: 译者序 作者简介 前言 第1章 安装Spark以及构建Spark集群  1.1 单机运行Spark  1.2 在EC2上运行Spark  1.3 在ElasticMapReduce上部署Spark  1.4 用Chef(opscode)部署Spark  1.5 在Mesos上部署Spark  1.6 在Yarn上部署Spark  1.7 通过SSH部署集群  1.8 链接和参考  1.9 小结 第2章 Sparkshell的使用  2.1 加载一个简单的text文件  2.2 用Sparkshell运行逻辑回归  2.3 交互式地从S3加载数据  2.4 小结 第3章 构建并运行Spark应用  3.1 用sbt构建Spark作业  3.2 用Maven构建Spark作业  3.3 用其他工具构建Spark作业  3.4 小结 第4章 创建SparkContext  4.1 Scala  4.2 Java  4.3 Java和Scala共享的API  4.4 Python  4.5 链接和参考  4.6 小结 第5章 加载与保存数据  5.1 RDD  5.2 加载数据到RDD中  5.3 保存数据  5.4 连接和参考  5.5 小结 第6章 操作RDD  6.1 用Scala和Java操作RDD  6.2 用Python操作RDD  6.3 链接和参考  6.4 小结...
Hba se实战
云计算教程

Hba se实战

HBase实战 内容简介: HBase是一种NoSQL存储系统,专门设计用来快速随机读写大规模数据。HBase运行在普通商用服务器上,可以平滑扩展,以支持从中等规模到数十亿行、数百万列的数据集。  《HBase实战》是一本基于经验提炼而成的指南,它教给读者如何运用HBase设计、搭建及运行大数据应用系统。全书共分为4个部分。前两个部分分别介绍了分布式系统和大规模数据处理的发展历史,讲解HBase的基本原理模式设计以及如何使用HBase的高级特性;第三部分通过真实的应用和代码示例以及支持这些实践技巧的理论知识,进一步探索HBase的一些实用技术;第四部分讲解如何把原型开发系统升级为羽翼丰满的生产系统。  《HBase实战》适合所有对云计算、大数据处理技术和NoSQL数据库感兴趣的技术人员阅读,尤其适合对Hadoop及HBase感兴趣的技术人员参考。阅读《HBase实战》不要求之前具备HBase、Hadoop或者MapReduce方面的知识。 资源目录: 第一部分 HBase基础 第1章 HBase介绍 3 1.1 数据管理系统:速成 4 1.1.1 你好,大数据 5 1.1.2 数据创新 6 1.1.3 HBase的崛起 7 1.2 HBase使用场景和成功案例 8 1.2.1 典型互联网搜索问题:BigTable发明的原因 8 1.2.2 抓取增量数据 9 1.2.3 内容服务 12 1.2.4 信息交换 13 1.3 你好HBase 14 1.3.1 快速安装 14 1.3.2 HBase Shell命令行交互 16 1.3.3 存储数据 17 1.4 小结 18 第2章 入门 20 2.1 从头开始 21 2.1.1 创建表 21 2.1.2 检查表模式 22 2.1.3 建立连接 22 2.1.4 连接管理 23 2.2 数据操作 23 2.2.1 存储数据 24 2.2.2 修改数据 25 2.2.3 工作机制:HBase写路径 25 2.2.4 读数据 26 2.2.5 工作机制:HBase读路径 27 2.2.6 删除数据 28 2.2.7 合并:HBase的后台工作 28 2.2.8 有时间版本的数据 29 2.2.9 数据模型概括 30 2.3 数据坐标 31 2.4 小结 33 2.5 数据模型 37 2.5.1 逻辑模型:有序映射的映射集合 37 2.5.2 物理模型:面向列族 39 2.6 表扫描 40 2.6.1 设计用于扫描的表 41 2.6.2 执行扫描 42 2.6.3 扫描器缓存 43...
ZooKeeper分布式过程协同技术详解
云计算教程

ZooKeeper分布式过程协同技术详解

ZooKeeper分布式过程协同技术详解 内容简介: 本书分三部分,共10章。第一部分(第1~2章)阐述ApacheZooKeeper这类系统的设计目的和动机,并介绍分布式系统的一些必要背景知识。第1章介绍ZooKeeper可以做什么,以及其设计如何支撑这些任务。第2章介绍基本概念和基本组成模块,并通过命令行工具的具体操作介绍了ZooKeeper可以做什么。第二部分(第3~8章)阐述开发人员所需要掌握的ZooKeeper库调用方法和编程技巧。第3章介绍Java语言的API.第4章解释如何跟踪和处理ZooKeeper中的状态变更情况。第5章介绍如何在系统或网络故障时恢复应用。第6章介绍需要注意来避免故障的一些繁杂却很重要的场景。第7章介绍C语言版的API接口,也可以作为非Java语言实现的ZooKeeperAPI的基础,对非Java语言的开发人员非常有帮助。第8章介绍一款更高层级的封装的ZooKeeper接口。第三部分(第9~10章)主要介绍ZooKeeper内部原理及如何运行ZooKeeper.第9章介绍ZooKeeper的作者们在设计时所采用的方案。第10章介绍如何对ZooKeeper进行配置。 资源目录: 前言1 第一部分ZooKeeper的概念和基础 第1章简介7 1.1ZooKeeper的使命8 1.1.1ZooKeeper改变了什么10 1.1.2ZooKeeper不适用的场景10 1.1.3关于Apache项目11 1.1.4通过ZooKeeper构建分布式系统11 1.2示例:主—从应用12 1.2.1主节点失效13 1.2.2从节点失效14 1.2.3通信故障14 1.2.4任务总结15 1.3分布式协作的难点16 1.4ZooKeeper的成功和注意事项18 第2章了解ZooKeeper19 2.1ZooKeeper基础19 2.1.1API概述20 2.1.2znode的不同类型21 2.1.3监视与通知22 2.1.4版本24 2.2ZooKeeper架构25 2.2.1ZooKeeper仲裁26 2.2.2会话27 2.3开始使用ZooKeeper28 2.3.1第一个ZooKeeper会话28 2.3.2会话的状态和声明周期31 2.3.3ZooKeeper与仲裁模式33 2.3.4实现一个原语:通过ZooKeeper实现锁36 2.4一个主—从模式例子的实现37 2.4.1主节点角色37 2.4.2从节点、任务和分配40 2.4.3从节点角色40 2.4.4客户端角色41 2.5小结43 第二部分使用ZooKeeper进行开发 第3章开始使用ZooKeeper的API47 3.1设置ZooKeeper的CLASSPATH47 3.2建立ZooKeeper会话47 3.2.1实现一个Watcher49 3.2.2运行Watcher的示例51 3.3获取管理权53...
Hive编程指南
云计算教程

Hive编程指南

Hive编程指南 内容简介: 《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,最终演示Hive如何在Hadoop生态系统进行工作。   《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。 资源目录: 第1章 基础知识  1.1 Hadoop和MapReduce综述  1.2 Hadoop生态系统中的Hive  1.2.1 Pig  1.2.2 HBase  1.2.3 Cascading、Crunch及其他  1.3 Java和Hive:词频统计算法  1.4 后续事情  第2章 基础操作  2.1 安装预先配置好的虚拟机  2.2 安装详细步骤  2.2.1 装Java  2.2.2 安装Hadoop  2.2.3 本地模式、伪分布式模式和分布式模式  2.2.4 测试Hadoop  2.2.5 安装Hive  2.3 Hive内部是什么  2.4 启动Hive  2.5 配置Hadoop环境  2.5.1 本地模式配置  2.5.2 分布式模式和伪分布式模式配置  2.5.3 使用JDBC连接元数据  2.6 Hive命令  2.7 命令行界面  2.7.1 CLI 选项  2.7.2 变量和属性  2.7.3 Hive中“一次使用”命令  2.7.4 从文件中执行Hive查询  2.7.5 hiverc文件  2.7.6 使用Hive CLI的更多介绍  2.7.7 查看操作命令历史  2.7.8 执行shell命令  2.7.9 在Hive内使用Hadoop的dfs命令  2.7.10 Hive脚本中如何进行注释  2.7.11 显示字段名称  第3章 数据类型和文件格式  3.1 基本数据类型  3.2 集合数据类型 ...
Kafka并不难学!入门、进阶、商业实战
云计算教程

Kafka并不难学!入门、进阶、商业实战

Kafka并不难学!入门、进阶、商业实战 内容简介: 本书基于Kafka 0.10.2.0以上版本,采用“理论 实践”的形式编写。全书共68个实例。 全书共分为4篇: 第1篇,介绍了消息队列和Kafka、安装与配置Kafka环境; 第2篇,介绍了Kafka的基础操作、生产者和消费者、存储及管理数据; 第3篇,介绍了更高级的Kafka知识及应用,包括安全机制、连接器、流处理、监控与测试; 第4篇,是对前面知识的综合及实际应用,包括ELK套件整合实战、Spark实时计算引擎整合实战、Kafka Eagle监控系统设计与实现实战。 本书的每章都配有同步教学视频。视频和图书具有相同的结构,能帮助读者快速而全面地了解每章的内容。 本书还免费提供所有案例的源代码。这些代码不仅能方便读者学习,也能为以后的工作提供便利。 资源目录: ——第1篇  准备 第1章  了解消息队列和Kafka /2 1.1  本章教学视频说明 /2 1.2  消息队列 /2 ∟1.2.1  什么是消息队列 /3 ∟1.2.2  消息队列主要有哪些作用 /3 1.3  为什么需要Kafka /6 1.4  Kafka的基本概念 /7 ∟1.4.1  代理、生产者、消费者、消费者组 /7 ∟1.4.2  主题、分区、副本、记录 /8 1.5  了解Kafka的工作机制——生产消息 /消费消息...
精通Elastic Stack
云计算教程

精通Elastic Stack

精通Elastic Stack  内容简介: 本书系统论述了Exadata原理、架构及其实施运维实践。全书分为4章,分别对应Exadata实施运维中的四个不同主题。第1章为Exadata刷机安装,简要地介绍Exadata的历史和软硬件架构,为后续运维打好基础;  同时详细讲解Exadata的各种刷机工具、刷机方式和安装初始化步骤; *后手把手地教授如何搭建*版本的Exadata虚拟环境。第2章为Exadata管理工具,详尽地阐述Exadata运维相关的绝大部分管理工具。第3章为Exadata硬件更换,介绍Exadata的大部分易损硬件的更换工作。第4章为Exadata组件升级,详尽地讲解Exadata升级的方方面面以及组件之间的各种兼容及依赖关系,结合诸多的升级案例讲解Exadata存储软件版本变化带来的不同升级方式。本书适用于数据库管理员、数据库开发者、存储管理员、主机工程师、系统架构师、数据库爱好者。本书假定读者已经熟悉Oracle数据库,所以没有详细解释Oracle数据库的工作原理,除非数据库涉及Exadata相关的特性。由于Exadata是一个硬件和软件一体化的数据库平台,所以希望读者对Linux操作系统和网络方面的知识也有所了解。 资源目录: 第1章Elastic Stack概述1 1.1ELK Stack简介1 1.1.1Logstash2 1.1.2Elasticsearch3 1.1.3Kibana3 1.2Elastic Stack的诞生3 1.3谁在使用Elastic Stack?4 1.3.1Salesforce5 1.3.2CERN5 1.3.3Green Man Gaming5 1.4竞争者6 1.5设置Elastic Stack的使用环境6 1.5.1安装Java6 1.5.2安装Elasticsearch9 1.5.3安装Kibana12 1.5.4安装Logstash15 1.5.5安装Filebeat16 1.6XPack简介18 1.7本章小结19 第2章走进Elasticsearch20 2.1Elasticsearch的起源20 2.2了解Elasticsearch的体系结构22 2.2.1推荐的集群配置23 2.2.2了解文档处理24 2.3Elasticsearch API25 2.3.1有关文档的API25 2.3.2有关搜索的API38 2.3.3有关索引的API43 2.3.4Cat API51 2.3.5Cluster...
深入理解OpenStack Neutron
云计算教程

深入理解OpenStack Neutron

深入理解OpenStack Neutron 内容简介: 本书共8章。第1章讲解Neutron概况。第2章介绍了Linux的虚拟网络知识。第3章讲述了Neutron的实现模型。第4章讲述的Neutron的资源模型。第5章讲述了Neutron的基本架构,以及架构中所涉及的Web机制、通信机制、并发机制等。第6章深入介绍Neutron启动服务的流程、通信机制与实现等。第7章深入分析了Neutron插件的驱动、消息处理机制。第8章详细讲解了Neutron代理(OVS与L3)的实现。 资源目录: 序 前 言 第1章 Neutron概述 1 1.1 Neutron的由来 1 1.2 Neutron的特性与应用 3 1.2.1 基于OpenStack的应用 4 1.2.2 基于SDN的应用 6 1.3 Neutron的扩展能力 8 1.4 本章小结 9 第2章 Linux虚拟网络基础 11 2.1 tap 11 2.2 namespace 13 2.3 veth pair 16 2.4 Bridge 17 2.5 Router 19 2.6 tun 21 2.7 iptables 24 2.7.1 NAT 27 2.7.2 Firewall 30 2.7.3 mangle 32 2.8 本章小结 32...
从Lucene到Elasticsearch:全文检索实战
云计算教程

从Lucene到Elasticsearch:全文检索实战

从Lucene到Elasticsearch:全文检索实战 内容简介: 《从Lucene到Elasticsearch:全文检索实战》循序渐进介绍了信息检索、布尔检索、向量空间模型、tf-idf、BM25排序算法、Lucene架构、Lucene创建索引、Lucene查询、Lucene项目实战、Elasticsearch安装与配置、Elasticsearch插件安装、REST API数据操作、映射与模板、索引别名、Elasticsearch基本和高级搜索、Elasticsearch同步数据库、Elasticsearch集群管理、项目实战等内容。 阅读《从Lucene到Elasticsearch:全文检索实战》,读者能够掌握信息检索的核心概念,应用Lucene库处理全文检索业务,掌握Elasticsearch分布式搜索引擎的使用方法与技巧。 《从Lucene到Elasticsearch:全文检索实战》基于Lucene 6.0和Elasticsearch 5.4.0进行讲解,技术先进,示例丰富 适合想学习信息检索技术的初学者和相关专业的大学生、研究生学习,也很适合大数据及云计算平台构建人员以及有一定基础的IT开发人员使用。 资源目录: 第1章 信息检索模型 1 1.1 信息检索概述 1 1.1.1 信息过载 1 1.1.2 信息检索定义 2 1.1.3 信息检索常用术语 3 1.1.4 信息检索系统 4 1.2 分词算法 5 1.2.1 分词算法概述 5 1.2.2 词典匹配分词法 6 1.2.3 语义理解分词法 6 1.2.4 词频统计分词法 7 1.3 倒排索引 7...
云计算和物联网
云计算教程

云计算和物联网

云计算和物联网 内容简介: 本书阐述了云计算和物联网的理论知识,以及切实可行的实施步骤和技术,汇总了作者在实施环保物联云计算平台的实际经验,对于国内实施云计算和物联网具有重要的指导作用。   本书共11章,包括云计算和物联网介绍、基于物联网技术的云计算平台、云服务和服务接口、物联、云计算平台、云存储、云数据中心、云服务中心、门户服务、云计算平台管理等内容。   本书适合对云计算和物联网技术感兴趣的读者阅读,对行业软件平台的系统分析师和架构师而言是一本很好的技术参考;同时也可作为大学本科高年级和研究生相关课程及从事云计算和物联网研究与开发人员的参考资料。 资源目录: 第1章 云计算和物联网介绍  1.1 什么是云计算   1.1.1 it人员的定义   1.1.2 云计算的体系结构   1.1.3 商务人员的定义   1.1.4 公共云计算、私有云计算和传统it系统   1.1.5 云计算包含的内容   1.1.6 云计算的成本效益分析和收费模式   1.1.7 厂商的云计算战争  1.2 什么是物联网   1.2.1 物联网的定义   1.2.2 物联网与互联网的不同之处   1.2.3 物联网技术架构   1.2.4 物联网的开展步骤   1.2.5 物联网分类   1.2.6 物联网应用案例  1.3 云计算产业   1.3.1 云计算给小型it企业(或个人)带来的机会   1.3.2 云计算给国内大中型it企业带来的挑战   1.3.3 云计算给大型网站带来的机会   1.3.4 云计算给电信企业带来的机会和挑战   1.3.5 云计算和国内中小企业   1.3.6 云计算本身的挑战   1.3.7 云计算和开源模式  1.4 物联网产业  1.5 云计算和物联网的结合   1.5.1 数据采集和反控   1.5.2 云数据中心   1.5.3 云服务中心   1.5.4 企业2.0(enterprise2.0)   1.5.5 mashup  1.6 本书两个案例   1.6.1 巨正环保云计算平台   1.6.2 中网云计算平台  1.7 基于物联网的云计算平台的人员安排   1.7.1 需求分析和设计阶段   1.7.2 开发阶段   1.7.3 测试阶段   1.7.4 部署阶段   1.7.5 运行阶段...