数据架构 大数据、数据仓库以及DATA VAULT
云计算教程

数据架构 大数据、数据仓库以及DATA VAULT

数据架构 大数据、数据仓库以及DATA VAULT 内容简介: 本书是数据仓库之父Inmon的新作,探讨数据的架构和如何在现有系统中最有效地利用数据。本书的主题涵盖企业数据、大数据、数据仓库、Data Vault、业务系统和架构。主要内容包括:在分析和大数据之间建立关联,如何利用现有信息系统,如何导出重复型数据和非重复型数据,大数据以及使用大数据的商业价值,等等。 本书的读者对象包括数据工程技术人员、管理人员以及从事数据分析和研究的科研人员。 资源目录: 第1章 企业数据  1 1.1 企业数据  1 1.1.1 企业的全体数据  1 1.1.2 非结构化数据的划分  2 1.1.3 业务相关性  3 1.1.4 大数据  3 1.1.5 分界线  4 1.1.6 大陆分水岭  5 1.1.7 企业数据全貌  6 1.2 数据基础设施  6 1.2.1 重复型数据的两种类型  7 1.2.2 重复型结构化数据  7 1.2.3 重复型大数据  8 1.2.4 两种基础设施  9 1.2.5 优化了什么  10 1.2.6 对比两种基础设施  11 1.3 分界线  12 1.3.1 企业数据分类  12 1.3.2 分界线  12 1.3.3 重复型非结构化数据  13 1.3.4 非重复型非结构化数据  15 1.3.5 不同的领域  17 1.4 企业数据统计图  17 1.5 企业数据分析  22 1.6 数据的生命周期——随时间推移理解数据  27 1.7 数据简史  31 1.7.1 纸带和穿孔卡片  31 1.7.2 磁带  32 1.7.3 磁盘存储器  32 1.7.4 数据库管理系统  32 1.7.5 耦合处理器  33 1.7.6 在线事务处理  33 1.7.7 数据仓库  34 1.7.8 并行数据管理  34 1.7.9 Data Vault  35 1.7.10 大数据  35 1.7.11 分界线  35...
Spark零基础实战
云计算教程

Spark零基础实战

Spark零基础实战 内容简介: Spark是业界公认的近几年发展快、受关注度的一体化多元化的大数据计算技术,可以同时满足不同业务场景和不同数据规模的大数据计算的需要。 本书首先通过代码实战的方式对学习Spark前必须掌握的Scala内容进行讲解并结合Spark源码的阅读来帮助读者快速学习Scala函数式编程与面向对象完美结合的编程艺术,接着对Hadoop和Spark集群安装部署以及Spark在不同集成开发环境的开发实战作出了详细的讲解,然后基于大量的实战案例来讲解Spark核心RDD编程并深度解密RDD的密码,并且通过实战的方式详解了TopN在Spark RDD中的实现,为了让读者彻底了解Spark,本书用了大量的篇幅详细解密了Spark的高可用性、内核架构、运行机制等内容。 Spark零基础实战这本书定位于零基础的学员,也可以作为有一定大数据Hadoop经验的从业者以及对大数据非常感兴趣的学生的本Spark入门书籍。 截图:
用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用
云计算教程

用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用

用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用 内容简介: 如何能牢牢地黏住老用户、吸引新用户、读懂用户的偏好兴趣和喜怒哀乐,这都是对企业发展至关重要甚至关乎生死存亡的问题,解决这个问题的方法就是推荐系统。本书分为上中下三篇,共13章,上篇为用户画像知识工程基础,包括表征建模、画像计算、存储及各种更新维护等管理操作;中篇为推荐系统与用户画像,包括传统协同过滤等经典推荐算法的介绍,以及涉及用户画像的推荐方法;下篇为应用案例分析,包括Netflix、阿里等数据竞赛的经典数据案例,以及在具体工程开发过程的具体案例,分别从系统需求、总体结构、算法设计、运行流程及测试结果等五个方面提供详细案例指导。 资源目录: 上 篇 第1章 用户画像概述 3 1.1 用户画像数据来源 3 1.1.1 用户属性 5 1.1.2 用户观影行为 5 1.2 用户画像特性 5 1.2.1 动态性 5 1.2.2 时空局部性 6 1.3 用户画像应用领域 6 1.3.1 搜索引擎 6 1.3.2 推荐系统 7 1.3.3 其他业务定制与优化 7 1.4 大数据给用户画像带来的机遇与挑战 8 第2章 用户画像建模 9...
深入云计算:Hadoop应用开发实战详解(修订版)
云计算教程

深入云计算:Hadoop应用开发实战详解(修订版)

深入云计算:Hadoop应用开发实战详解(修订版) 内容简介: 本书由浅入深,全面、系统地介绍了Hadoop这一高性能处理大量数据集的理想工具。本书内容主要包括HDFS、MapReduce、Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop相关的子项目,各个知识点都配有精心设计的大量经典的小案例,实战性和可操作性强。 本书旨在帮助云计算初学者迅速掌握Hadoop系统,提升读者在云计算实践中的应用和开发能力。同时本书极强的系统性和大量翔实的案例对于有一定基础的中高级用户有非常好的参考价值 截图:
Hadoop安全:大数据平台隐私保护
云计算教程

Hadoop安全:大数据平台隐私保护

Hadoop安全:大数据平台隐私保护 内容简介: 《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。第1章是介绍性内容,随后分为四大部分:*部分是安全架构,第二部分是验证、授权和安全审计,第三部分是数据安全,第四部分是归纳总结。*后介绍了几个使用案例,融合了书中诸多概念。 《Hadoop安全 大数据平台隐私保护》适合对Hadoop感兴趣的读者,有大数据平台保护需求的读者。 资源目录: 序  xi 前言  xii 第1章 引言  1 1.1 安全概览  1 1.1.1 机密性  2 1.1.2 完整性  2 1.1.3 可用性  2 1.1.4 验证、授权和审计  3 1.2 Hadoop 安全:简史  5 1.3 Hadoop 组件和生态系统  5 1.3.1 Apache HDFS  6 1.3.2 Apache YARN  7 1.3.3 Apache MapReduce  8 1.3.4 Apache Hive  9 1.3.5 Cloudera Impala  9 1.3.6 Apache Sentry  10 1.3.7 Apache HBase  11 1.3.8 Apache Accumulo  11 1.3.9 Apache Solr  13 1.3.10 Apache Oozie  13 1.3.11 Apache ZooKeeper  13 1.3.12 Apache Flume  13 1.3.13 Apache Sqoop  14 1.3.14 Cloudera Hue  14 1.4 小结  14...
SaaS软件工程 云计算时代的敏捷开发
云计算教程

SaaS软件工程 云计算时代的敏捷开发

SaaS软件工程 云计算时代的敏捷开发 内容简介: 《SaaS软件工程:云计算时代的敏捷开发》介绍了 21世纪以来软件工程的两个新的发展方向——软件即服务和敏捷开发。本书第一部分介绍了软件即服务及其相关的编程环境,包括 Ruby、Rails和 Javascript等内容;第二部分介绍了现代软件开发并强调了敏捷开发相关技术,包括行为驱动和测试驱动的设计与开发,遗留代码处理,项目团队管理,设计模式,软件架构等内容,并给出了许多有用的建议。 本书的作者 Armando Fox和 David Patterson不仅在计算机科学领域建树颇丰,而且在软件工程方面也有着丰富的教学和研究实践经验。他们将软件即服务和敏捷开发的内容与具体的实例相结合,完成了这本内容丰富且易于学习的书。我们希望本书能够帮助你通过实践学到软件开发的知识与技能,并能开发出漂亮而持久的软件。 资源目录: 第1章 SaaS与敏捷开发介绍 1.1 简介 1.2 SaaS,软件即服务 1.3 面向服务的架构(SOA) 1.4 云计算 1.5 漂亮的代码与遗留代码 1.6 软件质量保证:测试 1.7 生产力:简明、综合、复用和工具 1.8 软件开发过程:计划和文档过程 1.9 软件开发过程:敏捷宣言 1.10 本书导览 1.11 如何阅读本书 1.12 谬论和陷阱 1.13 结束语:软件工程不只是单纯的编程 1.14 深入学习 1.15 建议的练习 第一部分...
Spark大数据处理:技术、应用与性能优化
云计算教程

Spark大数据处理:技术、应用与性能优化

Spark大数据处理:技术、应用与性能优化 内容简介: 这是一本依据最新技术版本,系统、全面、详细讲解Spark的著作,作者结合自己在微软和IBM的实践经验和对Spark源代码的研究撰写而成。首先从技术层面讲解了Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容;然后从应用角度讲解了一些简单的、有代表性的案例;最后对Spark的性能优化进行了探讨。 资源目录: 前 言 第1章 Spark简介 1 1.1 Spark是什么 1 1.2 Spark生态系统BDAS 4 1.3 Spark架构 6 1.4 Spark分布式架构与单机多核 架构的异同 9 1.5 Spark的企业级应用 10 1.5.1 Spark在Amazon中的应用 11 1.5.2 Spark在Yahoo!的应用 15 1.5.3 Spark在西班牙电信的应用 17 1.5.4 Spark在淘宝的应用 18 1.6 本章小结 20 第2章 Spark集群的安装与部署 21 2.1 Spark的安装与部署 21 2.1.1 在Linux集群上安装与配置Spark 21 2.1.2 在Windows上安装与配置Spark 30 2.2 Spark集群初试 33 2.3 本章小结 35 第3章 Spark计算模型 36 3.1 Spark程序模型 36 3.2 弹性分布式数据集 37...
Hadoop深度学习
云计算教程

Hadoop深度学习

Hadoop深度学习  内容简介: 本书主要目标是处理很多深度学习应用的热点问题并向读者披露解决方案的细节。主要内容分为7章:第1章介绍深度学习基础知识,第2章介绍大规模数据的分布式深度学习,第3章介绍卷积神经网络,第4章介绍循环神经网络,第5章介绍受限玻尔兹曼机,第6章介绍自动编码器,第7章介绍如何用Hadoop玩转深度学习。 资源目录: 第1章 深度学习介绍  1 1.1 开始深度学习之旅  5 1.1.1 深度前馈网络  6 1.1.2 各种学习算法  6 1.2 深度学习的相关术语  10 1.3 深度学习——一场人工智能革命  12 1.4 深度学习网络的分类  18 1.4.1 深度生成或无监督模型  19 1.4.2 深度判别模型  20 1.5 小结  22 第2章 大规模数据的分布式深度学习  23 2.1 海量数据的深度学习  24 2.2 大数据深度学习面临的挑战  27 2.2.1 海量数据带来的挑战(第一个V)  28 2.2.2 数据多样性带来的挑战(第二个V)  28 2.2.3 数据快速处理带来的挑战(第三个V)  29 2.2.4 数据真实性带来的挑战(第四个V)  29 2.3 分布式深度学习和Hadoop  29 2.3.1 Map-Reduce  31 2.3.2 迭代Map-Reduce  31 2.3.3 YARN  32 2.3.4 分布式深度学习设计的重要特征  32 2.4 深度学习的开源分布式框架Deeplearning4j  34 2.4.1 Deeplearning4j的主要特性  34 2.4.2 Deeplearning4j功能总结  35 2.5 在Hadoop YARN上配置Deeplearning4j  35 2.5.1 熟悉Deeplearning4j  36 2.5.2 为进行分布式深度学习集成Hadoop YARN和Spark  40 2.5.3 Spark在Hadoop YARN上的内存分配规则  40 2.6 小结  44 第3章 卷积神经网络  45 3.1 卷积是什么  46 3.2 卷积神经网络的背景  47 3.3 卷积神经网络的基本层  48 3.3.1 卷积神经网络深度的重要性  49 3.3.2 卷积层  49 3.3.3 为卷积层选择超参数  52 3.3.4 ReLU层  56 3.3.5 池化层  57...
基于Apache Kylin 构建大数据分析平台
云计算教程

基于Apache Kylin 构建大数据分析平台

基于Apache Kylin 构建大数据分析平台  内容简介: Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 本书分为21章,详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发布KAP大数据分析平台,对读者有极大的参考价值。 本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用于高等院校和培训学校相关专业师生教学参考。 资源目录: 第一部分 Apache Kylin基础部分 第1章 Apache Kylin前世今生 3 1.1 Apache Kylin的背景 3 1.2 Apache Kylin的应用场景 3 1.3 Apache Kylin的发展历程 4 第2章 Apache Kylin前奏 7 2.1 事实表和维表 7 2.2 星型模型和雪花型模型 7 2.2.1 星型模型 7 2.2.2 雪花型模型 8...
大数据架构商业之路:从业务需求到技术方案
云计算教程

大数据架构商业之路:从业务需求到技术方案

大数据架构商业之路:从业务需求到技术方案 内容简介: 目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。 资源目录: 推荐序一 推荐序二 前  言 第1章 抉择 1 第2章 数据收集 4 2.1 互联网数据收集 4 2.1.1 网络爬虫 5 2.1.2 Apache Nutch简介 11 2.1.3 Heritrix简介 14 2.2 内部数据收集 15 2.2.1 Apache Flume简介 17 2.2.2 Facebook Scribe和Logstash 21 2.3 本章心得 21 2.4 参考资料 22 第3章 数据存储 23 3.1 持久化存储 23 3.1.1 Hadoop和HDFS 25 3.1.2 HBase简介 28 3.1.3 MongoDB 35 3.2 非持久化存储 37 3.2.1 缓存和散列 37...