spark graphX实战
云计算教程

spark graphX实战

spark graphX实战 内容简介: 《Spark GraphX实战》是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少,《Spark GraphX实战》在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章,主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环境,有不少可以借鉴的技巧。 《Spark GraphX实战》面向对图计算感兴趣的读者,旨在帮助读者掌握Spark GraphX的相关知识及其应用。 资源目录: 序言 XI 致谢XIII 关于本书 XIV 关于封面插图 XVIII 第1部分 Spark和图 1 两项重要的技术:Spark和图 3 1.1 Spark:超越Hadoop MapReduce 4 1.1.1 模糊的大数据定义 6 1.1.2 Hadoop:Spark之前的世界 6 1.1.3 Spark:内存中的 MapReduce处理 7 1.2 图:挖掘关系中的含义 9 1.2.1 图的应用 11 1.2.2 图数据的类型 12 1.2.3 普通的关系型数据库在图方面的不足 14 1.3 把快如闪电的图处理放到一起:Spark GraphX 14 1.3.1 图的属性:增加丰富性 15 1.3.2 图的分区:当图变为大数据集时 17...
视觉大数据基础与应用
云计算教程

视觉大数据基础与应用

视觉大数据基础与应用 内容简介: 《视觉大数据基础与应用》是视频大数据处理领域的著作。为使读者全面了解海量视频分析与搜索的基础知识及应用方法,本书首先介绍海量视频概论、海量视频模型、海量视频管理和海量视频分析等相关基础知识,然后具体阐述面向大数据的大规模人脸搜索系统、面向高清卡口的车辆车牌与车标等信息搜索系统、暴力行为检测系统、可疑行为检测系统、海量视频摘要系统和海量视频管控平台等典型的海量视频分析与搜索实例,并将海量视频分析与搜索领域的新技术和新成果贯穿于全文的描述之中。 《视觉大数据基础与应用》主要适用于从事海量视频分析与处理领域的应用开发和工程施工技术人员阅读。 资源目录: 第1章 海量视频概述 1.1 视觉大数据 1.2 关键技术 1.3 应用领域 1.4 挑战与发展 第2章 海量视频模型 2.1 hsv颜色模型 2.2 肤色模型 2.3 形状模型 2.4 人体可变形模型 2.5 混合高斯模型 2.6 概率图模型 2.7 感兴趣区域模型(roi) 2.8 视觉显著性模型 2.9 多分辨率模型 2.10 视觉词袋模型 2.11 视频语义模型 第3章 海量视频管理 3.1 视频数据库 3.1.1 海量视频数据 3.1.2 面向对象的海量视频数据库 3.2 集中式视频数据库 3.3 分布式视频数据库 3.3.1 基于hadoop的视频数据库 3.3.2 mapreduce模型 3.4 博世视频管理系统 3.5 微博视频管理系统 3.6 vod视频点播及管理系统 第4章 海量视频分析 4.1 harris描述子 4.2 sift描述子 4.3 k均值聚类方法 4.4 k近邻法 4.5 svm方法 4.6 bp网络 4.7 多感知器模型 4.8 卷积神经网络(cnn) 4.9 adaboost方法 4.10 模拟退火方法 4.11 遗传方法 第5章 大规模人脸搜索系统...
PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署
云计算教程

PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署

PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 内容简介: 本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。 资源目录: 译者序 序 前言 关于作者 第1章 了解Spark 1 1.1 什么是Apache Spark 1 1.2 Spark作业和API 2 1.2.1 执行过程 2 1.2.2 弹性分布式数据集 3 1.2.3 DataFrame 4 1.2.4 Dataset 5 1.2.5 Catalyst优化器 5 1.2.6 钨丝计划 5 1.3 Spark 2.0的架构 6 1.3.1 统一Dataset和DataFrame 7 1.3.2 SparkSession介绍 8 1.3.3 Tungsten Phase 2 8 1.3.4 结构化流 10 1.3.5 连续应用 10 1.4 小结 11 第2章 弹性分布式数据集 12...
Hadoop MapReduce实战手册
云计算教程

Hadoop MapReduce实战手册

Hadoop MapReduce实战手册  内容简介: 这是一本学习Hadoop MapReduce的一站式指南,完整介绍了Hadoop生态体系,包括Hadoop平台安装、部署、运维等,Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是,书中包含丰富的示例和多样的实际应用场景,以一种简单而直接的方式呈现了90个实战攻略,并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起,依次介绍了高级HDFS,高级Hadoop MapReduce管理,开发复杂的Hadoop MapReduce应用程序,Hadoop的生态系统,统计分析,搜索与索引,聚类、推荐和寻找关联,海量文本数据处理,云部署等内容。 资源目录: 第1章 搭建Hadoop并在集群中运行 1 1.1 简介 1 1.2 在你的机器上安装Hadoop 2 1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 3 1.4 给WordCount MapReduce程序增加combiner步骤 8 1.5 安装HDFS 9 1.6 使用HDFS监控UI 14 1.7 HDFS的基本命令行文件操作 15 1.8 在分布式集群环境中设置Hadoop 17 1.9 在分布式集群环境中运行WordCount程序 22 1.10 使用MapReduce监控UI 24 第2章 HDFS进阶 26 2.1...
触手可及的大数据分析工具:Tableau案例集
云计算教程

触手可及的大数据分析工具:Tableau案例集

触手可及的大数据分析工具:Tableau案例集 内容简介: 《触手可及的大数据分析工具:Tableau案例集》对Tableau的产品、优势、Tableau 9.0的新特性及其功能做了全面的介绍,并且从15个不同行业的案例入手,让你在阅读本书后能够从一个新手成长为能够创建出复杂仪表板的高手。 《触手可及的大数据分析工具:Tableau案例集》分为五个部分共14章:Tableau使用概述、新手上路、成功晋级、高手秘籍以及实际应用。 Tableau使用概述包含四章,分别从为何要进行数据可视化、Tableau的发展历程、Tableau的产品介绍、Tableau 9.0的新特性、Tableau的应用优势以及如何利用Tableau进行数据连接和了解工作区几个方面做了详尽的阐述。 新手上路包含两章,该部分以各行业案例为依托,带你从Tableau的排序、筛选、分层和分组、参数和函数等方面来全面了解Tableau 9.0的新功能。 成功晋级包含四章,分别从不同行业的案例入手介绍Tableau的高级功能。 高手秘籍包含三章,该部分介绍如何利用Tableau中的颜色和形状进行异常值检测、如何利用背景图像进行货架分析以及如何使用Tableau中的超级链接使用WMS地图服务和动态调用外部网页。 实际应用自成一章包含八个数据可视化分析实例,全面展示Tableau进行数据可视化分析的各种技术细节和实用技巧。 《触手可及的大数据分析工具:Tableau案例集》对于初次接触Tableau软件的读者会有很大帮助,书中对Tableau创建可视化视图的每一步操作都有详尽的说明。如果你是Tableau软件的老用户,《触手可及的大数据分析工具:Tableau案例集》中不同行业案例的可视化分析和展现方式也会给你带来全新的思路和视角。 资源目录: 第1部分 Tableau使用概述 第1章数据可视化2 1.1 用数据讲故事2 1.2 数据不只是数字3 1.3 在数据中寻找什么3 1.4 本章小结5 第2章 Tableau概述6 2.1 Tableau的发展历程6 2.2 Tableau产品简介7 2.2.1 Tableau Desktop7 2.2.2 Tableau Server9 2.2.3 Tableau Online9 2.2.4 Tableau Reader9 2.2.5 Tableau Public9...
云计算网络珠玑
云计算教程

云计算网络珠玑

云计算网络珠玑 内容简介: 《云计算网络珠玑》着眼于讲解云计算网络虚拟化中所用到的网络技术原理,重点展示以太网及TCP/IP网络中各种技术内在的关联脉络,包括从传统的MAC、IP、安全和QoS等到新兴的Trill、LISP、DPI和CDN等技术,从以太网交换机的二层转发、三层路由和Linux的TCP/IP协议栈到MAC-in-MAC、VXLAN和Neutron等新方案,以及从传统的数据中心三层架构到扁平化大二层和SDN/NFV等新架构。另外,本书对一些网络新技术和新方案(如SR-IOV、Openflow、DPDK、Serverswitch等)也进行了阐述,并讨论了在若干技术问题上网络的发展趋势。 《云计算网络珠玑》内容囊括了以太网和TCP/IP网络技术的每个方面,并选择大量的实例进行详细描述,其中每个技术点和实例都是经过精心选择的,既兼顾网络技术发展的顺序,也遵循TCP/IP网络四层从下到上的划分;另外,还从当前的技术热点上选取了SDN、Openflow、VXLAN等新兴技术的发展现状和发展趋势进行详细剖析,便于读者在逻辑思维上顺畅地理解,并向读者提供了一条快速掌握网络技术的学习途径。通览全书后,读者可以尽快建立自己在网络方面的技术知识体系。 资源目录: 第1部分 网络基本原理 第1章 TCP/IP网络技术 3 1.1 信息网络 6 1.2 以太网技术 12 1.3 网络传输设备 15 1.4 MAC和VLAN 18 1.5 MAC-in-MAC 22 1.6 STP和Trill 25 1.7 IP技术 29 1.7.1 IP地址 30 1.7.2 IP报文格式简介 32 1.7.3 TCP和UDP 34 1.7.4 TCP与UDP检验和 39 1.8 DNS和DHCP 39...
拥抱大数据新常态下的数据分析典型案例
云计算教程

拥抱大数据新常态下的数据分析典型案例

拥抱大数据新常态下的数据分析典型案例 内容简介: 本书首先介绍了大数据的由来与数据分析师的职业前景,概述了大数据的特点及其分析方法,引发读者对数据分析师的向往。然后介绍了如今最流行的近三十种大数据算法,每种算法都附有一个成功的商业案例,通过案例深入分析每种算法的长处、缺点、适用范围等,使读者不仅知其然,更知其所以然。 该书比介绍大数据类的书籍具有更多的理论知识,比各种算法的教科书含有更多的实际应用,是两者的绝妙过渡,适合对大数据有一定了解的读者,可以帮助读者在短时间内深入学习大数据分析的算法体系,并进一步帮助读者挑选需要精学的、适合自己的算法。 资源目录: 第一章 为什么市场需要数据分析师 1.1 大数据的前世今生 1.2 大数据的具体定义 1.3 数据分析行业现状及巨大缺口 第二章 什么是数据分析师 2.1 明确两个概念 2.2 从四份招聘简历说起 2.2.1 第一份招聘简历要求 2.2.2 第二份招聘简历要求 2.2.3 第三份招聘简历要求 2.2.4 第四份招聘简历要求 2.3 数据分析师常见专业出身 2.3.1 数学与应用数学、统计学专业 2.3.2 经济管理类专业 2.3.3 计算机理论类专业 2.3.4 计算机应用类专业 2.3.5 其他专业 2.4 数据分析师可从事行业 2.4.1 互联网行业 2.4.2 制造行业 2.4.3...
R与Hadoop大数据分析实战
云计算教程

R与Hadoop大数据分析实战

R与Hadoop大数据分析实战 内容简介: 本书全面而系统地讲解了如何将R语言与Hadoop技术结合并应用于大数据分析,不仅系统且深入地阐释了R与Hadoop集成技术的工具、方法、原则和最佳实践,而且通过大量实践案例深入剖析各种常见问题,能为用户高效利用R语言与Hadoop技术进行大数据处理提供翔实指导。 全书分为四部分,共7章:第一部分(第1~2章)是基础知识,主要讲解R语言以及Hadoop的安装过程、计算原理和基本概念;第二部分(第3~4章)是初级应用,主要讲解RHIPE、RHadoop和streaming三种实现方案;第三部分(第5~6章)是高级实例,主要以RHadoop为技术背景,讲解多个实际应用案例;第四部分(第7章)介绍数据库连接,主要讲解在RHadoop下如何与各类数据库进行连接。 资源目录: 译者序 前言 审校者简介 致谢 第1章 R和Hadoop入门 1 1.1 安装R 2 1.2 安装RStudio 3 1.3 R语言的功能特征 3 1.3.1 使用R程序包 3 1.3.2 执行数据操作 3 1.3.3 日渐增多的社区支持 4 1.3.4 R语言数据建模 4 1.4 Hadoop的安装 5 1.4.1 不同的Hadoop模式 6 1.4.2 Hadoop的安装步骤 6 1.5 Hadoop的特点 12 1.5.1 HDFS简介 13 1.5.2 MapReduce简介 13 1.6 HDFS和MapReduce架构 14 1.6.1 HDFS架构 14 1.6.2 MapReduce架构 15 1.6.3 通过图示了解HDFS和MapReduce架构 15 1.7 Hadoop的子项目...
大数据处理系统:Hadoop源代码情景分析
云计算教程

大数据处理系统:Hadoop源代码情景分析

大数据处理系统:Hadoop源代码情景分析 内容简介: Hadoop是目前重要的一种开源的大数据处理平台,读懂Hadoop的源代码,深入理解其各种机理,对于掌握大数据处理的技术有着显而易见的重要性。 本书从大数据处理的原理开始,讲到Hadoop的由来,进而讲述对于代码的研究方法,然后以Hadoop作为样本,较为详尽地逐一分析大数据处理平台各核心组成部分的代码,并从宏观上讲述这些部分的联系和作用。 本书沿用作者独特而广受欢迎的情景分析方法和风格,深入浅出直白易懂,可以作为大数据系统高级课程的教材,也可用作计算机软件专业和其他相关专业大学本科高年级学生和研究生深入学习大数据系统的参考书。同时,还可以作为各行业从事软件开发和数据挖掘的工程师、研究人员以及其他对大数据处理技术感兴趣者的自学教材。 资源目录: 第1章 大数据与Hadoop 1.1 什么是大数据 1.2 大数据的用途 1.3 并行计算 1.4 数据流 1.5 函数式程序设计与Lambda演算 1.6 MapReduce 1.7 大数据处理平台 1.8 Hadoop的由来和发展 1.9 Hadoop的MapReduce计算框架 1.10 Hadoop的分布式容错文件系统HDFS 第2章 研究方法 2.1 摘要卡片 2.2 情景分析 2.3 面向对象的程序设计 2.4 怎样阅读分析Hadoop的代码 第3章 Hadoop集群和YARN 3.1 Hadoop集群 3.2 Hadoop系统的结构 3.3 Hadoop的YARN框架...