拥有 大数据 标签的文章 共 55 条数据

大数据架构详解:从数据获取到深度学习 朱洁著 PDF下载
编程书籍

大数据架构详解:从数据获取到深度学习 朱洁著 PDF下载

133次浏览 0条评论

《大数据架构详解:从数据获取到深度学习》从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。《大数据架构详解:从数据获取到深度学习》内容深入浅出,技术结合实践,从实践中理解架构和技术的本质,适合大数据技术领域的从业人员如架构师、工程师、产品经理等,以及准备学习相关领域知识的学生和老师阅读。第一部分 大数据的本质 第1章 大数据是什么 2 1.1 大数据导论 2 1.1.1 大数据简史 2 1.1.2 大数据现状 3 1.1.3 大数据与BI 3 1.2 企业数据资产 4 1.3 大数据挑战 5 1.3.1 成本挑战 6 1.3.2 实时性挑战 6 1.3.3 安全挑战 6 1.4 小结 6 第2章 运营商大数据

大数据存储MongoDB实战指南:针对实战全新打造 践行NoSQL 大数据存储处理的权威指南 郭远威著 PDF下载
编程书籍

大数据存储MongoDB实战指南:针对实战全新打造 践行NoSQL 大数据存储处理的权威指南 郭远威著 PDF下载

102次浏览 0条评论

MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。《大数据存储MongoDB实战指南》从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。《大数据存储MongoDB实战指南》适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。第一部分基础知识 第1章大数据与云计算 1.1什么是大数据 1.2什么是云计算 1.3大数据与云计算 1.4什么是MongoDB 1.5大数据与MongoDB 1.6MongoDB特点 1.7安装MongoDB 1.8几个重要的进程介绍 1.8.1mongod进程 1.8.2mongo进程 1.8.3其他进程 1.9适合哪些业

离线和实时大数据开发实战 朱松岭著 PDF下载
编程书籍

离线和实时大数据开发实战 朱松岭著 PDF下载

73次浏览 0条评论

本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。前言 第一篇 数据大图和数据平台大图 第1章 数据大图 2 1.1 数据流程 2 1.1.1 数据产生 3 1.1.2 数据采集和传输 5 1.1.3 数据存储处理 6 1.1.4 数据应用 7 1.2 数据技术 8 1.2.1 数据采集传输主要技术 9 1.2.2 数据处理主要技术 10 1.2.3 数据存储主要技术 12 1.2.4 数据应用主要技术 13 1.3 数据相关从业者和角色 14 1.3.1 数据平台开发、运维工程师 14 1.3.2 数据开发、运维工程师 15 1.3.3 数据分析工程师 15 1.3.4 算法工程师 16 1.3.5

实战Hadoop:开启通向云计算的捷径 刘鹏著 PDF下载
编程书籍

实战Hadoop:开启通向云计算的捷径 刘鹏著 PDF下载

88次浏览 0条评论

《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。该书强调动手、强调实战,以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括: HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。《实战Hadoop:开启通向云计算的捷径》读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。《实战hadoop》 第1 章 神奇的大象——hadoop 1.1 初识神象 2 1.2 hadoop 初体验 4 1.2.1 了解hadoop 的构架 4 1.2.2 查看hadoop 活动

Hadoop实战(第2版) 陆嘉恒著 PDF下载
编程书籍

Hadoop实战(第2版) 陆嘉恒著 PDF下载

107次浏览 0条评论

本书能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之一。与第1版相比,第2版技术更新颖,所有技术都针对最新版进行了更新;内容更全面,几乎每一个章节都增加了新内容,而且增加了新的章节;实战性更强,案例更丰富;细节更完美,对第1版中存在的缺陷和不足进行了修正。本书内容全面,对Hadoop整个技术体系进行了全面的讲解,不仅包括HDFS、MapReduce、YARN等核心内容,而且还包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop技术相关的重要内容。实战性强,不仅为各个知识点精心设计了大量经典的小案例,而且还包括Yahoo!等多个大公司的企业级案例,可操作系极强。全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、MapRe

大数据安全 丁锋等著 PDF下载
编程书籍

大数据安全 丁锋等著 PDF下载

120次浏览 0条评论

本书以大数据安全为对象展开研究,对大数据安全的现状、技术、存在问题和解决策略进行了梳理,从安全视角讨论和分析大数据,对已经发生的安全事件,作为案例进行详细讲解,以起到一定的警示和借鉴作用,为读者解答了一系列关系到大数据安全现在与未来的问题。第一章 大数据安全现状 ............................................11.大数据安全事件 .........................................................42.大数据安全应对策略 ..................................................93.大数据安全应用 .......................................................134.政府大数据安全布局 ................................................175.本章小结 ........................................................

Hadoop大数据实战权威指南 黄东军著 PDF下载
编程书籍

Hadoop大数据实战权威指南 黄东军著 PDF下载

113次浏览 0条评论

大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。第一篇 大数据的基本概念和技术 第1章 绪论 3 1.1 时代背景 3 1.1.1 全球大数据浪潮 3 1.1.2 我国的大数据国家战略 5 1.2 大数据的概念 7 1.2.1 概念 7 1.2.2 特征 8 1.3 技术支撑体系 9 1.3.1 概览 9 1.3.2 大数据采集层 9 1.3.3 大数据存储层 10 1.3.4 大数据分析(处理与服务)层 11 1.3.5 大数据应用层 11 1.3.6 垂直视图 13 1.4 大数据人才及其能力要求 14 1.4.1 首席数据官 14 1.4

Storm技术内幕与大数据实践 陈敏敏著 PDF下载
编程书籍

Storm技术内幕与大数据实践 陈敏敏著 PDF下载

83次浏览 0条评论

汇集作者在大众点评和1号店实时平台的大数据实践讲解基于Storm的流数据处理的整体解决方案《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。第1章 绪论 1 1.1 Storm的基本组件 2 1.1.1 集群组成 2 1.1.2 核心概念 3 1.1.3 Storm的可靠性 5 1.1.4 Storm的特性 6 1.2 其他流式处理框架 6 1.2.1 Apache S4 6 1.2.2 Spark Streaming 6 1.2.3 流计算和Storm的应用 7 第2章 实时平台介绍 11 2.1 实时平台架构介绍 11 2.2 Kafka架构 13 2.2.1 Kafka的基本术语和概念 13 2.2.2 Kafka在实时平台中的应用 14 2.2.3 消息的持久化和顺序读写 15 2.2.4 sendfile系

Spark SQL内核剖析 朱锋著 PDF下载
编程书籍

Spark SQL内核剖析 朱锋著 PDF下载

174次浏览 0条评论

Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算子和 Join 算子的实现与执行、Tungsten 优化技术、生产环境中的一些改造优化经验等。《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。第 1 章 Spark SQL 背景 1 1.1 大数据与 Spark 系统 1 1.2 关系模型与 SQL 语言 3 1.3 Spark SQL 发展历程 4 1.4 本章小结 5 第 2 章 Spark 基础知识介绍 6 2.1 RDD 编程模型 6 2.2 DataFrame 与

大数据架构商业之路:从业务需求到技术方案 黄申著 PDF下载
编程书籍

大数据架构商业之路:从业务需求到技术方案 黄申著 PDF下载

175次浏览 0条评论

目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。推荐序一 推荐序二 前  言 第1章 抉择 1 第2章 数据收集 4 2.1 互联网数据收集 4 2.1.1 网络爬虫 5 2.1.2 Apache Nutch简介 11 2.1.3 Heritrix简介 14 2.2 内部数据收集 15 2.2.1 Apache Flume简介 17 2.2.2 Facebook Scribe和Logstash 21 2.3 本章心得 21 2.4 参考资料 22 第3章 数据存储 23 3.1 持久

大数据架构和算法实现之路:电商系统的技术实战 黄申著 PDF下载
编程书籍

大数据架构和算法实现之路:电商系统的技术实战 黄申著 PDF下载

140次浏览 0条评论

本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。目录 推荐序 前言 引子 1 第一篇 支持高效的运营 第1章 方案设计和技术选型:分类 5 1.1 分类的基本概念 6 1.2 分类任务的处理流程 7 1.3 算法:朴素贝叶斯和K最近邻 8 1.3.1 朴素贝叶斯 8 1.3.2 K最近邻 9 1.4 分类效果评估 10 1.5 相关软件:R和Mahout 12 1.5.1 R简介 12 1.5.2 Mahout简介 13 1.5.3 Hadoop简介 14 1.6 案例实践 17 1.6.1 实验环境设置 17 1.6.2 中文分词 18 1.6.3 使

Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理 蔡斌著 PDF下载
编程书籍

Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理 蔡斌著 PDF下载

146次浏览 0条评论

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。全书共9章,分为三部分:第一部分(第1章)主要介绍了Had

Hadoop技术内幕:深入解析YARN架构设计与实现原理 董西成著 PDF下载
编程书籍

Hadoop技术内幕:深入解析YARN架构设计与实现原理 董西成著 PDF下载

134次浏览 0条评论

本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 董西成著 PDF下载
编程书籍

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 董西成著 PDF下载

125次浏览 0条评论

《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。海报:前 言 第一部分 基础篇 第1章 阅读源代码前的准备/ 2 1.1 准备源代码学习环境/ 2 1.1.1 基础软件下载/ 2 1.1.2 如何准备Windows环境/ 3 1.1.3 如何准备L

Hadoop源代码分析-深入云计算:Hadoop源代码分析 张鑫著 PDF下载
编程书籍

Hadoop源代码分析-深入云计算:Hadoop源代码分析 张鑫著 PDF下载

143次浏览 0条评论

Hadoop源代码分析 第2版(修订版)是一本全面细致介绍和分析Hadoop源码和内部工作机理的技术书籍,通过对Hadoop内部源码详细透彻的解析,使读者能够快速高效地掌握Hadoop的内部工作机制,了解Hadoop内部源码架构,对Hadoop有更加深刻的认识。本书主要对Hadoop最核心的部分:HDFS和MapReduce进行源码解析和说明。适合所有想全面学习Hadoop开发技术的人员阅读,也适用于使用Hadoop进行开发的工程技术人员,还可作为想深入了解Hadoop运行机制、源代码的开发人员的参考书籍。第1篇 Hadoop概述与安装第1章 Hadoop的简介和安装第2篇 HDFS分布式文件系统及IO模型第2章 HDFS架构和分布式文件系统第3章 Hadoop分布式文件系统HDFS的具体实现第4章 NameNode的实现第5章 Datanode的实现第6章 Hadoop的IO第3篇 MapReduce计算框架及RPC通信模型第7章 MapReduce的输入和输出第8章 Hadoop中的Context和ID第9章 Hadoop的计算模型MapReduce第10章 JobClient的执

Apache Kylin权威指南 Apache Kylin核心团队 著著 PDF下载
编程书籍

Apache Kylin权威指南 Apache Kylin核心团队 著著 PDF下载

103次浏览 0条评论

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。Contents?目  录 推荐序一 推荐序二 推荐序三 推荐序四 前 言 第1章 

Apache Spark源码剖析 许鹏著 PDF下载
编程书籍

Apache Spark源码剖析 许鹏著 PDF下载

120次浏览 0条评论

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。第一部分Spark概述1 第1章初识Spark 3 1.1 大数据和Spark 3 1.1.1 大数据的由来4 1.1.2 大数据的分析4 1.1.3 Hadoop 5 1.1.4 Spark简介6 1.2 与Spark的第一次亲密接触7 1.2.1 环境准备7 1.2.2 下载安装Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13

HBase不睡觉书 杨曦著 PDF下载
编程书籍

HBase不睡觉书 杨曦著 PDF下载

101次浏览 0条评论

HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC 服务器上搭建起大规模的存储化集群。使用HBase可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。本书共分为10章,由浅入深的讲解HBase概念、安装、配置、部署。让读者对HBase先有一个感性认识,再从应用角度,介绍了高级用法、监控和性能调优。既兼顾了初学者也适用于想要深入学习HBase的读者。本书适合于以前没有接触过HBase,或者了解HBase并希望能够深入掌握的读者,适合HBase应用开发人员和系统管理人员学习使用。第1章 基础知识 1 1.1 Node是什么 1 1.1.1 Node与JavaScript 1 1.1.2 Runtime 和 VM 2 第1章 初识HBase 1 1.1 海量数据与NoSQL 1 1.1.1 关系型数据库的极限 1 1.1.2 CAP理论 1 1.1.3 NoSQL 2 1.2 HBase是怎么来的 3 1.3 为什么要用HBase 3 1.4 你必须懂的基本概念 4 1.4.1 部署架构

Hadoop集群程序设计与开发 王宏志著 中文版PDF下载
编程书籍

Hadoop集群程序设计与开发 王宏志著 中文版PDF下载

121次浏览 0条评论

本书主要内容包括:第 1章 初识Hadoop、第 2章 Hadoop基础、第3章 Hadoop开发环境配置与搭建、第4章 Hadoop分布式文件系统(HDFS)、第5章 资源管理器(Yarn)、第6章 MapReduce基础程序设计、第7章 MapReduce程序设计、第8章 分布式数据库HBase、第9章 分布式数据仓库Hive、第 10章 项目测试与发布1.1 为什么要学习Hadoop 21.1.1 信息化项目衍生过程 21.1.2 Hadoop产生过程 51.1.3 Hadoop成功案例介绍 81.2 Hadoop与云计算的关系 81.2.1 什么是云计算 81.2.2 云计算演进历史 101.2.3 云计算相关技术介绍 121.2.4 Hadoop在云项目中扮演的角色 121.3 Hadoop与大数据的关系 131.3.1 什么是大数据 131.3.2 大数据的存储结构 151.3.3 大数据的计算模式 151.3.4 Hadoop在大数据中扮演的角色 161.4 学习Hadoop需要具备的知识基础 161.5 学习Hadoop需要的实验环境 171.6 Hadoop的用途 1

物联网大数据处理技术与实践 王桂玲著 高清文字版PDF下载
编程书籍

物联网大数据处理技术与实践 王桂玲著 高清文字版PDF下载

126次浏览 0条评论

本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。第1篇 缘起与发展趋势篇第1章 物联网与产业发展 31.1 物联网产业的发展 31.1.1 传感器与智能硬件 41.1.2 物联网服务平台 51.1.3 工业4.0与CPS 51.2 物联网与大数据 71.3 物联网产业的机遇与挑战 91.3.1 物联网产业面临的挑战 91.3.2 物联网操作系统与数据库 101.3.3 物联网大数据处理与应用 11第2章 大数据处理技术的发展 122.1 大

大数据基础编程、实验和案例教程 林子雨著 PDF下载
编程书籍

大数据基础编程、实验和案例教程 林子雨著 PDF下载

125次浏览 0条评论

本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。本书是《大数据技术原理与应用——概念、存储、处理、分析与应用》的“姊妹篇”,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。第1章大数据技术概述/11.1大数据时代/11.2大数据关键技术/21.3大数据软件/31.3.1Hadoop/41.3.2Spark/51.3.3NoSQL数据库/51.3.4数据可视化/61.4内容安排/71.5在线资源/81.5.1在

大数据智能:互联网时代的机器学习和自然语言处理技术 刘知远著 PDF下载
编程书籍

大数据智能:互联网时代的机器学习和自然语言处理技术 刘知远著 PDF下载

128次浏览 0条评论

《大数据智能——互联网时代的机器学习和自然语言处理技术》是一本介绍大数据智能分析的科普书籍,旨在让更多的人了解和学习互联网时代的机器学习和自然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。《大数据智能——互联网时代的机器学习和自然语言处理技术》包括大数据智能基础和大数据智能应用两个部分,共8 章。大数据智能基础部分有三章:第1 章以深度学习为例介绍大数据智能的计算框架;第2 章以知识图谱为例介绍大数据智能的知识库;第3 章介绍大数据的计算处理系统。大数据智能应用部分有5 章:第4 章介绍智能问答,第5 章介绍主题模型,第6 章介绍个性化推荐,第7 章介绍情感分析与意见挖掘,第8 章介绍面向社会媒体内容的分析与应用。最后在《大数据智能——互联网时代的机器学习和自然语言处理技术》的后记部分为读者追踪大数据智能的最新学术材料提供了建议。《大数据智能——互联网时代的机器学习和自然语言处理技术》适合作为高等院校计算机相关专业的研究生学习参考资料,也适合电脑爱好者阅读。作者特别希望本书能够帮助所有愿意对大数据技术有所了解,以及想要将大数据技术应用于本职工作的读者。第1 章 深度学习—

HBase权威指南 中文版 代志远等译 PDF下载
编程书籍

HBase权威指南 中文版 代志远等译 PDF下载

130次浏览 0条评论

《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。第1章 简介 1 1.1 海量数据的黎明 1 1.2 关系数据库系统的问题 5 1.3 非关系型数据库系统Not-Only-SQL(简称NoSQL) 7 1.3.1 维度 9 1.3.2 可扩展性 12 1.3.3 数据库的范式化和反范式化 12 1.4 结构 15 1.4.1 背景 15 1.4.2 表、行、列和单元格 16 1.4.3 自动分区 20 1.4.4 存储API 21 1.4.5 实现 22 1.4.6 小结 25 1.5 HBase:Hadoop数据库 25 1.5.

Spark大数据处理:技术、应用与性能优化 高彦杰著 高清文字版PDF下载
编程书籍

Spark大数据处理:技术、应用与性能优化 高彦杰著 高清文字版PDF下载

107次浏览 0条评论

《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。具体来讲,它有如下优势:打造全栈多计算范式的高效数据流水线轻量级快速处理易于使用,支持多语言与HDFS等存储层兼容社区活跃度高……Spark已经在全球范围内广泛使用,无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些尚处于成长期的小公司,都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验,编写了这本书。站着初学者的角度,不仅系统、全面地讲解了Spark的各项功能及其使用方法,而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术,同时还有一些可供操作的案例,能让没有经验的读者迅速掌握Spark。更为重要的是,本书还对Spark的性能优化进行了探讨。前 言 第1章 Spark简介 1 1.1 Sp

Hadoop权威指南(第3版)修订版 PDF下载
编程书籍

Hadoop权威指南(第3版)修订版 PDF下载

113次浏览 0条评论

准备好释放数据的强大潜能了吗?借助于这本《Hadoop权威指南》,你将学习如何使用ApacheHadoop构建和维护稳定性高、伸缩性强的分布式系统。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。《Hadoop权威指南(第3版 修订版)》通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的最新动态,包括新增的MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)。" 目录 第1章 初识Hadoop 1 1.1 数据!数据! 1 1.2 数据的存储与分析 3 1.3 相较于其他系统的优势 4 1.3.1 关系型数据库管理系统 5 1.3.2 网格计算 7 1.3.3 志愿计算 9 1.4 Hadoop发展简史 10 1.5 Apache Hadoop和Hadoop生态系统 14 1.6 Hadoop的发行版本 15 1.6.1 本书包含的内容 16 1.6.2 兼容性 17 第2章 关于MapReduce 19 2.

自己动手做大数据系统 张魁等著 高清文字版PDF下载
编程书籍

自己动手做大数据系统 张魁等著 高清文字版PDF下载

422次浏览 0条评论

如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,《自己动手做大数据系统》正好比较适合你。《自己动手做大数据系统》从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。《自己动手做大数据系统》的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。第1章 为什么要自己动手做大数据系统 1 1.1 大数据时

图解Spark:核心技术与案例实战 景瞻著 PDF下载
编程书籍

图解Spark:核心技术与案例实战 景瞻著 PDF下载

457次浏览 0条评论

《图解Spark:核心技术与案例实战》以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。《图解Spark:核心技术与案例实战》从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外《图解Spark:核心技术与案例实战》还应用了大量的图表进行说明,让读者能够更加直观地理解Spark 相关原理。通过《图解Spark:核心技术与案例实战》,读者将能够很快地熟悉和掌握Spark 大数据分析计算的利器,在生产中解决实际问题。第一篇 基础篇 第1章

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载
编程书籍

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载

165次浏览 0条评论

本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。前言第1章 集群及开发环境搭建1.1 环境准备1.2 安装Hadoop1.3 Hadoop版Hello World1.4 开发环境1.5 小结第2章 实战:快速构建一个Hadoop项目并线上运行2.1 构建一个简单的项目工程2.2 操作分布式文件系

基于Hadoop与Spark的大数据开发实战 PDF下载
编程书籍

基于Hadoop与Spark的大数据开发实战 PDF下载

181次浏览 0条评论

大数据技术让我们以一种的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,*终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等学习内容,为读者带来全方位的学习体验。序言前言关于引用作品的版权声明第 1章Hadoop初体验 1任务1初识大数据 21.1.1 大数据基本概念 21.1.2 大数据带来的挑战 3任务2初识Hadoop 31.2.1 Hadoop概述 41.2.2 Hadoop生态圈 61.2.3 Hadoop应用案例 8任务3安装Hadoop平台 91.3.1 安装

零基础学大数据算法 PDF下载
编程书籍

零基础学大数据算法 PDF下载

166次浏览 0条评论

《零基础学大数据算法》是通俗易懂的大数据算法教程。通篇采用师生对话的形式,旨在用通俗的语言、轻松的气氛,帮助读者理解大数据计算领域中的基础算法和思想。《零基础学大数据算法》由背景篇、理论篇、应用篇和实践篇四部分组成。背景篇介绍大数据、算法、大数据算法等基本概念和背景;理论篇介绍解决大数据问题的亚线性算法、磁盘算法、并行算法、众包算法的基本思想和理论知识;应用篇介绍与大数据问题息息相关的数据挖掘和推荐系统的相关知识;实践篇从实际应用出发,引导读者动手操作,帮助读者通过实际程序和实验验证磁盘算法、并行算法和众包算法。在讲解每一个大数据问题之前,《零基础学大数据算法》都会介绍大量的经典算法和基础数据结构知识,不仅可以帮助学习过数据结构与算法、算法设计与分析等课程的同学复习,同时能够让入门的“小菜鸟”们,不会因为没有学习过经典算法而对《零基础学大数据算法》望而却步,轻松地掌握大数据算法!第1 篇 背景篇 第1 章何谓大数据 ..... 4 1.1身边的大数据 4 1.2大数据的特点和应用 ............ 6 第2 章何谓算法 .............................