3320次浏览
《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。该书强调动手、强调实战,以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括: HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。《实战Hadoop:开启通向云计算的捷径》读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。《实战hadoop》 第1 章 神奇的大象——hadoop 1.1 初识神象 2 1.2 hadoop 初体验 4 1.2.1 了解hadoop 的构架 4 1.2.2 查看hadoop 活动
3558次浏览
本书能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之一。与第1版相比,第2版技术更新颖,所有技术都针对最新版进行了更新;内容更全面,几乎每一个章节都增加了新内容,而且增加了新的章节;实战性更强,案例更丰富;细节更完美,对第1版中存在的缺陷和不足进行了修正。本书内容全面,对Hadoop整个技术体系进行了全面的讲解,不仅包括HDFS、MapReduce、YARN等核心内容,而且还包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop技术相关的重要内容。实战性强,不仅为各个知识点精心设计了大量经典的小案例,而且还包括Yahoo!等多个大公司的企业级案例,可操作系极强。全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、MapRe
3053次浏览
大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。第一篇 大数据的基本概念和技术 第1章 绪论 3 1.1 时代背景 3 1.1.1 全球大数据浪潮 3 1.1.2 我国的大数据国家战略 5 1.2 大数据的概念 7 1.2.1 概念 7 1.2.2 特征 8 1.3 技术支撑体系 9 1.3.1 概览 9 1.3.2 大数据采集层 9 1.3.3 大数据存储层 10 1.3.4 大数据分析(处理与服务)层 11 1.3.5 大数据应用层 11 1.3.6 垂直视图 13 1.4 大数据人才及其能力要求 14 1.4.1 首席数据官 14 1.4
3006次浏览
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。全书共9章,分为三部分:第一部分(第1章)主要介绍了Had
3397次浏览
本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附
2892次浏览
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。海报:前 言 第一部分 基础篇 第1章 阅读源代码前的准备/ 2 1.1 准备源代码学习环境/ 2 1.1.1 基础软件下载/ 2 1.1.2 如何准备Windows环境/ 3 1.1.3 如何准备L
3132次浏览
Hadoop源代码分析 第2版(修订版)是一本全面细致介绍和分析Hadoop源码和内部工作机理的技术书籍,通过对Hadoop内部源码详细透彻的解析,使读者能够快速高效地掌握Hadoop的内部工作机制,了解Hadoop内部源码架构,对Hadoop有更加深刻的认识。本书主要对Hadoop最核心的部分:HDFS和MapReduce进行源码解析和说明。适合所有想全面学习Hadoop开发技术的人员阅读,也适用于使用Hadoop进行开发的工程技术人员,还可作为想深入了解Hadoop运行机制、源代码的开发人员的参考书籍。第1篇 Hadoop概述与安装第1章 Hadoop的简介和安装第2篇 HDFS分布式文件系统及IO模型第2章 HDFS架构和分布式文件系统第3章 Hadoop分布式文件系统HDFS的具体实现第4章 NameNode的实现第5章 Datanode的实现第6章 Hadoop的IO第3篇 MapReduce计算框架及RPC通信模型第7章 MapReduce的输入和输出第8章 Hadoop中的Context和ID第9章 Hadoop的计算模型MapReduce第10章 JobClient的执
3336次浏览
这是一部从原理、架构、部署、运维4个方面系统、深入讲解如何构建高可用OpenStack集群的著作,在理论和实践两个维度为构建构建高可用OpenStack集群提供了完整的解决方案。本书从OpenStack终端用户的角色出发,以面向生产系统的OpenStack高可用集群建设为主线,对OpenStack高可用集群的原理和架构进行了深入的剖析,对部署和运维OpenStack高可用集群所依赖的各个技术栈和核心组件进行了详细的讲解。此外,书中还对Ceph和Docker等技术与OpenStack的结合应用进行了详细讲解,尤其是Kolla项目的介绍,是本书的一大技术特色。本书为上下两册:上册(第1~10章)从理论的角度剖析了OpenStack高可用集群的原理与架构。架构篇(第1~2章):介绍了通用云计算参考架构的设计、传统IT架构的高可用设计、云环境下的高可用设计,以及OpenStack高可用集群的架构设计。原理篇(第3~10章):首先详细讲解了实现OpenStack高可用集群所必须的集群资源管理器、负载均衡器、消息队列、缓存系统和数据库等OpenStack生态圈的基础技术和高可用软件;其次还讲解了
3537次浏览
这是一部从原理、架构、部署、运维4个方面系统、深入讲解如何构建高可用OpenStack集群的著作,在理论和实践两个维度为构建构建高可用OpenStack集群提供了完整的解决方案。本书从OpenStack终端用户的角色出发,以面向生产系统的OpenStack高可用集群建设为主线,对OpenStack高可用集群的原理和架构进行了深入的剖析,对部署和运维OpenStack高可用集群所依赖的各个技术栈和核心组件进行了详细的讲解。此外,书中还对Ceph和Docker等技术与OpenStack的结合应用进行了详细讲解,尤其是Kolla项目的介绍,是本书的一大技术特色。本书为上下两册:上册(第1~10章)从理论的角度剖析了OpenStack高可用集群的原理与架构。架构篇(第1~2章):介绍了通用云计算参考架构的设计、传统IT架构的高可用设计、云环境下的高可用设计,以及OpenStack高可用集群的架构设计。原理篇(第3~10章):首先详细讲解了实现OpenStack高可用集群所必须的集群资源管理器、负载均衡器、消息队列、缓存系统和数据库等OpenStack生态圈的基础技术和高可用软件;其次还讲解了
4413次浏览
HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC 服务器上搭建起大规模的存储化集群。使用HBase可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。本书共分为10章,由浅入深的讲解HBase概念、安装、配置、部署。让读者对HBase先有一个感性认识,再从应用角度,介绍了高级用法、监控和性能调优。既兼顾了初学者也适用于想要深入学习HBase的读者。本书适合于以前没有接触过HBase,或者了解HBase并希望能够深入掌握的读者,适合HBase应用开发人员和系统管理人员学习使用。第1章 基础知识 1 1.1 Node是什么 1 1.1.1 Node与JavaScript 1 1.1.2 Runtime 和 VM 2 第1章 初识HBase 1 1.1 海量数据与NoSQL 1 1.1.1 关系型数据库的极限 1 1.1.2 CAP理论 1 1.1.3 NoSQL 2 1.2 HBase是怎么来的 3 1.3 为什么要用HBase 3 1.4 你必须懂的基本概念 4 1.4.1 部署架构
3350次浏览
本书主要内容包括:第 1章 初识Hadoop、第 2章 Hadoop基础、第3章 Hadoop开发环境配置与搭建、第4章 Hadoop分布式文件系统(HDFS)、第5章 资源管理器(Yarn)、第6章 MapReduce基础程序设计、第7章 MapReduce程序设计、第8章 分布式数据库HBase、第9章 分布式数据仓库Hive、第 10章 项目测试与发布1.1 为什么要学习Hadoop 21.1.1 信息化项目衍生过程 21.1.2 Hadoop产生过程 51.1.3 Hadoop成功案例介绍 81.2 Hadoop与云计算的关系 81.2.1 什么是云计算 81.2.2 云计算演进历史 101.2.3 云计算相关技术介绍 121.2.4 Hadoop在云项目中扮演的角色 121.3 Hadoop与大数据的关系 131.3.1 什么是大数据 131.3.2 大数据的存储结构 151.3.3 大数据的计算模式 151.3.4 Hadoop在大数据中扮演的角色 161.4 学习Hadoop需要具备的知识基础 161.5 学习Hadoop需要的实验环境 171.6 Hadoop的用途 1
2911次浏览
“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。本书适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。前言为什么要写这本书读者对象如何阅读本书勘误和支持致谢第一部分 基础篇第1章 阅读源代码前的准备1.1 准备源代码学习环境1.2 获取Hadoop源代码1.3 搭建Hadoop源代码阅读环境1.4 Hadoop源代码组织结构1.5 Hadoop初体验1.6 编译及调试Hadoop源代码1.7 小结第2章 MapReduce设计理念与基本架构2.
3706次浏览
这是一本学习Hadoop MapReduce的一站式指南,完整介绍了Hadoop生态体系,包括Hadoop平台安装、部署、运维等,Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是,书中包含丰富的示例和多样的实际应用场景,以一种简单而直接的方式呈现了90个实战攻略,并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起,依次介绍了高级HDFS,高级Hadoop MapReduce管理,开发复杂的Hadoop MapReduce应用程序,Hadoop的生态系统,统计分析,搜索与索引,聚类、推荐和寻找关联,海量文本数据处理,云部署等内容。第1章 搭建Hadoop并在集群中运行 1 1.1 简介 1 1.2 在你的机器上安装Hadoop 2 1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 3 1.4 给WordCount MapReduce程序增加combiner步骤 8 1.5 安装HDFS 9 1.6 使用HDFS监控UI 14 1.7 HDFS的基本命令行文件操作 15 1.8 在分布式集群环境中设置Had
3023次浏览
准备好释放数据的强大潜能了吗?借助于这本《Hadoop权威指南》,你将学习如何使用ApacheHadoop构建和维护稳定性高、伸缩性强的分布式系统。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。《Hadoop权威指南(第3版 修订版)》通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的最新动态,包括新增的MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)。" 目录 第1章 初识Hadoop 1 1.1 数据!数据! 1 1.2 数据的存储与分析 3 1.3 相较于其他系统的优势 4 1.3.1 关系型数据库管理系统 5 1.3.2 网格计算 7 1.3.3 志愿计算 9 1.4 Hadoop发展简史 10 1.5 Apache Hadoop和Hadoop生态系统 14 1.6 Hadoop的发行版本 15 1.6.1 本书包含的内容 16 1.6.2 兼容性 17 第2章 关于MapReduce 19 2.
3054次浏览
本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。前言第1章 集群及开发环境搭建1.1 环境准备1.2 安装Hadoop1.3 Hadoop版Hello World1.4 开发环境1.5 小结第2章 实战:快速构建一个Hadoop项目并线上运行2.1 构建一个简单的项目工程2.2 操作分布式文件系
4824次浏览
大数据技术让我们以一种的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,*终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等学习内容,为读者带来全方位的学习体验。序言前言关于引用作品的版权声明第 1章Hadoop初体验 1任务1初识大数据 21.1.1 大数据基本概念 21.1.2 大数据带来的挑战 3任务2初识Hadoop 31.2.1 Hadoop概述 41.2.2 Hadoop生态圈 61.2.3 Hadoop应用案例 8任务3安装Hadoop平台 91.3.1 安装
4172次浏览
对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop 生态系统的明星 Cloudera 入手,逐步引出各类大数据基础和核心应用框架。 本书分为18章,系统介绍Hadoop 生态系统大数据相关的知识,包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,*后给出两个综合实操案例,以巩固前面所学的知识点。 本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用,亦可作为高等院校和培训机构大数据相关课程的培训用书。第1章 大数据概述 11.1 大数据时代的数据特点 11.2 大数据时代的发展趋势——数据将成为资产 21.3
3044次浏览
01_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0102_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0203_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0304_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0405_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0506_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0607_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0708_尚学堂_肖斌_hadoop_hdfs1分布式文件系统08_io09_尚学堂_肖斌_hadoop_hdfs1分布式文件系统09_io10_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1011_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1112_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1213_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1314_尚学堂_肖斌_mr分布式计算框架_理论115_尚学堂_肖斌_mr分布式计算框架_理论216_尚学堂_肖斌_mr分布式计算框架_理论317_尚学堂_肖斌_mr分布式计算框架_理论
4140次浏览
本书结合理论和实践,由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。全书5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce 的数据处理API)。本书是一本专业、全面的Hadoop 参考书和工具书,阐述了Hadoop 生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop 集群的安装和运维。第Ⅰ部分 Hadoop基础知识 第1章 初识Hadoop 3 1.1 数据!数据! 3 1.2 数据的存储与分析 5 1.3 查询所有数据 6 1.4 不仅仅是批处理 7 1.5 相较于其他系统的优势 8 1.5.1 关系型数据库管理系统 8 1.5.2 网格计算 10 1.5.3 志愿计算 11 1.6 Apache Hadoop发展简史
4511次浏览
本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共15章,内容包含大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学领域和其他行业的应用。本书在Hadoop、HDFS、HBase、MapReduce和Spark等重要章节安排了入门级的实践操作,以便读者更好地学习和掌握大数据关键技术。 第一篇 大数据基础 第1章 大数据概述 2 1.1 大数据时代 2 1.1.1 第三次信息化浪潮 2 1.1.2 信息科技为大数据时代提供技术支撑 3 1.1.3 数据产生方式的变革促成大数据时代的来临 5 1.1.4 大数据的发展历程 6 1.2 大数据的概念 7 1.2.1 数据量大 7 1.2.2 数据类型繁多 8 1.2.3 处理速度快 9 1.2.4 价值密度低 9 1.3 大数据的影响 9 1.3.1 大数据对科学研究的影响 10 1.3.2 大数据对思维方式的影响 11 1.3
2925次浏览
000_上课方式和课程大纲介绍.avi 001_Linux系统基本知识说明和启动Linux虚拟机.avi 002_配置虚拟机IP地址和如何使用远程工具SecureCRT.avi 003_Linux 环境下基本命令使用及Linux系统中文件的类型和权限.avi 004_Linux 环境下基本命令讲解二.avi 005_Linux 系统远程FTP工具与桌面工具XManager使用和培养三大能力.avi 006_Linux 系统基本命令和基本配置的复习讲解.avi 007_What is Apache Hadoop讲解.avi 008_Hadoop 的发展史和版本发展与区别.avi 009_Hadoop 1.x 生态系统介绍讲解.avi 010_Hadoop 2.x 生态系统介绍讲解.avi 011_Hadoop 1.x 服务讲解.avi 012_HDFS 架构的讲解.avi 013_MapReduce 架构讲解和MapReduce思想原理讲解.avi 014_Apache Hadoop 三种安装部署模式讲解.avi 015_Apache Hadoop 1.