Hadoop大数据实战权威指南 - azw3、epub、mobi、pdf、kindle电子书下载

基本信息

出版社 : 电子工业出版社; 第1版 (2018年9月28日)
出版日期 : 2017年7月1日
品牌 : 电子工业出版社
语言 : 简体中文
文件大小 : 31621 KB
纸书页数 : 481页
黄东军 (作者)
下载格式：azw3、epub、mobi

编辑推荐

　　深入分析组件原理、充分展示搭建过程、详细指导应用开发。

内容简介

　　大数据贵在落实！本书是一本讲解大数据实战的图书，按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇，第一篇为大数据的基本概念和技术，主要介绍大数据的背景、发展及关键技术；第二篇为Hadoop大数据平台搭建与基本应用，内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等；第三篇为大数据处理与项目开发，包括交互式数据处理、协同过滤推荐系统、销售数据分析系统，并就京东的部分销售数据应用大数据进行处理分析。

作者简介

　　黄东军，男，教授，博士，博士生导师。毕业于中南大学计算机应用技术，先工作于中南大学信息科学与工程学院。中国计算机学会高级会员，教育部计算机科学与技术专业教学指导委员会“物联网工程专业教学研究专家组”成员。

前言

　　前言
　　本书内容
　　本书分为三篇，共有12章。
　　（1）第一篇大数据的基本概念和技术
　　第1章绪论，描述大数据的时代背景与国家大数据战略，探讨大数据的概念和特性，重点阐述大数据支撑体系，包括数据采集、存储、分布式计算和应用，并讨论大数据人才特点与能力要求。
　　第2章 Hadoop大数据关键技术，详细介绍大数据系统涉及的主流技术，主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
　　（2）第二篇 Hadoop大数据平台搭建与基本应用
　　第3章 Linux操作系统与集群搭建，介绍Linux集群的安装、Java开发包JDK的安装，以及集群的配置方法。
　　第4章 HDFS安装与基本应用，介绍Hadoop HDFS的架构、工作原理，以及Hadoop安装、配置、启动和程序的运行。
　　第5章 MapReduce与YARN，介绍MapReduce的工作原理，描述MapReduceV2（也就是YARN）的架构和执行流程。本章重点介绍如何设计MapReduce程序，给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
　　第6章 Hive和HBase的安装与应用，主要介绍Hive和HBase的安装配置和应用方法，同时也介绍MySQL和ZooKeeper的安装与应用。
　　第7章 Sqoop和Kafka，介绍Sqoop和Kafka组件的安装及其基本应用方法。
　　第8章 Spark集群安装与开发环境配置，介绍Spark架构及其工作原理，详细介绍Spark开发环境的安装与配置，包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
　　第9章 Spark应用基础，介绍Spark程序的运行模式和应用设计方法，通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序，展示了在集成开发环境IDEA中编写Spark程序的流程。
　　（3）第三篇大数据处理与项目开发
　　第10章交互式数据处理，介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具，用户借助SQL语句，可完成很多处理和分析，因此，对实际工作者有很大帮助。
　　第11章协同过滤推荐系统，介绍推荐算法的基本概念和应用，展示基于Spark的机器学库MLlib实现的协同推荐应用。
　　第12章销售数据分析系统，通过一个完整的销售数据分析系统设计，展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章运用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等，所展示的数据和应用均来自真实场景，对读者有较高参考价值。
　　本书特点
　　把原理、架构、运行流程分析与实际应用融合起来介绍，融合性阐述框架优于单纯的原理分析，因为原理最终要付诸应用。
　　本书高度重视实践能力的培养，对系统安装、配置和应用过程给出了十分详细的描述，所有实验都是基于实际完成的操作介绍的，并配有现场截图，为读者展示了真实、详尽、可重现的场景，十分方便读者自学和钻研。
　　与很多大数据技术书籍不同，本书突出了数据处理本身，深入介绍了如何运用技术进行实际的数据分析，所采用的数据样本来自生产一线，所展示的项目具有实用的参考价值，读者掌握这些技术之后，就可以开始进行项目开发了。
　　本书的读者群
　　本书十分适合初学者入门和进阶。
　　本书也可供那些已经学习过Hadoop组件技术，但希望全面、系统地理解并掌握实际应用的读者参考。
　　本书对从事大数据项目开发的专业人员也有参考价值，书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法，十分实用。
　　本书特别适合自学，读者完全可以利用本书给出的资源和示例，一步一步地完成各项操作和应用，体验一种登堂入室的成就感。
　　致谢
　　感谢大数据时代，感谢开源社区，感谢Apache基金会，感谢Google，感谢所有关心和热爱大数据的人们！
　　作者在创作本书中借鉴了中科普开（北京）科技公司的部分培训资源，在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授，本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授，他们耐心地审阅了本书，提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑，他细心专业的工作方式，给作者留下深刻印象，并为本书的高质量印装提供了保障。
　　由于作者水平有限，本书的错误和疏漏在所难免，恳请广大读者提出宝贵意见和建议。联系邮箱：djhuang@csu.edu.cn。
　　作者　
　　2017年5月于长沙

资源下载付费资源价格2元立即支付

支付后请复制提取码进入网盘下载，电子书格式请参考“基本信息”说明，如未显示下载按钮，请刷新网页或扫码关注公众号联系客服处理。