基本信息
- 出版社 : 电子工业出版社; 第1版 (2018年9月28日)
- 出版日期 : 2017年7月1日
- 品牌 : 电子工业出版社
- 语言 : 简体中文
- 文件大小 : 31621 KB
- 纸书页数 : 481页
- 黄东军 (作者)
- 下载格式:azw3、epub、mobi
编辑推荐
深入分析组件原理、充分展示搭建过程、详细指导应用开发。
内容简介
大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。
作者简介
黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,教育部计算机科学与技术专业教学指导委员会“物联网工程专业教学研究专家组”成员。
前言
前 言
本书内容
本书分为三篇,共有12章。
(1)第一篇 大数据的基本概念和技术
第1章 绪论,描述大数据的时代背景与国家大数据战略,探讨大数据的概念和特性,重点阐述大数据支撑体系,包括数据采集、存储、分布式计算和应用,并讨论大数据人才特点与能力要求。
第2章 Hadoop大数据关键技术,详细介绍大数据系统涉及的主流技术,主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘等方面的技术和工具。
(2)第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建,介绍Linux集群的安装、Java开发包JDK的安装,以及集群的配置方法。
第4章 HDFS安装与基本应用,介绍Hadoop HDFS的架构、工作原理,以及Hadoop安装、配置、启动和程序的运行。
第5章 MapReduce与YARN,介绍MapReduce的工作原理,描述MapReduceV2(也就是YARN)的架构和执行流程。本章重点介绍如何设计MapReduce程序,给出了在Eclipse中实现Java语言MapReduce程序的具体过程。
第6章 Hive和HBase的安装与应用,主要介绍Hive和HBase的安装配置和应用方法,同时也介绍MySQL和ZooKeeper的安装与应用。
第7章 Sqoop和Kafka,介绍Sqoop和Kafka组件的安装及其基本应用方法。
第8章 Spark集群安装与开发环境配置,介绍Spark架构及其工作原理,详细介绍Spark开发环境的安装与配置,包括热门的IntelliJ IDEA集成开发环境的安装与基本应用。
第9章 Spark应用基础,介绍Spark程序的运行模式和应用设计方法,通过编写计算圆周率Pi、基于随机森林模型的贷款风险预测Scala程序,展示了在集成开发环境IDEA中编写Spark程序的流程。
(3)第三篇 大数据处理与项目开发
第10章 交互式数据处理,介绍如何利用Hive进行大数据处理和分析。Hive是建立在Hadoop MapReduce基础上的数据仓库工具,用户借助SQL语句,可完成很多处理和分析,因此,对实际工作者有很大帮助。
第11章 协同过滤推荐系统,介绍推荐算法的基本概念和应用,展示基于Spark的机器学库MLlib实现的协同推荐应用。
第12章 销售数据分析系统,通过一个完整的销售数据分析系统设计,展示如何利用Hadoop的各种组件开发实际的大数据应用系统。本章运用到的组件包括HDFS、MySQL、Eclipse、Phoenix、HBase、WebCollector、Sevlet、Tomcat等,所展示的数据和应用均来自真实场景,对读者有较高参考价值。
本书特点
把原理、架构、运行流程分析与实际应用融合起来介绍,融合性阐述框架优于单纯的原理分析,因为原理最终要付诸应用。
本书高度重视实践能力的培养,对系统安装、配置和应用过程给出了十分详细的描述,所有实验都是基于实际完成的操作介绍的,并配有现场截图,为读者展示了真实、详尽、可重现的场景,十分方便读者自学和钻研。
与很多大数据技术书籍不同,本书突出了数据处理本身,深入介绍了如何运用技术进行实际的数据分析,所采用的数据样本来自生产一线,所展示的项目具有实用的参考价值,读者掌握这些技术之后,就可以开始进行项目开发了。
本书的读者群
本书十分适合初学者入门和进阶。
本书也可供那些已经学习过Hadoop组件技术,但希望全面、系统地理解并掌握实际应用的读者参考。
本书对从事大数据项目开发的专业人员也有参考价值,书中所描述的Hadoop组件应用中遇到的各种问题及其解决办法,十分实用。
本书特别适合自学,读者完全可以利用本书给出的资源和示例,一步一步地完成各项操作和应用,体验一种登堂入室的成就感。
致谢
感谢大数据时代,感谢开源社区,感谢Apache基金会,感谢Google,感谢所有关心和热爱大数据的人们!
作者在创作本书中借鉴了中科普开(北京)科技公司的部分培训资源,在此谨表示衷心的感谢。特别感谢中南大学郑瑾副教授,本书的部分内容使用了她编撰的书稿。由衷地感谢王建新教授、李建彬教授、张祖平教授,他们耐心地审阅了本书,提出了中肯的意见和建议。非常感谢电子工业出版社田宏峰编辑,他细心专业的工作方式,给作者留下深刻印象,并为本书的高质量印装提供了保障。
由于作者水平有限,本书的错误和疏漏在所难免,恳请广大读者提出宝贵意见和建议。联系邮箱:djhuang@csu.edu.cn。
作 者
2017年5月于长沙