阿里巴巴采用了 15 个节点组成的 Hadoop 丛集,用于处理从数据库中汇出的商业资料的排序和组合。Ebay 使用了 32 个节点组成的丛集,包括 8 * 532 个计算核心以及 5.3 PB 的储存。Facebook 主要使用 Hadoop 来储存内部日志和结构化资料来源的副本,并且将其作为资料报告、资料分析和机器学习的资料来源。随着央视新闻天天说大资料,很多人纷纷开始关注大资料和Hadoop以及资料探勘和资料可视化了。什么是Hadoop?
Apache Hadoop 是一款支援资料密集型分散式应用并以 Apache 2.0 许可协议释出的开源软件框架。Hadoop 框架透明地为应用提供可靠性和资料移动。它实现了名为 MapReduce 的程式设计正规化:应用程序被分割成许多小部分,而每个部分都能在丛集中的任意节点上执行或重新执行。
Hadoop市场现状
开发人才目前比较匮乏,基本都集中在互联网。维护人才我觉得互联网外的行业一段时间内基本不用考虑,不是太多了,而是根本没有。Hadoop和云端计算最后拼的就是运维,大规模分散式系统的运维人才极难培养。
Hadoop版本的选择
目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop 2.x用。
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:
HDFS的NameNodes可以以丛集的方式布署,增强了NameNodes的水平扩充套件能力和可用性;MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的元件,并更名为YARN(Yet Another Resource Negotiator)。核心概念
Hadoop 专案主要包含了以下四个模组:
Hadoop 通用模组(Hadoop Common): 为其他 Hadoop 模组提供支援的公共实用程式。Hadoop 分散式档案系统(HDFS, Hadoop Distributed File System):提供对应用程序资料的高吞吐量访问的分散式档案系统。Hadoop YARN: 任务排程和丛集资源管理框架。Hadoop MapReduce: 基于 YARN 的大规模资料集平行计算框架。对于初次学习 Hadoop 的使用者而言,应重点关注 HDFS 和 MapReduce。作为一个分散式计算框架,HDFS 承载了该框架对于资料的储存需求,而 MapReduce 满足了该框架对于资料的计算需求。
下图是 Hadoop 丛集的基本架构:
部署 Hadoop
Hadoop 主要有以下三种部署模式:
单机模式:在单台计算机上以单个程序的模式执行。
伪分散式模式:在单台计算机上以多个程序的模式执行。该模式可以在单节点下模拟“多节点”的场景。
完全分散式模式:在多台计算机上分别以单个程序的模式执行。
具体的部署步骤以及详细的教程大家可以戳我检视。
今天跟大家分享的这个教程,主要包含以下知识点:
1:Hadoop 简介与安装部署
1:Hadoop 系统部署
2:HDFS 架构与操作
3:MapReduce 原理与实践
2:使用 MapReduce 进行日志分析
4:YARN 架构
3:用 Hadoop 计算圆周率
5:HBase 基础
4:HBase 资料汇入
6:Sqoop 资料迁移
5:HBase 实现 Web 日志场景资料处理
7:Solr 基础实战
8:Hive 基础实战
6:汇入资料到 Hive
9:Flume 基础实战
10:Flume、HDFS 和 Hive 实现日志收集和分析
7:用 Flume 和 MapReduce 进行日志分析
11:Kafka 基础实战
8:按需部署 Kafka
12:使用 Flume 和 Kafka 实现实时日志收集
13:Pig 基础实战
关于该教程的学习,你需要有一定的计算机基础和 Java 基础,并且对 Hadoop 感兴趣。
需要Hadoop资料的,转发文章,私信回复暗号“Hadoop”免费领取。
好啦,大家加油学习哦。
过一个平凡无趣的人生实在太容易了,你可以不读书,不冒险,不运动,不写作,不折腾。但是,人生最后悔的事情就是:我本可以。