#软件工程#十八款Hadoop工具帮你驯
Hadoop已通过本身的蓬勃发展证明,它不但仅是一套用于将工作内容传播到计算机群组当中的小型堆栈–不,这与它的潜能相比简直微不足道。这套核心的价值已被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。
Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按时租用服务、为这套开源核心开发先进的功能强化或将自有工具添加到方案组合当中。
在今天的文章中,我们将一同了解当下Hadoop生态系统当中那些最为突出的杰作。整体而言,这是一套由众多工具及代码构成的坚实基础、共同聚集在”Hadoop”这面意味着希望的大旗之下。
Hadoop
虽然很多人会把映照与规约工具广义化称为Hadoop,但从客观角度讲、其实只有一小部分核心代码算是真正的Hadoop。多个工作节点负责对保存在本地的数据进行功能履行,而基于Java的代码则对其加以同步。这些工作节点得到的结果随后经过汇总并整理为报告。第一个步骤被称为”映照(即map)”,而第二步骤则被称为”规约(reduce)”。
Hadoop为本地数据存储与同步系统提供一套简化抽象机制,从而保证程序员能够将注意力集中在编写代码以实现数据分析工作上,其它工作交给Hadoop处理便可。Hadoop会将任务加以拆分并设计履行规程。毛病或故障在意料之中,Hadoop的设计初衷就在于适应由单独装备所引发的毛病。项目代码遵守Apache许可机制。
官方站:
Ambari
Hadoop集群的建立需要触及大量重复性工作。Ambari提供一套基于Web的图形用户界面并配备引导脚本,能够利用大部分标准化组件实现集群设置。在大家采用Ambari并将其付诸运行以后,它将帮助各位完成配置、管理和监管等重要的Hadoop集群相干任务。上图显示的就是集群启动后Ambari所显示的信息屏幕。Ambari属于Apache旗下的衍生项目,并由Hortonworks公司负责提供支持。
下载
北京中科医院爆光北京中科医院爆光