ITPub博客

首页 > 大数据 > Hadoop > hadoop商业版本选择对比

hadoop商业版本选择对比

Hadoop 作者:adnb34g 时间:2018-09-14 16:29:10 0 删除 编辑

记得刚接触到 hadoop 的时候跟大部分人一样都会抱怨 hadoop 的安装部署问题,对于一个新手来说这这的是个头疼的问题,可能需要花费一整天的时间才能把分布式环境安装配置好。在刚接触 hadoop 的一段时间里,可以说对于 hadoop 的理解一直都是停留在相对较肤浅的层面。后来随着自己的不断摸索以及向圈内的前辈大神请教交流(主要是向大神请教学来的),自己对于 hadoop 的认识以及应用也就更加娴熟。

作为一个过来人,在这里给新人分享一些关于 hadoop 版本选择的问题,希望别像我当时傻乎乎的只知道 hadoop 1.0.x 2.x 版本。

当前 hadoop 的发行版本除了 Apache 的开元版本之外,华为发行版、 Intel 发行版以及 Cloudera 发行版等。上面说的这几个第三方的发行版已经有相对较长的一些时间,除此之外还有最近几年异军突起的 DKhadoop 商业发行版。

国内的大多数公司推出的 Hadoop 发行版都是收费的,免费的发行版则主要是国外的,比如 Apache 的发行版、 Cloudera 发行版等。面对如此多的 hadoop 版本不免会让人难以选择。下面我们就简单对比一些这些不同版本的优缺点,希望对于新手能够有所帮助。

Apache 发行版:

优点: Apache 发行版的优点主要集中表现在它的完全开源免费、社区活跃性以及文档、资料详实等方面。

缺点: Apache 发行版的缺点也相对较多,具体表现在以下几个方面:

  1. 复杂的版本管理。版本管理比较混乱,各种版本层出不穷,让使用者不知所措。

  2. 复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。

  3. 复杂的集群运维。对集群的监控,运维,需要安装第三方的其他软件,如 ganglia nagois 等,运维难度较大。

  4. 复杂的生态环境。在 Hadoop 生态圈中,组件的选择、使用,比如 Hive Mahout Sqoop Flume Spark Oozie 等等,需要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能通过等。经常会浪费大量的时间去编译组件,解决版本冲突问题。

    第三方发行版本的优缺点:( CDH HDP MapR

    优点: 第三方发行版本的优点主要有以下几个:

    1.基于 Apache 协议, 100% 开源;

    2.相较于原生的 hadoop 在兼容性、安全型以及稳定性方面有所提升;

    3.版本管理清晰,更新更快;

    4.提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群

    5.运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效

    缺点: 第三方 hadoop 发行版的主要缺点就是涉及到厂商锁定的问题,但这一问题可以通过技术方面解决掉。

    DKhadoop 发行版:

    Dkhadoop 发行版是我目前接触的以及使用一个版本。与市场的其他第三方的发行版本相比较,整合程度要更高,但同样也保持了开源系统的全部优点。综合目前使用的情况看,在性能上相较于以往使用的一些第三方 hadoop 发行版要提升很多的!关于 DKhadoop 发行版的问题,感兴趣的可以自己去查阅收集一些资料看看。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31524777/viewspace-2214211/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
八年IT互联从业经历,专注网络营销、大数据、人工智能等领域的知识分享

注册时间:2018-03-09

  • 博文量
    172
  • 访问量
    115342