ITPub博客

CTO视角解读:国外企业选择Hadoop时到底在犹豫什么?

原创 Hadoop 作者:赵钰莹 时间:2018-06-20 17:58:11 0 删除 编辑

  随着“Hadoop是否已失宠”的选题调研进程过半,国内外企业以及厂商的观点确实存在很大分歧,有人认为是国外Hadoop厂商所提供的服务以及架构不如国内厂商完善,也有观点表明国外大部分企业的数据量根本达不到使用Hadoop的层级,因此对Hadoop比较冷漠。那么,事实到底是什么样的呢?

CIO视角:国外企业部署Hadoop犹豫什么?

  本期嘉宾:Ness SES的CTO Moshe Kranc,Silicon Valley Data Science的CTO John Akred,戴尔EMC首席解决方案架构师Boni Bruno以及多位 CIOReview嘉宾。

  开源仅打开了价格大门:Hadoop搭建依旧困难重重!

  我们一直在强调Hadoop的灵活性、可扩展性,但却忘了Hadoop诞生之初就是为了解决海量数据处理问题的。Hadoop框架最核心的就是HDFS和MapReduce,一个解决了海量数据存储,一个解决了海量数据计算。根据CIOReview嘉宾的观点,在国外企业看来,Hadoop开源虽然降低了购买成本,但整个搭建部署成本并不低且要结合企业自身的数据量规模。

  Facebook、YouTube、雅虎等财富排名在前50的企业基本都部署了Hadoop,但是有一些情况是不适合使用Hadoop的,比如:

  1、实时数据处理分析场景

  Hadoop最擅长且最专注的就是批处理,对于实时数据处理分析的需求,Hadoop完整分析的响应时间会很久。Dstillery首席科学家Claudia Perlich表示,如果需要在30毫秒内查找拥有3亿人的数据库中的某些信息,Hadoop无法做到快速响应这一需求。

  2、小型数据集处理

  对于小型数据集的处理需求,现在有很多可用的工具,比如Excel,RDBMS等,使用Hadoop是十分不明智的,这会浪费掉大量资源,导致整个使用成本非常高,毕竟Hadoop是为了解决海量数据处理问题而诞生的。

  3、取代现有基础设施

  Hadoop为大数据领域提供了智能存储解决方案,但是如果你抱着取代现有基础设施的念头,那还是不要部署Hadoop了,将Hadoop视为可替代现有数据分析基础架构的想法并不明智。通常,企业会选择与数据仓库结合使用以获得最大收益。

  4、技术门槛

  尽管Hadoop开源且拥有相当活跃和庞大的社区,但对企业而言,技术门槛这关并不是好迈的。Hadoop的MapReduce和HDFS固然好,但是搭建这些架构是需要具备相当专业的技术知识和实力的。近几年,大数据相关专业人才更是身价倍增,企业如果想要招聘相关技术专家,需要付出相当高的人力成本。为了保证企业海量数据安全平稳得运行,企业还需要花费成本建立运维和数据安全团队,这部分成本是没办法忽略的。

  5、机器学习能力欠缺

  AI时代,这一缺点变得非常致命。Ness SES的CTO Moshe Kranc认为,Hadoop已经展示出了其年代感,不管是Hadoop的HDFS、MapReduce还是它的机器学习组件Mahout。在这一方面,Spark似乎表现更加优异,Spark不断从Hadoop的经历中学习,具有更通用和可扩展的编程模型,易于分析且拥有强大的图形数据库(Graphx)和全功能数据科学库(MLib)。当然,如果企业自己具备生态整合的能力,那么这个问题可能就不存在了。

CIO视角:国外企业部署Hadoop犹豫什么?
▲Ness SES的CTO Moshe Kranc

  如果只学会了用Hadoop存储大量数据,那么毫无意义!

  对国外企业而言,糟糕的用户体验很可能是因为并没有发挥出Hadoop的优势,Hadoop这样的分布式系统在海量数据处理方面的优势毋庸置疑,但是为什么很多企业并不看好它呢?

CIO视角:国外企业部署Hadoop犹豫什么?
▲Silicon Valley Data Science的CTO John Akred

  Silicon Valley Data Science的CTO John Akred表示,在国外,无论是医疗保健、制造业还是金融领域,公司在部署Hadoop这样的分布式系统时一般会选择从初始用例也就是简单用例开始,以便了解整个Hadoop的工作流程。公司可能会开始尝试将部分数据收集并运行到Hadoop之上,通过简单的测试证明,确实可以使用Hadoop来存储大量非结构化数据,到这里所有步骤似乎都没有问题,但这真的对业务产生价值了吗?如果企业并没有通过部署Hadoop而对业务产生价值,那么这一决策的意义是什么呢?

  其次,很多企业会低估Hadoop的操作复杂性,无法清晰认知习惯了使用IBM Db2和Oracle等传统数据技术的人在使用Hadoop方面会面临多少转型问题。

  戴尔EMC的Boni Bruno:推动Hadoop建设的三大关键因素!

  通篇,我们不难发现,国外大部分企业之所以会拒绝部署Hadoop,一部分原因是自身数据量尚未达到海量规模,一部分是部署和使用方式有困难。Boni Bruno表示,戴尔EMC已经帮助不少企业成功部署了Hadoop大数据分析解决方案,其不少客户对于Hadoop还是极其关心的,Boni Bruno认为企业采用Hadoop有三大关键驱动因素:

CIO视角:国外企业部署Hadoop犹豫什么?
▲戴尔EMC首席解决方案架构师Boni Bruno

  1、企业数据仓库优化

  随着数据量的增加,许多CIO会发现企业数据仓库(EDW)的容量正在逐渐耗尽,导致数据加载处理时间过长,SLA得不到满足,最终影响关键业务的智能交付。通过将资源密集型ETL流程迁移到Hadoop,CIO可以在其EDW上释放宝贵的CPU周期并提高性能。通过将冷数据迁移至Hadoop,可以节省资金并释放容量降低成本。事实上,与EDW系统中不可用的其他数据结合时,可以挖掘Hadoop中的冷数据以获得额外的业务洞察。使用外部系统日志、社交媒体、安全数据等分析冷数据,使用Hadoop优化EDW,可为CIO降低成本,改进报告并支持更多类型的非结构化数据。

  2、流式分析和物联网

  以Hortonworks Data Flow或IBM Streams为例,CIO可根据需要向Hadoop集群添加和调整数据源,跟踪和审计数据路径,并使用可用带宽动态调整数据管道。关键是可以探索、优化和变换数据,比如支付跟踪、定价、消费者反馈、收缩分析、客户行为等,从而优化整个供应链、客户支持、库存控制、供应商记分卡等。转变业务模式,主动配置人员,改进目标供应,并使用预测分析增强各种其他业务流程。

  3、安全分析和威胁检测

  Hadoop的安全分析和威胁检测用例日益增长。在Netflow流、日志流、数据流和存储数据上使用机器学习算法和数据分析,公司可以识别复杂的威胁载体并主动修复攻击。从欺诈检测到数据窃取,Hadoop提供了一个完整的平台,可处理全套遥测数据,实现高级关联并为先期威胁提供单一视图。

  以上这些国外企业在搭建Hadoop时遇到的问题也侧面证实了Gartner“Hadoop即将在到达生产成熟期之前衰落”的结论,因为整个报告的调查主体相对来说更偏向于国外企业,这些企业对Hadoop的态度直接影响了Gartner的结论,而上述这些问题放在国内的大数据环境又会发生很多变化,这也让国内不少企业无法相信Hadoop失宠言论。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31077337/viewspace-2156397/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2016-03-28

  • 博文量
    234
  • 访问量
    403063