ITPub博客

首页 > 大数据 > Hadoop > MapR CEO 约翰·施罗德看Hadoop的未来

MapR CEO 约翰·施罗德看Hadoop的未来

Hadoop 作者:xskong104 时间:2014-02-03 10:47:40 0 删除 编辑

MapR CEO 约翰·施罗德看Hadoop的未来

作者:Evan Quinn出处:IT专家网2013-07-08 08:59

  【IT专家网】从像谷歌和雅虎的早期项目开始,它就作为数据管理的智慧结晶,现在已经变成整个大数据时代的数据管理催化剂——当然我们正在谈论的是Apache Hadoop项目。人们很难想象的Hadoop作为一个开源项目,但是,因为有几个相关的Apache项目,以及Hadoop的子项目,在一定意义上弥补了整体的Hadoop的开源。 这些项目的数量和范围以及开源Hadoop的触须似乎在不断扩大。

  然而,围绕Hadoop的商业生态系统已经成长,甚至呈现出比开源项目更为惊人的扩张。现在,正在提供Hadoop 连接器,基于Hadoop的BI和分析软件平台,基于Hadoop的分析应用程序,专用的Hadoop分析插件,为Hadoop设计的硬件和网络设备和产品 ,Hadoop专业服务,和Hadoop云服务的供应商,数量就算没有上千也不下于数百家。这样的趋势对IT人员和业务人员都产生了相当大的影响,因此,了解Hadoop的走向非常是重要的。

  正如供给方将赌注压在Hadoop,客户在很大程度上拿起Hadoop的指挥棒。有各种的研究、调查与估计,但我猜测,在全球约25%的企业正在利用Hadoop做面向生产的事情,另外25%还在尝试阶段,大约一半企业则还没有与它结缘。这样一套影响广泛、基于开源的技术和服务,它的下一步将会如何发展?

  为了确定Hadoop的未来,关注开源是重要的,但商业端也不可忽视。在 Hadoop发展的初期,是开源社区推动着商业方面。现在,商业化的Hadoop已经获得了如此多的势头,拉开了与开源社区的距离。

  我跟MapR的CEO,约翰?施罗德(John Schroeder)交流,他的公司提供了最早的 Hadoop商业发行版之一,根非常接近于开源项目。然而,MapR已经通过自己的技术把最难的和最快的Hadoop提供给要求最苛刻的商业企业,如银行行业。让我们结合施罗德的观点,结合开源的和商业的角度,考虑Hadoop的未来。

  MapR首席执行官约翰?施罗德

  Hadoop的下一步:企业级和数据湖

  基于6月下旬在圣何塞的Hadoop 峰会的焦点,似乎有几个开源Hadoop的领域反映出了Hadoop的企业级的成熟趋势,如:

  · 开发:Yarn是新版本的Hadoop集群管理能力的昵称,它已经历了“彻底改革”。Yarn主要将Hadoop从一个单纯的批处理工具变成一个抽象的插件,为处理更多的工作负载而设计,包括批处理、交互式、搜索、在线、流媒体等。从某种意义上说,它打开了MapReduce用例的潘多拉魔盒。施罗德认为,“Yarn是一个重要的增强,我们将整合Yarn到所有的主要分布,但最终客户希望有一个更通用的抽象层来支持SQL访问,各种数据库如Riak和Cassandra,和各种文档型的数据库。”当被问及更多的细节,施罗德表示,“我们应该支持自我描述的对象,如JSON,和用于SQL,MongoDB,其他文件系统,加上HBase和MapReduce 的API。”

  · 系统管理、安全和治理:Apache Ambari的系统管理第一次将Web UI前端带到了Hadoop,通过使用RESTful API。(REST,Representational State Transfer,具象状态传输,一种Web服务编程架构。)这里的想法是扩展管理软件的商业生态系统,使其更容易供应、追踪、监控和管理Hadoop。其他相关的Apache项目意味着使Hadoop更适合首席信息安全官和审计员的口味。

  当我问到如安全和基础设施的问题,施罗德很坚决:“我们最近花费时间在一些财富100强企业和Web 2.0公司,我们听到响亮而明确的声音:他们要部署在内部云上面,所以他们需要多租户。”

  他继续说:“他们要跨越组织,从企业到部门、到角色或域的具体用例和应用。他们需要结合到服务水平。所以为数据湖(data lake)修成正果,需要提供企业级的SLA和安全。这也是我们的最新版本包括一个很大的安全更新的原因之一。我们还需要在Hadoop与虚拟化上面做得更好。这是非常棘手的,因为Hadoop的‘数据加计算’的设计,是Hadoop的价值基础,但它是难以虚拟化的。也许我们可以添加一些数据位置智能到Hadoop,我们已经与VMware在做类似的事情。”

  · 数据湖和未来的数据仓库:一个已经“着火”的想法是基于Hadoop的“数据湖”。具体而言,是使用Hadoop,创建下一代的数据仓库。数据湖将包括大量的半结构化数据和结构化数据,还将包括更现代化的遍布全球各地的基础设施,与老一辈的数据仓库竞争。

  施罗德链接所有这些最新的Hadoop概念,汇集成更大的Hadoop愿景:“广泛的说,数据湖是我们要去的地方,或者把它叫做一个数据平台。MapR的愿景,并不是下一代的数据仓库平台,而是关于未来的数据平台。数据湖的范围远远大于使用Hadoop做分析。例如,如果你是比较原始的Teradata数据仓库和Oracle数据库,Oracle数据库是更通用的。数据湖的概念可能被用于BI和分析,还会用于运营目的,表格存储,Blobstores,它甚至会支持事务语义。”(Blobstores是指一种API,它允许应用程序服务于很大的数据对象。)

  · 更复杂的元数据管理的需要:从战略性的数据湖到此时此地更战术的大数据分析环境中的Hadoop,施罗德认为,Hadoop的元数据可以做一个更好的工作。

  “1995年我在BRIO,我们构建OLAP cube,它们理解元数据,”他说,“如果你看看一些运行在Hadoop之上的类似工具,它们并不那么复杂,因为Hadoop不提供完整的元数据管理。这将打开Hadoop到更多面向SQL的开发者。我们意识到非常众多的SQL程序员和熟悉的SQL产品需要访问 Hadoop。SQL层只是解决方案的一个组件,元数据同样重要。MapR支持 HCatalog作为Hadoop的数据字典,但我们也看到了巨大的价值在文档型数据库和自我描述的对象,如JSON。通过柱状功能和非结构化的搜索将那些数据源媾和,是未来十年的解决方案。”

  根本需求

  那么,Hadoop的未来是什么呢?显然,是继续让企业使用Hadoop更加舒适,在安全、管理,特别是新的应用程序用例方面。从纯粹的BI和分析数据平台迁移Hadoop到更通用的“数据湖”用例的概念,值得IT和业务人员考虑和论证。但如果性能、管理、安全和开发商没有碰撞,基于Hadoop的“数据湖”将不会成为现实。正如施罗德所概括的,“支持这些东西是伟大的,但让它们工作更加美妙。”

 

 

MapR CEO 约翰·施罗德看Hadoop的未来

MapR CEO 约翰·施罗德看Hadoop的未来

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23350325/viewspace-1119563/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-02-16