ITPub博客

首页 > 大数据 > 数据分析 > HDinsight超大规模数据的交互式查询新特性

HDinsight超大规模数据的交互式查询新特性

原创 数据分析 作者:LEE_CHAO 时间:2017-10-20 15:27:01 0 删除 编辑
最新的HDinsight中,引入了Apache Hive 2.1。 由于Hive on LLAP的新特性,可以使Hive基于PB级别的海量数据进行交互式的即席分析。这样很多基于Hive开发的应用不需要改变原有代码的条件下,性能就会有质的飞跃 。以下是一个与传统Hive性能基于TCPDS测试基准的一个比较


除了性能提升外,由于引入了更精细化的资源管理能力,使得Hive on LLAP可以支持更多的并发访问。HDinsight允许多个计算集群访问相同的数据集合,近一步放大了这种并发能力。这样,不同的用户群体,可以使用不同的工具,比如PowerBI, Tableau, Excel, Hive View 2.0, Beeline, Hive CLI, Visual Studio,  Zeppelin等等,基于相同数据集合去完成自己的海量数据分析需求
Hive on LLAP还可以利用SSD和RAM做为Cache进行加速,支持更多用户的并发访问。Azure HDinsight已经内置了SSD做为Cache,不需要用户付出额外成本

不同集群在Azure上共享相同数据集合,避免不同负载之间的资源竞争,也避免了数据复制的额外存储开销和性能开销

对于企业来说,大数据平台的安全性也至关重要,HDinsight的交互式查询可以和AAD集成在一起,只有经过认可的用户才可以访集群中的数据。结合Ambari和Azure Log Analytics监控集群和进行事后分析,提高整体安全性


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25548387/viewspace-2146194/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2011-03-18

  • 博文量
    70
  • 访问量
    377851