ITPub博客

首页 > 大数据 > 可视化 > 【板块联动】《真正的大数据:A股任重道远》(第二讲)

【板块联动】《真正的大数据:A股任重道远》(第二讲)

可视化 作者:vvvvvvvvvvvvvvv 时间:2014-02-27 13:21:44 0 删除 编辑

   【博览资讯报道】“超出常用典型数据库或软硬件环境”使硬件的“向外扩展”(Scale-out,即增加硬件设备数量)能力比“向上扩展”(Scale-up,即增加单个设备的处理能力)更重要,对存储设备的并发数和网络扩展能力的要求提高,对中低端服务器需求增加。硬件公司可能受益于大数据。

    “超出常用典型数据库或软硬件环境”和“需要处理这些数据”使软件平台增加分布式处理能力。分布式文件系统和分析型数据库的需求增加。软件平台公司可能受益于大数据。

    在硬件平台和软件平台支持海量数据后,丰富多样的数据分析应用成为可能。大批的美国“大数据”公司专注于提出新颖的分析方法和展示灵活的分析结果,帮助企业、政府和个人用户做决策。在增加硬件平台的“向外扩展”能力、增强软件平台的分布式处理能力之前,这些分析方法的速度和准确性受到限制,因此分析平台受益于大数据。

    视频处理、语音处理、各行业数据的应用是A股热议的“大数据”公司,但与“大数据”的定义有差距。首先,音视频文件虽然数据量大,但目前不做并行处理已经满足应用要求,不符合“超出常用典型数据库或软硬件环境”的定义。其次,音视频图像的处理已压缩、解压缩、传输为主,“人像识别”等高端应用少,不符合“需要处理这些数据”的定义。再次,即使这些行业应用的底层平台确实“超出常用软硬件环境”,但上层的行业应用不需要做出明显的改动。它只是在使用“大数据”的平台,自身并不需要针对“大数据”做出改变。

    网络安全和运维也是A股热议的“大数据”应用领域。这些业务适合所有复杂的软硬件平台,并不需要“对这些数据做特殊处理”,也不是严格意义的大数据公司。可见,大数据产业链主要指代硬件平台、软件平台和分析软件。A股热议的“大数据”公司主要从事行业应用和辅助应用,它们并非大数据产业链的重要环节。

    Google在2003到2006年间发表了三篇有影响力的文章,分别是2003年的可扩展的分布式文件系统(GFS),2004年的MapReduce,和2006年的分布式数据存储系统(BigTable)。GFS是适合大型数据密集应用的分布式文件系统,MapReduce是处理并执行大型数据集的编程模型,BigTable是处理海量数据的数据库。三种技术的核心思想是分布式处理,由此搭建的分布式系统既可在廉价的硬件上运行,又容易扩展规模(Scale-out)。

    此后,Google发展Caffeine技术改善数据索引方式,发展Pregel技术用于图算法技术,使用Dremel查询外部存储的海量数据,于2012年披露PowerDrill7技术用于内部存储的海量数据。这些技术是2003-2006年三种技术的延伸。预计Google还将提出更多技术。

    Google在大数据中处于技术先导。Hadoop的创造者DougCutting给Google评价谷歌:“(谷歌)他们通过发表的技术论文,已经给我们带来了明确的信号。因而也可以预见,即将到来的,究竟是什么。”《大数据》作者维克托?迈尔?舍恩伯格评价谷歌:“我觉得最好就是谷歌,很清楚。我觉得其实它是一个大数据公司,因为他们理解大数据的核心所在,而且如果他没有看到这些数据可以进行多次的重新使用之前,他们不会进入这个市场。”

    Google的大数据业务符合前述两个特征,它发展大数据的意义在于领先技术并挖掘商业化的机会。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21138245/viewspace-1120860/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-03-17