ITPub博客

首页 > 大数据 > Hadoop > 浅谈大数据之语言和数据压缩比

浅谈大数据之语言和数据压缩比

Hadoop 作者:wind68703100 时间:2012-12-10 21:55:05 0 删除 编辑

 

不知道大家有没有看过这篇关于TWritter的文章《看Twitter如何应对大选:少些Ruby 多些Java》。

http://www.csdn.net/article/2012-11-12/2811740-twitter-handle-election-tweets-less-ruby 

文中说:奥巴马和罗姆尼的选举日当天,Twitter服务器每分钟处理的数目为327452条!当天人们在Twitter上发布了3100万条跟选举相关的内容,而Twitter访问量阶段性飙升,一度达到每秒15107条。在互联网世界里,真正成功的不是奥巴马,而是Twitter,因为Twitter这次没有宕机。

作为迁移Ruby的一部分,我们重新配置了服务器,移动客户端的访问将通过Java虚拟机堆栈,从而避免与Ruby堆栈同时进行”,Rawashdeh如是说,“能承受这样的负载得益于Twitter利用Java改写了Ruby on RailsTwitter。起初公司内部是反对Java,支持Scala,而今,TwitterScalaJava结合了。

Hadoop作为大数据的开放框架中的巨兽,处理过的数据量难以估量。它也是基于Java开发的。

笔者研发的BI产品系列也基于Java,竞争对手在国外一般就是CognosBOBIEE等。从所经历的客户选型来看,客户往往对我们的两大利器颇有赞誉:一是数据的高性能计算,二是数据可视化。这两个方面都是笔者亲手一砖一瓦搭建起来的,所以也有点发言权:准备用Java处理大数据的童鞋,请放心服用。

笔者经常在工作中网络上看到有童鞋说海量数据处理、海量数据计算不能用Java,得要用C或者C++,云云。每次只能一笑了之。大多数时候,辩论是完全没有意义的,因为没有标准答案。

 

经常看到一些数据仓库产品讲数据压缩比,压缩到1/10以上,省盘90%云云。

笔者以为,对于MPP节点之间的数据传递,综合网络带宽也许需要比较狠的数据压缩,除此之外省盘聊胜于无,它并不太重要。

现在PC机的磁盘标配都是TB了,省不省盘没啥用处,还可能有副作用。分析如下:

当处理海量数据计算请求的时候,一般都需要把数据装载入内存,如果有压缩,需要在内存中展开数据再进行计算。一般的Developer都知道,展开数据是一个容易导致频繁内存申请和释放,而解压缩又极可能是一个比较消耗CPU的过程。

所以,当衡量一个数据仓库或者数据集市产品的时候,省盘可以考虑一下,更重要的是去考虑它是不是省内存、省CPU、省时间。

一款好的产品,会有比较好的内存设计去省略或优化数据展开的过程,这一过程不会导致频繁的内存申请和释放;基于高性能的考虑,它会选取高效的办法去装载磁盘数据或丢弃内存数据,以追求最快响应;而在CPU负载上,则会尽量节省CPU计算量,做到海量数据实时计算。

因而,在衡量一个数据仓库或者BI产品的时候,建议基于一系列的磁盘、内存和CPU配置,进行测试。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/9508460/viewspace-1120485/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论