ITPub博客

首页 > 大数据 > 数据分析 > 云计算与大数据:生命的结构

云计算与大数据:生命的结构

数据分析 作者:卡尔丹顿 时间:2014-01-08 23:43:32 0 删除 编辑

    刚过去的2013年,大数据被炒得很热,习大将集体学习搬到中关村的时候,还特意点出了大数据。但究竟什么是大数据,大数据能给我们的生活带来什么样的变化。

本文,谈点个人心得。

首先介绍两本书:姚宏宇 田溯宁,云计算 大数据时代的系统工程,电子工业出版社;维克托·迈尔-舍恩伯格 肯尼思·库克耶,大数据时代,浙江人民出版社。前一本,较为全局地讲述了云计算是怎么回事,后一本则是认识大数据的基础书目。

云计算,学界、业界很难给出一个公认的定义,我也懒得去做定义的文献综述。通常我们接触到的云计算概念是360、百度等大公司提供的云存储服务,你可以注册百度云盘,获得一定额度的免费空间,看起来只是网络硬盘的一种形式。但如果问及数据存在哪里,是存在他们公司的服务器中,还是游离于网络中,就不太好说了。他们会解释说:或许都不准确,准确地说,在云里。可是,什么是“云”呢。再多专业的解释都难以描述,在技术上,这也是模糊不清的。

这里,我们换个思路,不再纠结于“云”。我们看数据在哪。不管是云计算还是电脑实体,所要做的无非就是处理数据,弄清楚数据的路径,我们便明白了云计算。

通常的个人电脑数据都是存储于硬盘,这是个封闭的系统,无论电脑被如何捣鼓,中什么样的病毒,其他人都无法把你的硬盘当作他们的,存储他们的数据,从某种角度说,你硬盘中未用的空间是被浪费的。而一旦硬盘损坏,所有的信息都将丢失,对于个人来说,也许只是很大的遗憾。但把个人电脑天放大到企业层级,比如新浪微博,想象一下,假如新浪微博的服务器是个封闭的系统,无论服务器中的哪块硬盘损坏都会导致用户数据的丢失,这是一个企业不能接受的。同样的,不一定能相互兼容的、封闭的服务器,使新浪公司里的其他类别服务器硬盘很难共享给新浪微博,造成资源浪费。随着信息的爆炸增长,这些公司光维护服务器,就得花费一笔不小的投入。

有个生动的比方:在电网出现以前,人们用电都是自备发电机。这种自产自销的电能很不稳定,如果你的发电机坏了,你家就得停电。另一方面,有些人可以发较多的电,用得却少;有些人发电量少,却用得多。但各家发电机的电压又不一样,甚至电路都没连接,根本没法共享、合理配置这此电力资源。

为了解决这两个问题,谷歌等国际互联网公司开发出了一些软件,如hadoop等。通过这类软件,将原本不兼容的服务器以虚拟的方式整合。在数据进入公司的服务器之前,先通过这个虚拟层,虚拟层通过软件的算法,把数据存储在虚拟层覆盖的特定位置,并利用冗余技术,将数据备份存储,一旦原数据出现问题,冗余的备份立即恢复原数据。这种存储方式有诸多优点:可扩展(只要新接入设备被虚拟层覆盖就可以)、容错率高(一个地方数据损坏,另一个地方马上恢复)、基础资源利用率高(富余的资源将被合理配置)。

回到那个关于电的比方:人们不再自己发电供自己使用了,而是接入电网,电网系统通过变压设备,将接入的电能统一输出为标准电压电能,不论哪一个家庭,只要从电网上取电就可以。上文所述的三个优势在这里一目了然:可扩展(因为变压的存在,不管什么样的电压都可以接入)、容错率高(一个发电机坏了,不影响电网任何一个节点的用电)、基础资源利用率高(电力被有效配置)。

再往回走,数据在哪,在服务器中?似乎对,也似乎不对。对,是数据确实存储在物理硬盘中,但是哪块硬盘,或是哪几块硬盘呢。根本无从追踪,不仅是因为虚拟层有算法配置,还因为冗余存储。人们或是出于无奈,或是出于骄傲,把这种存储方式称为“云存储”。

前面所说的,是“云”方式对存储空间的配置,计算机还有运算能力。“云”能以相似的方式配置系统中的运算能力,过程与配置存储空间极为相似,都是通过虚拟层的算法合理配置富余资源,这里便不再赘述。

再说大数据,这个词比云计算还热。从许多书的表述可以看出狂热。但如果抛却那些煽动性的语言,筛出实质性的东西,大数据无非是以数据挖掘的形式处理庞大到一定程度的数据而已。

数据挖掘是多年前的老概念,举个例子:你借给甲十元钱,他过了一年才还你。这里产生了几个数据:你借钱给甲,十元,一年,甲还你钱。再多来几个几乎同样的数据,你就会形成一个关于甲还钱的结论:甲会还钱,能还清,时间间隔是一年。这样你就可以针对性地借钱给甲,如果在一年内,你自己要用钱,就不借;你不用担心他不会还钱。这便是简单的数据挖掘。

大数据,就是把这个概念放大,我们每个人都会产生庞大的数据,不在于你是否上网。工资、养老金、住房、车票、购车、医疗……一切可记录的都是数据。在庞大的个人数据面前,只要有合适的逻辑运算模型,就可以方便地推导出你想要的结论,而且结论相当精准。老人们说,三岁看到老,如果看你从出生到现在的所有表现(数据),还有什么可以阻碍把你看透呢。以此引申出,未来以大数据为基础的运作模式必将是个性化的定制服务。将提供许多适合一个人、一个单位量的产品。

这也就是为什么说,往后,谁掌握了数据,谁就能成为这个时代的霸主。目前摆在大数据运用面前的一道鸿沟是,数据难以共享。这不仅是为了数据安全,也是硬件软件条件还难以整合不同类别、不同标准的各类大数据。

但为什么现在才提大数据,为什么把大数据和云计算一起提。这是因为大数据太大了,有概念认为,大数据之所以称为大,是因为已经超出了地球上任何一台单体计算机的处理能力。而依托“云”技术,可以整合众多的计算资源,为大数据运算提供服务。云计算为处理大数据提供了现实可能。

云计算的起步不过三五年,大数据的提出更是这一两年的事。但云计算将大数据及大数据的处理能力从单体服务器中解放出来,终将触发时代的质变。

云计算与大数据共同作用,将使物联网成为可能,个人将被个性定制,公司将组成众多针对单位体的项目组,信息的传播模式将进一步个性化,以人为根本出发点的服务将涌现。

云计算与大数据必将相互促进、补充,齐头并进,像是螺旋体的缠绕,这是DNA的结构,也是生命的结构。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21814577/viewspace-1121084/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-06-04