ITPub博客

首页 > 大数据 > 数据挖掘 > 码教授告诉你云计算和大数据是不可分开的

码教授告诉你云计算和大数据是不可分开的

原创 数据挖掘 作者:lucky冯帅 时间:2018-08-20 14:01:19 0 删除 编辑


  1. 数据不大也包括智慧


  一开始这个大数据并不大。正本才有多少数据?现在咱们都去看电子书,上网看新闻了,在咱们80后小时分,信息量没有那么大,也就看看书、看看报,一个星期的报纸加起来才有多少字?假设你不在一个大城市,一个一般的学校的图书馆加起来也没几个书架,是后来跟着信息化的到来,信息才会越来越多。


  首要咱们来看一下大数据里面的数据,就分三种类型,一种叫结构化的数据,一种叫非结构化的数据,还有一种叫半结构化的数据。


  结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。


  非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页,有时分非常长,有时分几句话就没了;例如语音,视频都对错结构化的数据。


  半结构化数据:是一些XML或许HTML的格式的,不从事技能的可能不了解,但也没有联络。


  其实数据本身不是有用的,必需要通过必定的处理。例如你每天跑步带个手环收集的也是数据,网上这么多网页也是数据,咱们称为Data。数据本身没有什么用处,但数据里面包括一个很重要的东西,叫做信息(Information)。


  数据非常杂乱,通过收拾和清洗,才华够称为信息。信息会包括许多规则,咱们需求从信息中将规则总结出来,称为知识(Knowledge),而知识改变命运。信息是许多的,但有人看到了信息相当于白看,但有人就从信息中看到了电商的未来,有人看到了直播的未来,所以人家就牛了。假设你没有从信息中提取出知识,天天看朋友圈也只能在互联网滚滚大潮中做个看客。


  有了知识,然后运用这些知识去运用于实战,有的人会做得非常好,这个东西叫做智慧(Intelligence)。有知识并不必定有智慧,例如很多学者很有知识,现已发作的作业能够从各个角度分析得头头是道,但一到实干就歇菜,并不能转化成为智慧。而许多的创业家之所以巨大,就是通过获得的知识运用于实践,毕竟做了很大的生意。


  所以数据的运用分这四个进程:数据、信息、知识、智慧。


  毕竟的阶段是许多商家都想要的。你看我收集了这么多的数据,能不能根据这些数据来帮我做下一步的决议计划,改进我的产品。例如让用户看视频的时分周围弹出广告,正好是他想买的东西;再如让用户听音乐时,其他举荐一些他非常想听的其他音乐。


  用户在我的运用或许网站上随意点点鼠标,输入文字对我来说都是数据,我就是要将其间某些东西提取出来、辅导实践、构成智慧,让用户堕入到我的运用里面不可自拔,上了我的网就不想脱离,手不断地址、不断地买。


  许多人说双十一我都想断网了,我老婆在上面不断地买买买,买了A又举荐B,老婆大人说,“哎呀,B也是我喜欢的啊,老公我要买”。你说这个程序怎样这么牛,这么有智慧,比我还了解我老婆,这件作业是怎样做到的呢?


  2. 数据怎样升华为智慧


  数据的处理分几个进程,完成了才毕竟会有智慧。


  第一个进程叫数据的收集。首要得有数据,数据的收集有两个方法:


  第一个方法是拿,专业点的说法叫抓取或许爬取。例如查找引擎就是这么做的:它把网上的一切的信息都下载到它的数据中心,然后你一搜才华搜出来。比如你去查找的时分,效果会是一个列表,这个列表为什么会在查找引擎的公司里面?就是因为他把数据都拿下来了,可是你一点链接,点出来这个网站就不在查找引擎它们公司了。比如说新浪有个新闻,你拿百度搜出来,你不点的时分,那一页在百度数据中心,一点出来的网页就是在新浪的数据中心了。


  第二个方法是推送,有许多终端能够帮我收集数据。比如说小米手环,能够将你每天跑步的数据,心跳的数据,睡觉的数据都上传到数据中心里面。


  第二个进程是数据的传输。一般会通过队伍方法进行,因为数据量实在是太大了,数据有必要通过处理才会有用。可系统处理不过来,只好排好队,逐渐处理。


  第三个进程是数据的存储。现在数据就是金钱,掌握了数据就相当于掌握了钱。要不然网站怎样知道你想买什么?就是因为它有你前史的买卖的数据,这个信息可不能给别人,非常宝贵,所以需求存储下来。


  第四个进程是数据的处理和分析。上面存储的数据是原始数据,原始数据多是杂乱无章的,有许多废物数据在里面,因而需求清洗和过滤,得到一些高质量的数据。关于高质量的数据,就能够进行分析,然后对数据进行分类,或许发现数据之间的彼此联络,得到知识。


  比如盛传的沃尔玛超市的啤酒和尿布的故事,就是通过对人们的购买数据进行分析,发现了男人一般买尿布的时分,会一起购买啤酒,这样就发现了啤酒和尿布之间的彼此联络,获得知识,然后运用到实践中,将啤酒和尿布的货台弄的很近,就获得了智慧。


  第五个进程是关于数据的检索和开掘。检索就是查找,所谓外事不决问Google,内事不决问百度。表里两大查找引擎都是将分析后的数据放入查找引擎,因而人们想寻觅信息的时分,一搜就有了。


  其他就是开掘,仅仅查找出来现已不能满意人们的要求了,还需求从信息中开掘出彼此的联络。比如财经查找,当查找某个公司股票的时分,该公司的高管是不是也应该被开掘出来呢?假设仅仅查找出这个公司的股票发现涨的特别好,所以你就去买了,其实其高管发了一个声明,对股票非常倒霉,第二天就跌了,这不坑害宽广股民么?所以通过各种算法开掘数据中的联络,构成知识库,非常重要。


  3. 大数据时代,众人拾柴火焰高


  当数据量很小时,很少的几台机器就能处理。逐渐的,当数据量越来越大,最牛的服务器都处理不了问题时,怎样办呢?这时就要聚合多台机器的力气,咱们齐心协力一起把这个事搞定,众人拾柴火焰高。


  关于数据的收集:就IoT来讲,外面安置这不计其数的检测设备,将许多的温度、湿度、监控、电力等数据统统收集上来;就互联网网页的查找引擎来讲,需求将整个互联网一切的网页都下载下来。这显着一台机器做不到,需求多台机器组成网络爬虫系统,每台机器下载一部分,一起作业,才华在有限的时间内,将海量的网页下载结束。


  关于数据的传输:一个内存里面的队伍必定会被许多的数据挤爆掉,所以就产生了根据硬盘的分布式队伍,这样队伍能够多台机器一起传输,随你数据量多大,只需我的队伍满意多,管道满意粗,就能够撑得住。


  关于数据的存储:一台机器的文件系统必定是放不下的,所以需求一个很大的分布式文件系统来做这件作业,把多台机器的硬盘打成一块大的文件系统。


  关于数据的分析:可能需求对许多的数据做分解、统计、汇总,一台机器必定搞不定,处理到猴年马月也分析不完。所以就有分布式核算的方法,将许多的数据分红小份,每台机器处理一小份,多台机器并行处理,很快就能算完。例如闻名的Terasort对1个TB的数据排序,相当于1000G,假设单机处理,怎样也要几个小时,但并行处理209秒就完成了。


  所以说什么叫做大数据?说白了就是一台机器干不完,咱们一起干。可是跟着数据量越来越大,许多不大的公司都需求处理相当多的数据,这些小公司没有这么多机器可怎样办呢?


  4. 大数据需求云核算,云核算需求大数据


  提到这儿,咱们想起云核算了吧。当想要干这些活时,需求许多的机器一块做,真的是想什么时分要就什么时分要,想要多少就要多少。


  例如大数据分析公司的财政状况,可能一周分析一次,假设要把这一百台机器或许一千台机器都在那放着,一周用一次非常糟蹋。那能不能需求核算的时分,把这一千台机器拿出来;不算的时分,让这一千台机器去干其他作业?


  谁能做这个事儿呢?只需云核算,能够为大数据的运算供应资源层的灵活性。而云核算也会安置大数据放到它的PaaS途径上,作为一个非常非常重要的通用运用。因为大数据途径能够使得多台机器一起干一个事儿,这个东西不是一般人能开发出来的,也不是一般人玩得转的,怎样也得雇个几十上百号人才华把这个玩起来。


  所以说就像数据库相同,其实仍是需求有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的处理方案了,一个小公司需求大数据途径的时分,不需求收购一千台机器,只需到公有云上一点,这一千台机器都出来了,并且上面现已安置好了的大数据途径,只需把数据放进去算就能够了。


  云核算需求大数据,大数据需求云核算,二者就这样结合了。



来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31549219/viewspace-2212355/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-08-10

  • 博文量
    28
  • 访问量
    11979