ITPub博客

首页 > 大数据 > 数据分析 > 云计算与云数据管理概述

云计算与云数据管理概述

数据分析 作者:flyguy2009 时间:2011-04-27 18:16:26 0 删除 编辑

云计算是一种新兴的计算模式,它是最近一个非常热的一个研究和讨论的课题。我参加云计算的研究和开发也有一年多的时间,下面一系列的文章中会详细讨论云计算与云数据管理的课题。云计算与分布式计算、分布式系统有着千丝万缕的联系。目前看,云计算在许多方面其实只是互联网的一个比喻词,即计算和数据资源日益迁移到网络上的比喻词。不过,区别也是存在的:云计算代表网络计算价值的一个新的临界点。 它提供更高的效率、巨大的可扩展性和更快、更容易的软件开发。其中心内容为新的编程模型、新的IT基础设施以及实现新的商业模式。要搞清楚分布式系统与云计算,不仅要探讨相关的理论基础,也要通过技术分析和编程应用来帮助理解。在首先了解了分布式系统的目标和基本模型的基础下,需要对典型云平台及其相关技术如Bigtable、 MapReduce、PNUTS、Aneka、Greenplum等进行了解,对平台Amazon EC2、Google Apps、 MS Azure、Hadoop等进行实践。下面我会一一详细介绍。

定义:云计算由一系列可以动态升级和被虚拟化的资源组成,这些资源被所有云计算的用户共享并且可以方便地通过网络访问,用户无需掌握云计算的技术,只需要按照个人或者团体的需要租赁云计算的资源。

云计算与集群、网格计算的区别:在集群中,资源位于单个的管理区中由单个实体进行管理;而在网格系统中, 资源分布在不同的管理区,每个管理区都有其策略和目标。集群系统中的调度器着眼于提高系统整体性能和设备,因为它们负责的是整个系统。而在网格系统中调度器被称为资源代理,着眼于提升特定应用的表现来满足终端用户的服务质量需求。云计算拥有集群和网格的特性,并有其特殊的属性和能力,例如对虚拟化的支持,与Web服务接口进行的动态组合服务,以及通过建造云计算、存储和应用服务对创建第三方增值服务的支持。因此,云可以对用户提供服务而无须考虑其依赖的架构。

云计算和云数据管理中面临的一些挑战:云计算是一项正在兴起中的技术。它的出现,有可能完全改变用户现有的以桌面为核心的使用习惯,而转移到以Web为核心,使用Web上的存储与服务。人类有可能因此迎来一个新的信息化时代!云计算绝不仅仅是一个计算的问题,它需要融合许许多多的技术与成果。现有的许多研究问题将来必然是云计算的一部分,例如Web数据集成、个人数据空间管理、数据外包服务、移动路网上的研究以及隐私问题的研究,都会成为未来云计算的重要组成部分。但是现实中云计算也面临着诸多挑战。

 

  • 首先,云计算和云数据管理中一个跨领域问题就是供应商要在功能和开发代价上作权衡。目前,早期的云计算提供的API比传统的数据库系统的限制多得多。他们只提供一个极小化的查询语言和有限的一致性保证。这给开发者带来更多的编程负担,同时对于一个功能完备的SQL数据库允许服务供应商提供更多的预期服务和服务级别协议也是很难达到的。
  • 其次,易管理性在云计算中极其重要,这也带来新的挑战。和传统的系统相比,受工作负载变化幅度大和多种多样的共享设备的因素影响,云计算中管理任务更加复杂。大多数情况下,由于云系统中机器数量太大,数据库管理员和系统管理员很难对所有机器进行全面周全的人工干预。所以迫切地需要自动管理的机制。本来混合负载就很难调优,但在云平台中这种调优是不可避免的。
  • 20世纪90年代末,研究学者们开始研究自我管理技术。云数据管理系统需要自适应的在线技术,反过来系统中新的架构和API(包括区别于传统SQL语言和事务语义的灵活性)又促进了颠覆性的自适应方法的发展。接着,云计算和云数据管理的庞大规模同样带来了新的挑战。现有的SQL数据库不能简单地处理放置在云中的成千上万的数据。在存储方面,是用不同的事务实现技术,还是用不同的存储技术,或者二者都用来解决还不确定。在这个问题上,目前在数据库领域内有很多提议。就查询处理和优化而言,如果搜索一个涉及到数千条处理的计划空间需要花费很长时间,那么这是不可行的,所以需要在计划空间或搜索上设限。最后如何在云环境中编程还尚不清楚。因此,需要更多的了解云计算和云数据管理的限制问题(包括性能限制和应用需求)来帮助设计。
  • 此外,在云基础架构中,物理资源共享带来新的数据安全和隐私危机。它们不能再依靠机器或网络的物理边界得到保障。因此云计算为加速这方面现有的工作提供了难得的机遇。要想成功,关键在于能否准确瞄准云的应用场景以及能否准确把握服务供应商和顾客的实际动向。
  • 最后,随着云计算越来越流行,预计有新的应用场景出现,也会带来新的挑战。例如,可能会出现一些需要预载大量数据集(像股票价格、天气历史数据以及网上检索等)的特殊服务。从私有和公共环境中获取有用信息引起人们越来越多的注意。这样就产生新的问题:需要从结构化、半结构化或非结构的异构数据中提取出有用信息。同时,这也表明跨“云”服务必然会出现。在科学数据网格计算中,这个问题已经很普及。而联合云架构不会降低,只会增加问题的难度。综上所述,可以看出云计算和云数据管理平台服务本身在适当场景下巨大的优势,同时还有所面临的技术难题亟待解决。

 

参考资料:
http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf
The Claremont Report on Database Research 可以直接从以下网站下载
http://db.cs.berkeley.edu/claremont/

 

转载自嘉恒说 [ http://www.jiahenglu.net/ ]
原文链接:
http://www.jiahenglu.net/blog/7.html

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21360520/viewspace-1121985/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-04-11