ITPub博客

首页 > 大数据 > Hadoop > 瀚高大数据解决方案

瀚高大数据解决方案

Hadoop 作者:syf1234567890 时间:2013-08-30 13:30:49 0 删除 编辑

摘要:面对大数据时代海量数据的出现,传统的关系型数据库管理系统的数据处理方式面临巨大挑战。瀚高审时度势,为了更好的实现对数据的处理提出自己的大数据解决方案,将瀚高数据库与Hadoop相结合,各取所长,用全新的方式实现对大数据的管理。

关键词:大数据   Hadoop   瀚高大数据解决方案 

 

一、大数据时代

    随着社交网络的不断成熟,移动带宽快速提升,云计算、物联网应用更加丰富。越来越多的的传感设备、移动终端接入到网络,由此产生大量的非结构化数据和半结构化数据,并且数据的增长速度将比以往任何时期都要多,都要快。全球数据正以每年40%的速度增加,非结构化数据所占的比率已经高达80%左右。今天的IT发展用数据爆炸来描述可以说是非常贴切的,未来的几年将是一个“大数据”引领的智慧科技的时代。根据国际数据公司IDC 2011年发布的Digital Universe Study,可以了解到:信息的全球总量每过两年,就会增长一倍。早在2011年,全球被创建和被复制的数据总量为1.8ZB。与2010年同期相比上涨超过1ZB,按照此速度可以预测到2020年这一数值将增长到35ZB。“大数据”时代已经来临。

    数据的暴涨的同时,大数据的应用行业不断扩展、市场规模不断扩大。在它刚出现的时候,基本上只用在高端科技类(Google、Facebook)或者硅谷网络分析公司中;到现在更多的主流公司如银行、电信、保险公司,电子商务等更为传统的行业也意识到大数据的价值,越来越多的公司企业开始追赶这股潮流。据统计大数据处理的市场规模已达700亿美元,并且正以每年15%-20%的速度增长。几乎所有主要的大科技公司都开始对大数据感兴趣,并且对该领域的产品及服务进行了大量投入。其中包括了IBM、Oracle、EMC、Intel、HP、Dell、SGI、日立、Yahoo、华为等,而且这个列表还在继续增加。

二、大数据的特点及Hadoop大数据处理技术

(一)大数据的特点

    麦肯锡对大数据定义是: 无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。“大数据”这一术语的内涵远远超越了“大”或是“数据”的含义。大数据的确体现为数量庞大,但它仍有更多特性需要进一步去了解。与传统数据库相比,大数据与它既有相同之处,也有自己独有的特点,目前大数据的特点主要可以归纳为:数据体量巨大、多样性、高速。

数据体量巨大:大型数据集,数据规模从TB 级别,跃升到PB 级别。

多样性:数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,具有繁杂管理数据类型和数据结构的能力,既有结构化又有非结构化数据。

高速:数据被创建和移动的速度快,快速处理海量结构化和非结构化数据,包含大量在线或实时数据分析处理的需求,以秒为定律。

(二)Hadoop大数据处理技术

    大数据与传统意义上的数据挖掘相比,大数据是快速更新的、庞大无比的、混乱的,无序的。这种情况下,为了应对海量数据,需要存储、需要处理、需要查询、需要统计等等。迫切需要寻求新的处理技术手段。这一新形势必然对设备、软件、传输,包括理念的转变,都提出了新要求。

    只要谈到大数据,就一定会提到Hadoop。Hadoop是Apache软件基金会管理的一个开源项目。简言之,Hadoop就是目前最流行,使用最多的一款处理海量数据的工具,是一个搭建在廉价PC上的分布式集群系统架构,它具有高可用性、高容错性和高可扩展性等优点。它的操作对象就是非结构化数据和结构化数据的大规模数据集。Hadoop主要由HDFS(Hadoop Distributed File System)、MapReduce和HBase三部分组成,是一个能够便捷地开发和运行处理大数据的开源软件平台,具有极大的扩展性和良好的伸缩性,可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求。它可以为应用程序提供一组稳定可靠的接口,构建一个具有高可靠性和良好扩展性的分布式系统,让用户便捷地存储和处理海量数据。

三、瀚高大数据解决方案

(一)方案背景

    瀚高数据库是一款由山东瀚高基础软件股份有限公司自主研发、自主可控的国产数据库。该数据库是一款特性非常齐全的企业级对象-关系型数据库系统,拥有众多的现代特性和企业级功能,涵盖了所有主流数据库的核心特性,支持海量存储、高并发,在其所管理的数据量和所能容纳的并发用户的数量上都拥有极其强大的扩展功能。瀚高紧随大数据的脚步,将瀚高数据库和Hadoop相结合,构建海量数据分析系统,通过Hadoop为高级分析和数据挖掘应用提供了更好的环境。

    应对数据暴涨的传统解决方式主要是通过以下几种方式:一是硬件升级,用更强大的处理器,提高存储速度;二是对数据库的优化,通过SQL调优、分区表、压缩表等方式来解决;三是业务层面的调整,通过缩小分析统计范围、频次等方式解决。但是海量数据的出现,让传统的解决方式方式变得有些力不从心。瀚高紧跟业内技术的发展趋势,把具有海量数据存储及计算功能的Hadoop与瀚高数据库相结合,实现两平台间数据的转移、交互,将自己数据库中运行较慢、占用大量系统资源的统计分析SQL交由Hadoop分布式计算平台去实现。

    瀚高数据库在与Hadoop的结合,一方面增强了自身的处理能力,它可以将一些海量数据复杂数据交由Hadoop去处理,这样瀚高数据库可以专注处理其设计用来做的事情。另一方面,二者的结合使瀚高数据库系统的功能得到强化,Hadoop可以从任意多的数据源吞入任何类型的数据,可以是结构化数据,也可以是非结构化数据。来自多个数据源的数据可以按照任何所需要的方式进行合并和聚合,从而可以是实现任意一个单一系统都无处处理的深度数据分析。

(二)瀚高大数据解决方案简介

1. 实现瀚高数据库与Hadoop数据交互,充分利用Hadoop的扩展能力和并行计算能力。

    Hadoop支持通过一定的方式从数据库中抽取数据。瀚高数据库也具有批量导出导入功能。瀚高大数据解决方案的核心是实现瀚高数据库与Hadoop间高效的数据导入导出,瀚高数据库可以经过调整,专门用来处理交互式任务,把复杂的分析工作就可以交给Hadoop来完成,对实施系统没有任何影响。

    Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。它以并行的方式工作,通过并行处理加快处理速度,实现在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。海量数据通过并行计算,将得出的结果归并到输出。同时第一阶段的输出又可以作为下一阶段计算的输入,因此可以想象到一个树状结构的分布式计算图,在不同阶段都有不同产出,同时并行和串行结合的计算也可以很好地在分布式集群的资源下得以高效的处理。瀚高数据库和Hadoop平台技术的结合可以充分利用Hadoopd高效扩展性和高速的并行计算能力处理数据,将结果反馈给瀚高数据库系统,这样就可以大大提高数据库的运行效率。

2. 低成本的优秀解决方案

    Hadoop带来了廉价的处理大数据的能力。瀚高数据库擅长处理结构化数据,并且可以存储大量的数据。但成本上有些昂贵。Hadoop分布式文件系统HDFS的设计,可部署在廉价的服务器集群上、容错的分布式文件系统,能够提供高吞吐量的数据访问,很适合大规模数据及上的应用。它可以存储并管理PB级数据,既可以是结构化的数据也可以是非结构化话的数据。

    Hadoop提供了低成本解决问题的方案,它本身是没有价格限制的,于是它很轻松地能够在10台、50台或者上百台的机器上并发处理大规模数据。只需制定一个相对简单的映射和简化的规则,它们将负责分配这些任务给每一台机器并确保所有的任务都能成功完成,如果有任何一台机器故障,它们将重新分配改机器上的任务给其他正常的机器。所以,瀚高数据库和Hadoop相结合的大数据解决方案在成本控制方面的潜在优势甚至超过它在分析数据库以及对分析型数据库的可扩展性方面的优势 。

3. 统计分析不再受限制

    瀚高数据库擅长结构化数据之上的OLAP/OLTP作业任务,这种对数据的要求限制了可处理的数据种类,这样可能会影响到数据库在面对海量异构数据时敏捷的探索,这样可能会造成有价值的数据源在组织内从未被挖掘。而Hadoop被设计用来解决一个不同的难题:在既有结构数据又有复杂结构数据的数据集之上,实现快速、可靠的分析。瀚高大数据解决方案就是充分利用Hadoop对数据的处理方式的独到之处,把瀚高数据库与Hadoop结合,把自己不擅长的方面交由Hadoop去处理,瀚高数据库就可以专注自己更擅长的事情。

四、小结

    瀚高大数据解决方案将带来新的开发模式和新的理念。Hadoop只需要在大量廉价的硬件设备组成的集群上来运行程序,根据需要随时增加节点进行升级,这相对于传统数据库的升级来讲更为廉价。Hadoop对数据源的数据没有任何要求,也可以按任意的方式向外部系统传递数据,这样一来,Hadoop可以用来备份业务系统的全部数据,根据自己的信息的问题定制,更便捷的分析和研究复杂数据,突破瀚高数据库的技术瓶颈。瀚高数据库更擅长处理查询密集型的计算任务,瀚高大数据解决方案将二者结合,便可以各取所长,从而能够以全新的方式来处理数据。

    瀚高大数据解决方案既可以为用户节约使用成本,又可以为用户提供最新,最高效的大数据处理技术,从而为用户提供准确的市场营销策略。目前经过多年的信息化建设,许多政府部门、企业等都积累了海量数据,迫切的需要利用大数据技术对这些海量数据进行分析、处理和挖掘。越来越多的政府部门和企业都意识到大数据蕴藏的巨大价值。瀚高意识到这一点,面对当前这一宝贵的历史机遇,研发瀚高数据库的大数据解决方案,推动瀚高在大数据发展的大潮中扬帆远航。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22510084/viewspace-1120146/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-09-10