ITPub博客

首页 > Linux操作系统 > Linux操作系统 > DW2.0系统架构(I)

DW2.0系统架构(I)

原创 Linux操作系统 作者:zhgazn 时间:2013-06-05 23:33:32 0 删除 编辑
在前一篇文章中谈到我们进入了DW2.0时代;针对第一代数据仓库的缺点和不足,业界提出了DW2.0架构和实施方案;2.0架构从一下几个方面显著改善了第一代的不足:
       1. DW2.0对数量级的增长引起基础设施和实施成本大大增加的问题提出了解决思路和方案,使得数据仓库的成本趋于平稳,不会因为数据量的增加急剧提高。
       2. 使用元数据将基础设施结合一起,使得数据不会轻易的丢失或者无用化。
       3.改善了访问速度
       4.对存档数据的关注,使得数据仓库能够长期索回。
       5.足够的关注非结构化数据,使得企业对非结构化数据的关注和使用得到极大的提升。
       下面是DW2.0的体系架构,我们根据图来分析说话

        DW2.0提出了数据的生命周期的概念,通过对数据仓库设置不同的区域来管理数据的生命周期,首先数据有业务系统进入第一个分区-交互区,然后随着数据的调整,数据被整合后传递到整合区。直到数据的访问概率下降,数据进入近线区或者直接进入归档区;近线区可以是整合区的延伸,是可以选择的,适合于数据量非常大且数据访问概率差别大的时候,近线区担任访问概率低的数据存储和处理。归档区则是基本上不访问的数据存储位置,通常是5-10年后的数据。
        其次,设置不同区,可以帮助对数据的基本操作进行管理。数据从一个区转移到另一个区,操作参数也发生改变。比方说,整合区的数据访问概率很高,通常是顺序,成串的访问。而近线区访问概率低,访问是随机的。
        DW2.0中,元数据扮演着非常重要的作用,不但有本地元数据,还在整个系统角度有企业级元数据管理。
        当然,非结构化数据的整合是DW2.0的一个亮点,通过整合非结构化的数据,给企业带来了很多其他方面的分析,文本分析,非文本分析等都有了用武之地,然而这些也给数据仓库的整合添加了很多难点。
       以上只是对DW2.0架构的一个简单描述,详细的解读将在后续展开.

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/647161/viewspace-763147/,如需转载,请注明出处,否则将追究法律责任。

上一篇: DW2.0起步
请登录后发表评论 登录
全部评论

注册时间:2013-06-05

  • 博文量
    16
  • 访问量
    56834