ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 数据仓库的进化历史

数据仓库的进化历史

原创 Linux操作系统 作者:jbymy2000 时间:2012-03-05 14:01:30 0 删除 编辑
1.最开始只是在操作型数据库的基础之上建立的数据仓库。直接在操作型数据源做各种olap和报表应用。一点也没有分离。如果分析应用多的话,会给操作型数据库带来很大压力,而且也不好捕获历史信息。
2.后来发展处专门的数据仓库。
建立数据准备层,将数据源的数据进行清洗,清除不一致数据,填充空的数据。ETL
在此基础上又形成数据仓库层。就是面对不同主题的数据集市的集合,元数据在该层形成。分析层又再次数据仓库层上形成。
这样的数据仓库的好处是是
专门面向分析,和数据源分离,即使数据源有毛病也是可以查询的。又不会因为分析操作影响事务操作
数据的结构让查询变得更快。
保存了历史数据。
3.后来的数据仓库发展,形成了协调数据层。说白了就是数据源的镜像。
这一层让操作型数据源和数据仓库的分离度更高了。一些明细查询。直接在协调数据层上查询就可以了。而且也可以在这层数据上做数据流,供给其他部门用。降低了数据源的压力。
在具体的数据仓库构建中。往往是各个部门各自为战,性称自己的数据集市。
这些技术的数据具有很多缺点。不一致,统计方法不同,具体的标准不同等等。
后来kimball那货发明了总线型结构,就是在构建数据仓库前,先提取一下公共维度。
后来又有什么星型扑拓结构,也就是协调层数据和集市之间物理分开。
再后来,他们现实了一点,发现,构建理想的总线型数据仓库或星形数据仓库不太容易。就搞了一个联盟体系结构。面对企业兼并和收购的时候,将不同的企业的数据集市连起来,这往往需要高级技术。分布式查询,元数据整合等等。

选择不同的体系结构要根据企业的配合情况,重视程度来看。就是看客户代表给不给力了。还有就是看,如果有异构的数据要整合。突出一个整合二字,那就得弄联盟体。如果用户急需某一种分析结果,那不如直接建立针对性高的数据集市。
员工水平低也最好一个一个弄数据集市。如果一个部门的数据带有企业的标准意义,那就弄总线或者星形结构。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/11312660/viewspace-717728/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 043-51
请登录后发表评论 登录
全部评论

注册时间:2012-01-10

  • 博文量
    416
  • 访问量
    204215