ITPub博客

首页 > 大数据 > 数据挖掘 > 数据仓库的特点

数据仓库的特点

原创 数据挖掘 作者:雨林慕辉 时间:2014-04-03 16:51:01 0 删除 编辑
 

数据仓库的特点——面向主题

数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。

所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面。

所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;分析和明确企业所涵盖的业务范围,并且对企业业务进行高度概括性的描述,把密切相关业务对象进行分类。它没有统一的标准,主要根据设计者的经验。不同的行业会有不同的主题域划分方式。

如何划分主题:一个很复杂的业务系统,首先对各种各样形形色色的业务进行范围确认,然后对业务进行大类划分和总结。大体上数据仓库的主题就划分好了。

数据仓库的特点——数据集成

数据集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息。

比如我做过的客户服务分析系统,数据来源有客服系统和经分系统,要做的就是把两种来源的表都抽取放在接口层。接口层的表一般都是直接从源数据抽过来的。对接口层的表加工整理放在宽表层。汇总数据一般在指标层和业务层。

数据仓库的特点——随时间变化

随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时刻到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。

对于随时间变化,我理解为环比和同比。

数据仓库的特点——信息相对稳定

信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。

数据仓库中几乎很少对历史数据进行修改。而在业务系统中,它总是最新的状态,所以业务系统中的数据总是不断变化的。

有这样的情况,订单有两个时间:建单时间和归档时间。业务是客服接到订单一般有三天的处理时间。所以建单时间和归档时间有部分延迟。在统计订单数时,我们报表显示的跟用户自己统计的总是不一致。我们是按建单时间,用户是按归档时间。最后主管领导拍板按归档时间统计。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24986149/viewspace-1135579/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2010-12-13

  • 博文量
    6
  • 访问量
    20501