在公司和企业里一般会有很多的业务系统,比如像销售、财务的、人资等各个部门都有自己为了开展工作或业务需要的系统,正常每个部门的系统都是独立的,如果确实需要别人系统里的数据也是做一个接口来访问,互相之间的数据交互很少,无法从公司整体情况拉通来看数据的价值,所以数据仓库就是为了解决这个问题,把企业所有源系统的数据经过统一的规范同步到一个数据仓库系统里,统一管理和定义企业的数据口径,提供全面的数据供分析人员分析,解决各业务系统数据孤岛问题。如下图所示:
在上面的图中,我们需要了解几个主要的概念
ETL : Extract-Transform-Load ,即从数据的源端经过抽取 - 转换 - 加载到目标端,这是数据仓库建设最重要的工具,需要他把公司的所有源头数据 ETL 到数据仓库中。如下图的 3 个系统对性别的定义不一样, A 系统:男或女; B 系统: 1 或 ; C 系统: M 或 F ,哪么需要 ETL 工具转换统一的规则到数据仓库里( 1 或 )。
元数据:在数据仓库里,为了区分各个来源系统的数据定义,所以需要元数据来定义各个来源的数据,比如 A,B 系统里都有一个叫销售金额的数据(一个是国内市场,一个是海外市场),哪么在数据仓库里要能区分这个销售金额,以及他们的来源。他们的单位,加载时间等等。
事实表:表示企业发生的一个真实的业务数据,比如销售一个产品就要记录一条数据到事实表里,事实表里有 2 个组成部份,维度和度量,哪么在销售一个产品事实表里维度信息会有:销售员、部门、日期、客户名、产品等,度量信息有:金额、数量等。
维度表:对事实表里的某一个维度的扩展定义,比如上图的日期维度,哪么我们在此基础上需要做一些扩展方便以后做数据分析使用,目前还只是到了日期天,哪么我们可以扩展到周、月、季、年、上半年、下半年等。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31535951/viewspace-2643356/,如需转载,请注明出处,否则将追究法律责任。