ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 主数据管理介绍

主数据管理介绍

原创 Linux操作系统 作者:bq_wang 时间:2009-08-14 00:05:26 0 删除 编辑
主数据管理

  主数据管理(MDM Master Data Management)描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。

  主数据管理的关键就是管理。主数据管理不会创建新的数据或新的数据纵向结构。相反,它提供 了一种方法,使企业能够有效地管理存储在分布系统中的数据。主数据管理使用现有的系统,它从这些系统中获取最新信息,并提供了先进的技术和流程,用于自 动、准确、及时地分发和分析整个企业中的数据,并对数据进行验证。

  主数据管理解决方案具有以下特性:

  在企业层面上整合了现有纵向结构中的客户信息以及其他知识和深层次信息

  共享所有系统中的数据,使之成为一系列以客户为中心的业务流程和服务

  实现对于客户、产品和供应商都通用的主数据形式,加速数据输入、检索和分析

  支持数据的多用户管理,包括限制某些用户添加、更新或查看维护主数据的流程的能力

  集成产品信息管理、客户关系管理、客户数据集成以及可对主数据进行分析的其他解决方案。

  由于和主数据管理关联的方法和流程的运行与企业的业务流系统及其他系统彼此独立,因此这些方法 和流程不仅能检索、更新和分发数据,还能满足主数据的各种用途。主数据管理通过将数据与操作应用程序实时集成来支持操作用途。主数据管理还通过使用经过授 权的流程来创建、定义和同步主数据来支持协作用途。最后,主数据管理通过事件管理工具事先将主数据推送至分析应用程序来支持分析用途。

 

通过主数据管理改善信息――以MDMBI基础

介绍

“战略规划预测:到2010 , 全球1000 个组织中的70%将采用MDM BI 手段快速

提交可操作的(actionable)、可靠的跨企业信息.”――Gartner Inc

组织通过BI 系统更好的理解他们的运营、客户、财务状况、产品性能、发展趋势及关

键业务度量等信息,并通过这些信息决定组织的发展方向。糟糕的信息导致糟糕的决策,成

本是极大的。过去的几年,人们做了很多努力,来寻找导致效果较差的业务分析的根本原因,

大部分企业和分析人员认为报表错误的基本原因为传送到分析引擎的操作数据到处存在着

错误、重复、不一致等现象。要解决报表质量差的问题,就必须从数据的源头――业务系统

来解决。这就是我们所说的主数据,而解决问题的方案就是实施主数据管理(MDM),MDM

是连接业务端与分析端的纽带。

本文将从以下几个方面进行论述:数据类型、错误产生过程及错误对分析的影响,并讨

Oracle MDM 解决方案的主要功能:

1、 清除质量较差的数据;

2、 在面对数据频繁变化时保持完整;

3、 为业务分析提供必要信息

为了便于理解MDM 对于解决BI 问题的能力,我们先来看看数据的几种类型:

企业数据

企业用于三种实在的业务数据:交易的、分析的、主要的。交易数据支撑应用,分析数

据支撑决策,主数据表示发生交易的对象及分析面向的维度。

交易数据

企业运营由实现自动关键业务过程的应用系统支撑,包括:销售、服务、订单管理、制

造、采购、帐务、应收帐款及应付帐款。这些应用需要大量运行良好的数据,包括交易对象

及交易本身的数据。例如,当客户购买产品时,销售系统产生交易数据,交易对象为客户和

产品,交易数据包括:时间、价格、折扣、支付方式等一切在销售点相关的信息。交易所有

的信息存储在OLTP 表(该类表专门为频繁、快速的存取操作设计)中。

该方案将重点放在业务系统的数据对象上,因此被称为操作型MDM。这些数据对象给企业带来真正的价值,却不能为报表和分析提供适当的能力。

分析数据

分析数据用来支撑企业的决策行为:对客户购买模式的分析能够识别流失、收益、市场

细分;根据在时间上的性能特征对供应商分类,能帮助更好的供应链决策;通过对产品行为

长时间的审查识别错误模式。这些数据存储在大型数据仓库或者较小的数据集市的表结构

中,用来支撑集合统计、即席查询及数据挖掘,典型的情况是:由数值和一系列关键维度,

如客户、产品、帐号、位置、时间等构成很大的事实表。

这种关注于管理维度数据的方案称为分析型MDM,管理着跨域多个DW/BI 系统的财

务数据结构和GLs 之类的共享实体。Oracle Hyperion DRM 是这个领域的市场领导者。

分析型MDM 产品给企业带来真正的价值,却不能为报表和分析提供适当的能力。

主数据

主数据是指多个业务系统共享的业务对象,发生交易的业务对象,也是分析的关键维度。

大量的业务价值来自于对交易型和分析型主数据的共同管理,这样的系统统称为企业级

MDM。操作性数据清理提高了应用系统的操作性能及相关的业务过程,分析对应的维度,

体现业务真实现状。

Oracle 通过最近收购的Hyperion 提供了目前市场上最全面的企业MDM 解决方案。接

下来的章节将演示操作和分析的结合是如何解决关键业务问题的。

数据质量问题

在业务的操作端,数据由跨越多个部门的成千上万个员工手工录入,这样是容易产生错

误的,很多低劣的数据质量问题也由此产生。另外,每个部门由自己的规则,比如,销售部

门录入销售自动化应用的客户信息规则和录入应收帐款应用的客户信息规则完全不同。

主数据的另一个主要特征为非静态的,处于不断变化之中的,多个机构(D&B, US Census

Bureau, US Department of Health and Human Services, Administrative Office of the US Courts,

Bureau of Labor Statistics, Gartner, A.T Kearney, GMA Invoice Accuracy Study)统计显示,每月

平均2%的数据发生改变。利用下面提供的主数据来表示主数据的变化量非同小可,比如,

整个北美洲,每天:

l 21984 个个人和1920 个企业改变地址

l 3112 个个人和32 家公司更改名称

l 1488 个个人宣称个人破产和160 家公司倒闭

l 美国46152 个个人更换工作

l 1200 个业务电话号码改变或被注销

l 896 管理者(CEOCFO 等)发生变化

l 96 家新企业开张

产品数据总有相似的变化特征。一年内有20%的产品被复制,这将导致60%的定价错

误率。财务数据添加另外的多层次结构的动态维度,该维度用于帐目及帐目表。这表明诸如

客户、供应商、联系人、位置、雇员、城市、竞争对手、经销商、合作伙伴、账户、家庭等

主数据的变化。类似于信用度、卖主销售能力、帐单地址之类的信息总是不稳定的。

业务的操作端必须保持数据及时更新,或者当两个应用的数据不一致时中止业务过程。

“绝大多数用户以事实证明MDM 问题是真实存在的、众多的、严峻的。――Philip

Russom TDWI

MDM 解决方案

MDM 的主要任务就是在源头修正数据质量问题并管理数据不断变化。MDM 是一个在

异构IT 应用场景下消除数据质量问题的现代化架构。Oracle MDM 方案提供了强大的预

置数据模型,支持操作型工作负载及SOA。该产品提供一系列工具,比如:快速可靠的参

数化搜索引擎,重复识别,消除和预防,数据属性继承,数据质量规则引擎,层次管理,数

据标准化,实时变更管理及数据同步等。还提供接口连接第三方的数据追加及地址标准化服

务提供者,为联合数据构建前后参照(cross-references),为集中数据构建最优记录(golden

records)。优良的客户数据被置为对CRMERP 系统有效,优良的产品数据对产品生命周期

管理(PLM)、ERP 系统有效,优良的维度信息、前后参照、层次关系对BI 系统有效。

过去的几年中,市场上还出来了另外一些解决基础的BI 问题的尝试,实时的物化视图

应用与自动生成OLAP 立方体、新的异常检测(anomaly detecting)数据挖掘技术、利用仪

表板的实时决策、现代化EPM 工具等等,所有这些依然使用不良数据继续提供错误的答案。

准实时技术向数据仓库提供数据来源,SOA 技术使得ETL 和数据仓库中的信息面向更大范

围的用户。但是源数据的质量问题依然影响信息的质量。ODS 尝试进行一些清洗,但并不

提供OLTP 的表结构、访问方法及工具,这些是实时操作环境所必须支持的,这意味着在业

务分析端尝试解决操作型数据质量问题。

接下来的章节介绍MDM DW 之间的接口。实例解释了MDM 为什么是成功解决影

BI 的数据质量问题根本原因的唯一技术。

MDM-DW 接口

对于所有的关键主数据,MDM 保存准确的、可靠的维度数据,实际的操作数据前后参

照,层次信息,这些做为MDM DW 的基础接口。

维度

MDM 保存优良的客户、供应商、产品、位置、经销商、资产、账户、雇员、城市、角

色等管控维度信息。利用数据标准化、重复识别及合并能力,为每个维度创建一个统一版本,

可以分发给DW,或者简化MDM DW 之间的连接。当BI 使用了这些可信的MDM 维度

时,EPM、仪表板、报表、即席查询就能提供更好的信息。

前后参照(Cross-Reference

MDM 保存客户、产品等企业主要维度的参照信息,通过源系统管理功能维护每个系统

标识及各自系统内的对象标识。这种参照功能包含方便理解各个系统及系统内部的数据重

复,通过合并进程消除重复记录。当DW 使用了该主参照数据,it correctly combines the trickle

fed entries for accurate fact table reconciliation,这是精确的报表和分析的关键。对于BI 应用

来说,不能识别出同样的实体将会误导结果及较弱的决策支撑。

层级

层级信息对于BI 工具中聚集数据的钻取非常重要。操作型MDM 保存正式的层级信息,

供业务系统使用,对于关键业务过程如销售、目录管理、应付帐目等的相关功能也是必要的。

另外,分析型MDM 通过采用合理的跨域映射获取操作型层级信息,并管理跨多维的多种层

次信息(multiple alternate hierarchies)(如产品与成本中心,客户与产品包,供应商与采购

部门等),这些对于下游分析系统的报表准确性是很关键的。当DW 与数据集市使用企业

MDM 提供的层级信息时,收益分析、风险管理、仪表板信息、企业绩效管理的预算和预测

将有很大提高。

分析示例

为了展示Oracle MDM 是如何生成更好的信息,我们将举一个现实生活中的例子,以下

事件为业务操作端的活动:

1. 6 3 日,Mary Smith 50 元从Old Navy 购买一件蓝色VN 型毛衣;

2. 第二天,Mary Evans Banana Republic 看到类似的产品,并从朋友处花了45 元购

买了一件RF 型毛衣;

3. Acme, Inc. 通过Old Navy 销售他们的VN sweaters

4. AI Corp 通过Banana Republic 销售他们的RF sweaters

我们得到以下记录:

星形模型

相应的事实表数据如下:

加入维度信息,我们呢得到如下星形模型:

查询结果

通常即席查询产生以下统计信息:

ARPC(平均每客户收入):$47.50

最有价值客户:Mary Smith

最有价值客户消费:$50

最佳零售商:Old Navy

供应商最高收入:$50.00

数据质量问题

我们知道操作环境是动态的,而且重复数据难以识别,重组进程隔夜更新层级信息。

假设有如下事实:

l Mary Smith Old Navy 购买了毛衣后嫁给Evans 先生,于是名字改为Mary

Evans; 实际上,第二天从Banana Republic 购买类似毛衣的顾客为同一个人。

n 理解上述变化有赖于知识管理、重复识别、生存规则、前后参照等事实。

l Old Navy Banana Republic 都是The Gap 的下属机构

n 该类信息需要通过层级管理处理。

l AI Corp Acme, Inc 的别名,实际上他们是同一供应商

n 基于数据质量管理、重复识别、前后参照等功能。

l VN 型毛衣与RF 型毛衣是一个产品的不同编号

n 基于产品数据标准化及前后参照

Oracle MDM 解决方案正是用来理解这些事实并正确的反应现实

MDM 功能

下一章节讲述MDM 主要功能。

数据模型

MDM 数据模型是唯一的、各关联系统中定义的主数据的超集,具有供组织和行业特定

扩展的灵活性,能够根据企业组织的业务特点进行裁剪。

模型包括所以必需的层级信息,重复识别需要的属性信息,以及所有关联系统前后参照信息。

在上面的示例中,单一模型同时保存了B2BOld NavyBanana Republic)和B2CMary SmithMary Evans)格式的客户数据,以及供应商、零售商信息,这些都是属性维护所需要的信息。


变更管理

为了处理Mary Smith Mr. Evans 结婚之类的主数据的实时变更的情况,Oracle MDM

解决方案提供了实时业务事件系统(BES),主数据的任何变化将触发一个业务事件,依次

调用工作流进程,该进程构造适当的XML 包并执行针对数据变化预先配置好的步骤。

示例中,消费者Mary Evans 触发一个‘新建客户’事件,启动工作流根据所有已知信息创建Mary 记录。例如,可以向Trillium(或其他邮政地址提供方)提交请求进行地址确

认,以确保该地址可用,标准化地址同样有助于重复识别。同样也可以提交请求新增信用等

级数据,或者从Acxiom 公司获取一个AbiliTec 标识。这些操作都是实时的。

个人重复识别

Oracle MDM 方案针对客户数据的产品为Customer Hub,该方案提供了大量的发现客户

重复记录机制,其中最主要的技术就是通过大量的客户属性配置规则引擎以发现潜在匹配。

示例中,Old Navy Mary Smith 作为一个客户,他的主数据标识为551Customer Hub

Old Navy 看作源系统(ID = ON)并记录Mary Smith 在源系统中的标识为1234Mary Evans

进行同样的操作。这是MDM 前后参照的基础。

MDM 根据所有可用属性来判断两者是否重复,典型的匹配规则是检查地址、电话号码、

e-mail 地址等等。另外,也可能利用来自于Acxiom AbiliTec ID 之类的第三方数据。示例

中,尽管名字不一致,系统仍能发现Mary Smith Mary Evans 是同一个人。

公司重复识别

公司重复识别采用与个人重复识别基本相同的规则,主要的不同在于个人与公司的属性

的个数和类型。例如,公司拥有D&B 提供的DUN 号码。示例中,根据AI Corp 搜索,结果为Acme Inc

上述的公司重复识别规则中采用了别名信息。

重复消除及前后参照

一旦Customer Hub 识别出Mary Smith Mary Evans 是同一个人,就会将多条记录合并

为一条,以消除重复,并维护参照信息。合并之前,有两天客户记录,各指向一个源系统。

现在只有一条客户记录指向两个源系统。

属性继承

Customer Hub 另一个主要功能为管理多个源系统客户记录合并时客户属性的遗留问题。

Customer Hub 为每个属性维护源系统的优先级别,当所有记录存储到MDM 数据仓库中时,

应用程序和视图只能看到所有记录的单一版本。

产品标准化

Oracle MDM 方案针对产品数据的产品为Product Hub,采用Silver Creek 进行产品标准

化,能够快速的参数化搜索,及精确的重复识别。示例中,Old Navy 的毛衣编码为:VN PO

50 Blue W 24W 36B 22ABanana Republic 的毛衣编码为:B Wool V Neck Pllver S:36。这些

信息通过Silver Creek 的‘数据透镜’系统装载到Product Hub,分解出型号、颜色、尺寸及

分类编码等属性,同时生成其他几种相应的语言描述。

示例中,可以看出连个产品均为V 型领蓝色羊毛衫,有相同的产品编码,这样MDM

系统就能识别出他们是相同的。

层级管理

层级信息对于BI 工具中聚集数据的钻取非常重要,Oracle Customer Hub 维护操作性应用中的所有层级信息,可以采用批处理和实时数据访问通过现场的连接从D&B 公司提取层级信息。

示例中,D&B 公司提供信息表明,Old Navy Banana Republic 都是The Gap 的子公司。

更新的星形模型

目前为止,MDM 识别出了重复客户,通过合并维护了与源系统的前后参照,通过继承

规则生成一个金卡客户,发现两个产品的一致性,两个销售商归属于同一个企业机构,并通

过良好的识别技术发现Acme, Inc.AI Corp 实际上是同一个供应商。将更新后的参数数据

及维度信息导入数据仓库后,得到以下星形模型:

重新查询

再次查询得到正确结论:

ARPC(平均每客户收入):$95

最有价值客户:Mary Evans

最有价值客户消费:$95

最佳零售商:The Gap

供应商最高收入:$95

通过MDM 管理我们得到更佳的信息。事实上,如果没有MDM,每个数据都是不正确

的。MDM 从源头解决了数据质量问题,并为分析提供高质量的维度数据。目前为止,市场

上还没有其他类似的解决方案能够完成如此重要的工作。

Top Ten 举例

一个更加现实的例子就是我们常用的‘十大’查询。例如,我们要查找十大收入客户。采用MDM 进行数据清洗之前,查询结果如图。

应用MDM 的维度、层级、重复消除、参照等信息后,再次查询,将得到正确的结果。

根据第一次查询结果,Baker 位于前三名,Caterpillar 连前十名都进不了;而实际上,Baker

根本就不是前十名,Caterpillar 却是真正的第一名。

预定义映射

Oracle MDM 不仅能够清洗数据,而且能够为数据仓库提供严格管理的主数据,可以直

接提供给OBI EE 仪表板这样的BI 应用。OBI EE 仪表板通过预先映射数据模型,能充分利

Oracle 应用程序及已有的数据模型。由于Oracle MDM 方案是建立在Siebel 和电子商务

套件数据模型的基础上,MDM 映射自然也继承下来。

分析和操作型MDM

下面举一个熟悉的例子帮助大家理解Oracle 综合分析和操作性MDM 的功能:

假设一个分布广泛的广告代理商,需要了解大量国际客户的运营效率,主要维度包括客户、单位、职业、位置、员工、组织及销售,需要知道某个员工通过澳大利亚的一款软饮料装瓶机在佩恩市的广告项目获得的收入。

如上面的数据仓库中星形模型,Oracle 11g 数据仓库工具能够自动地物化OLAP 立方体,在这些维度上旋转。但为了能正确的旋转,需要理解维度的层次关系。

顾客有部门、产品、行业层次,单位有办事处、部门,职业有类型和子类型,位置有国家、地区、城市,员工有职位、用户,组织有账户表、收益中心、成本中心和业务区域。

操作性MDM 需要提供规整的维度信息,分析型MDM 需要管理各种各样的层次信息。

组合起来,他们为DW OLAP 立方体提供产生正确数据所需要的主数据。

(员工John Doe 从佩恩项目中获取了$50,000 的收入。)

在异构IT 环境下,大多数业务对象跨越不同应用的分散性和不一致性,导致回答类似

这样的问题是非常困难的,操作性MDM 必须融合并清洗这些关键维度数据,分析型MDM

则必须为每个维度管理层次结构。

结论

“获取一个主数据和BI 能够相互操作的闭环的信息环境,需要一个公共信息架构及支

SOA 和消息发布/订阅的数据服务层。――David NewmanAndrew White Gartner

完善的BI 方案包含三个部分:

1. 保留历史数据的数据仓库;

2. 企业级MDM,为数据仓库提供层次信息,并确保为数据仓库提供经过清洗的操作

型系统的数据;

3. BI 应用自身,通过DW MDM 数据为组织结构中的每个人提供他们需要的信息。

没有MDMBI 方案几乎是失败的,基于不正确的数据产生的糟糕的决策比系统性能差

更加可怕,服从变得困难,风险也不断增大。

Oracle MDM 在企业范围内提供统一的、准确的主数据,并反作用于企业的业务操作,

确保这些数据被BI 工具使用。MDM 是业务操作端和分析端的纽带。自上世纪70 年代以来,

面对应用系统错综复杂的局面,Oracle MDM 第一次为企业提供了统一视图,每年可以为企

业节约数百万元的费用,显著提高生产效率,增强客户忠诚度,以及提供完善的企业管理。

MDM 领域,Oracle 是领导者,Oracle 拥有大量保有用户基础,提供了最可靠的实施

参考,Oracle 拥有丰富的经过检验的行业知识及最佳的数据管理实践经验。Oracle 借助在数

据库、数据仓库、商务智能应用开发的积累,确保其在操作性和分析型应用主数据集成领域

的的领先地位,因此可以说Oracle MDM BI 的基础,并且能提供比市场上其他任何解决

方案更佳的业务价值。

image002.jpg

image004.jpg

image006.jpg

image008.jpg

image010.jpg

image012.jpg

image014.jpg

image016.jpg

image018.jpg

image020.jpg

image022.jpg

image024.jpg

image026.jpg

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/6517/viewspace-612244/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2007-12-07

  • 博文量
    412
  • 访问量
    1110121