ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 整理混乱数据

整理混乱数据

原创 Linux操作系统 作者:ArtCode 时间:2009-04-23 17:23:49 0 删除 编辑

前言

InfoSphere MDM Server 可以帮助公司避免最重要的资产受到损害:关于客户、产品、伙伴、合同等的信息。它提供了一种主数据解决方案。从 20 世纪中期开始,大公司纷纷开始构建自己的 IT 应用程序,购买打包的应用程序,实现新奇的 ERP 系统,参与 CRM 和 EDW 热潮。按照这种孤立项目方式,每个项目都只追求自己的目标。因此形成了混乱的主数据环境。更复杂的是,又有 100 多家公司从这些公司取得数据并将这些数据掺杂在一起。

在大多数公司中,产品、客户、职员、地址和相关方数据分散在许多系统中。每个系统都有各自的精度、业务规则和标准。如果有人提出古怪的问题,比如 “我们究竟有多少产品?”、“如何把一组产品和服务打包在一起,在网上出售?” 或者 “如何找到花费最大的客户?”,这就会使主数据系统的缺点暴露出来了。

这就是所有 IT 会议都非常关注主数据管理(MDM)的原因。IBM 在 MDM 领域推出了一个新品牌(InfoSphere)和一种新产品(InfoSphere MDM Server)。InfoSphere 引起了广泛的关注,因此 IBM 启动了一个新的 InfoSphere Data Warehouse 项目并把 InfoSphere 品牌加入 Balanced Warehouse 系列。可以在参考资料中列出的 InfoSphere Balanced Warehouse 页面上找到更多信息。

InfoSphere MDM Server 是什么?

近几年,IBM 提供了两个 MDM 产品(WebSphere Product Center 和 WebSphere Customer Center)。新的 MDM Server 是一个多种形式的 MDM 解决方案,这意味着它可以处理产品、客户等多方面的数据。它处理困难的 “事务性 MDM”,也就是管理那些跨许多运营系统共享的主数据。

主数据是通常存在于企业中多个数据库中的非事务性数据。这种数据以自己的方式进入 MDM 系统,它们通常描述关键的业务情况,影响重要的业务过程。所以对于次要的领域(比如公司业余排球队或咖啡供应商),不需要用 MDM 来管理,但是对于客户和产品,就应该用 MDM 跟踪其变化。

IBM 注意到公司往往按照不同的级别实施 MDM,随着发展,许多公司会提升 MDM 级别并添加 MDM 功能(见图 1)。


图 1. MDM 级别实施
MDM 实施级别

典型的实现级别包括:

  • 整合(Consolidation)。这个步骤是 MDM 的必有部分,涉及从多个系统收集数据、合并数据并把数据交付给单一目标。您可能不知道数据来自哪里或者谁将使用它,但是至少创建了数据的单一版本。这项工作会产生短期的好处,但是不会改变总体的混乱局面。清理数据之后几个月,数据又会变得混乱。在我曾经参与的一个数据质量项目中,我们试图清理产品和价格的清单,并在旧数据中发现了一些奇怪的现象:一组价格是在三年前的一个数据质量项目中调整过的,另一组价格在八年前调整过,其他调整发生在更久以前。每个数据质量项目都花费了大量资金,但是都没有对数据清单的质量产生持久的影响。相反,这种调整常常使数据清单的质量变得更糟糕。
  • 注册(Registry)。整合后的数据被存储在一个特殊的数据存储中,这个数据存储提供某些服务(比如添加和修改数据)并对访问数据的用户进行审计。现在,您已经对主数据的混乱局面有了总体认识,但由于还没有修改数据输入过程,要避免源系统混乱主数据存储还必须花一番功夫。
  • 共存(Coexistence)。MDM 注册的作用越来越大并与事务性存储库共存,它从源系统接收主数据并发送给其他系统。还要添加业务规则,从而管理哪些系统可以修改数据以及这些修改应该发送到什么地方。在这个级别上,要防止源系统制造混乱并对主数据进行同步。
  • 事务中心(Transaction hub)。MDM Server 是关键主数据的控制中心;对主数据的修改都在这里进行并传播给其他应用程序。这个存储库提供关键实体的单一视图,但是可以根据访问者的安全需求和用户类型提供多个实体视图。通过实现这个 MDM 级别,可以从源头防止人们制造混乱。主数据的创建和维护都受到严格的审计和检查。

IBM 希望各个公司最终都达到事务中心级别,但是企业需要一定的时间才能发展到这个级别。企业可能应该先以整合或注册级别作为目标。

多种形式的 MDM

IBM 所说的 “多种形式的 MDM” 是指能够管理来自不同领域的主数据。MDM Server 的第一版能够管理的数据领域包括:

  • 相关方:代理商、客户、职员、潜在客户、供应商
  • 帐户:合同、协议、交易、奖励计划、财务帐户
  • 产品:部件、产品、产品包、项目/SKU、服务、条款和条件
  • 位置:位置、地址、联系方法、地理/区域

在以后的版本中会增加更多的数据领域,但是目前这些已经包含了最重要最常见的数据领域。

存储主数据仅仅是事务中心的作用的一小部分。InfoSphere MDM Server 附带大约 800 个过程,用来帮助管理和控制数据。这些服务分为四组:完整性、操作、智能化和数据治理(见图 2)。


图 2. InfoSphere MDM Server 服务结构
InfoSphere MDM Server 服务结构

InfoSphere MDM Server 的组件包括:

  • 完整性:数据质量组件
  • 操作:业务服务(比如添加客户或修改位置)
  • 智能化:关于操作和修改的业务规则,用来防止用户弄乱主数据
  • 数据治理:安全和隐私规则,规定谁可以管理或查看主数据的哪些部分
  • 知识:通过复杂的相关方层次结构查看主数据,并对主数据的理解和使用进行审计跟踪

属于 InfoSphere 品牌的产品用来提供信息服务,这些服务可以从多个 IBM 产品系列获取信息。InfoSphere MDM Server 有许多开箱即用的集成点,可以与 IBM Industry Models 和 IBM Information Server 集成。

IBM Information Server

InfoSphere MDM Server 附带许多 QualityStage 作业,这些作业有助于用整合的数据填充 MDM Server。IBM Information Server 是用于主数据的数据集成平台。其核心是 WebSphere QualityStage,这是一种提取、转换、装载(ETL)和数据质量工具,能够处理大批量数据或作为 SOA 服务运行。

有助于主数据整合的 QualityStage 功能包括:

  • 标准化。处理文本字符串是 QualityStage 的特长;它能够解析相关方名称、地址、产品清单、位置、卡号和电话号码,并把它们转换为一种标准格式,使后续的匹配和挑选步骤更加顺利。
  • 匹配。这个产品提供了多种匹配数据的方法,但是其中最先进的是或然性匹配(probabilistic matching),这种方法用模式和频率统计数据识别相似的字符串,可以匹配拼写相似的产品或名称。
  • 挑选(Survivorship)。如果在两个系统中发现相同的主数据,就需要决定如何把它们整合成单一记录。希望从不同的记录取得最好的部分,比如从一个源取得新的电话号码,从另一个源取得邮寄地址。这样就可以结合不同记录的片段,避免出现相同数据的多个版本。挑选规则和技术有助于产生更精确的记录。
  • 集成。QualityStage 包含 ETL 工具的许多组件,可以连接大多数数据库和平面文件源,可以执行查询、聚合和转换,它的元数据服务可以跟踪数据来源和运行时统计数据。


IBM Industry Models

InfoSphere MDM Server 附带一组到 IBM Industry Models 的映射。这些模型涉及银行、保险、电信和零售数据仓库,这些数据仓库保存着公司最重要的业务和分析数据。InfoSphere MDM Server 附带许多映射和数据集成作业,它们可以把主数据放到模型的数据仓库表中,从而支持根据主数据的单一版本生成报告。

QualityStage 映射是针对目标 InfoSphere MDM Server 配置的;但是,仍然需要做一些工作才能映射到源系统。Industry Model 映射也需要根据这些模型的特殊情况和扩展进行调整。

业务驱动力

MDM 的事务中心级别需要大量投资;因此,它需要业务驱动力和业务支持。企业希望提高运营效率、提高销售量、改进与客户的关系和改进合法性,还需要解决企业并购带来的难题。这就是产生业务驱动力的地方。企业需要找到适当的解决方案。

如果企业已经在客户关系管理、企业数据仓库、企业应用程序集成和面向服务体系结构方面投入了大量资金,那么可能很难说服他们再在 MDM 方面投资。MDM 的卖点在于先进的数据质量和数据治理技术,以及成熟的信息管理技术及其易用性,而 InfoSphere MDM Server 具备所有这些优点。

相关内容

关于 Infosphere 的博客文章

InfoSphere 是 IBM 的一个新品牌,包含来自几个产品系列(包括 DB2、其他 Information Management 产品和 WebSphere)的软件。这些产品组合成一个软件包,用来执行复杂的信息管理任务。InfoSphere MDM Server、InfoSphere Risk and Fraud Warehouse 和 InfoSphere Balanced Warehouses 是第一个产品包中的部分软件。

最近,我很幸运地从一位著名的 Infosphere 专家那里获得了反馈,并把这次访谈的内容在我的博客中与大家分享。下面是他对 infosphere 和 Infosphere 的解释:

infosphere 基本上有两个意思。一个意思是静态的,不太有趣,它大致相当于 “电脑空间(cyberspace)”。“infosphere”(小写的 “i”)是信息代理和对象、服务、关系、过程和它们所处的空间的总称。这个概念实际上比 “电脑空间” 更宽泛,因为它还包含离线和相似的领域,比如图书馆中的书或电冰箱上帖着的购物单等信息源。

第二个意思就有趣得多了。“Infosphere”(大写的 “I”)表示整个真实世界。这是一种从信息的角度看待事物的方式。这意味着 Infosphere 相当于哲学家所说的 “存在”。“Infosphere” 是一个非常强大的概念。它意味着为所有事物建立一个统一的词汇表,包括 DNA、计算机、物理粒子、神化形象、社会环境、人、公司、webbot、各种通信形式、生物圈、生态系统和电脑空间等等。

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15082138/viewspace-591608/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-08-05

  • 博文量
    269
  • 访问量
    557363