ITPub博客

首页 > 应用开发 > IT综合 > Ascential&nbspDataStage 简介

Ascential&nbspDataStage 简介

原创 IT综合 作者:playwawa 时间:2006-11-15 09:36:12 0 删除 编辑
自己在用的一個軟件[@more@]数 据仓库中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库 中。如何获取并向数据仓库加载这些数据量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。针对目前系统的数据来源复杂,而且分析应用尚未成型 的现状,强烈推荐使用专业的数据抽取、转换和装载工具DataStage。
  Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。
  DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:
  大型主机系统数据库:IMS,DB2,ADABAS,VSAM等
  开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等
  ERP系统:SAP/R3,PeopleSoft系统等
  普通文件和复杂文件系统,FTP文件系统,XML等
  IIS,Netscape,Apache等Web服务器系统
  Outlook等Email系统

   DataStage可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完 成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转 换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

根据以往的项目实施经验,通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
  抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。
  清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。
  转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。
  装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。

整个商务智能/数据仓库系统由三大部分组成,数据集成、数据仓库和数据集市、多维数据分析。DataStageXE产品主要提供数据的抽取、转换和装载的功能,同时提供数据质量的管理,并且贯穿整个企业管理元数据。
   通常,企业的数据源分布在各个子系统和节点中,利用Ascential的数据抽取工具DataStageXE,将各地方业务系统上的数据,通过自动化 FTP或手动控制传到UNIX或NT服务器上,进行抽取、清洗和转化处理,然后加载到数据仓库。因为现有业务数据源多,如何保证数据的一致性,真正理解数 据的业务含义,跨越多平台、多系统整合数据,最大可能提高数据的质量,迎合业务需求不断变化的特性,简单的ETL工具(抽取、转换和装载)远远不能胜任, 单一的程序抽取无论从开发还是维护都难以适合复杂的环境或控制整个数据仓库的维护成本。而Ascential的DataStageXE就是项目成功的关键 保证,无论是在初期建立单一主题的数据集市到后期整体的数据仓库,都能发挥出数据抽取及管理的巨大动力,并且跟其他厂家的产品无论是数据仓库还是OLAP 工具的集成性非常高,提供给用户最多的选择。
  Datastage XE 包含以下组件:数据抽取、转换及装载(ETL)工具Datastage;元数据管理工具Metastage;数据质量管理工具Quality Manager

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/202861/viewspace-877505/,如需转载,请注明出处,否则将追究法律责任。

下一篇: Datastage function
请登录后发表评论 登录
全部评论
  • 博文量
    105
  • 访问量
    1173652