ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 数据仓库:InfoSphere Warehouse 突破障碍

数据仓库:InfoSphere Warehouse 突破障碍

原创 Linux操作系统 作者:ArtCode 时间:2009-04-23 17:06:43 0 删除 编辑

在过去的三年中,我一直在进行一项任务,向小型、中型和大型企业演示数据仓库和业务智能(BI)如何推动底线利润并使它们更具竞争力,并且公司能够支付得起这些费用。

我遇到过很多障碍,但是 IBM 在过去两年的巨大投资使公司更容易从数据仓库解决方案产生极限价值。IBM 最近的工作成果(IBM InfoSphere Warehouse 系列)开始打破现有的数据仓库和业务智能障碍。这个系列中的产品允许用户集成和管理多个来源(包括 Informix、DB2、大型机和许多其它非 IBM 数据库系统)的集中式数据仓库。

在这篇文章中,我将深入研究 InfoSphere Balanced Warehouse 和 InfoSphere Warehouse,它们使公司可以通过单个基于 Web 的控制台来集中设计、管理和部署数据仓库。

当然,BI 有多个方面,包括数据集成、数据清理、报告、OLAP、主数据管理等;但是,在实现这些功能之前,首先需要一个基础设施来存储和集成数据。

数据仓库障碍

每天我都试图消除这些数据仓库方面的顾虑:

  • 它需要许多顾问和几百万美元。
  • 它只在大公司中才有用。
  • 小型 IT 团队不应该考虑它。

这些见解阻止许多公司追求真正的数据仓库。但是使用来自单个供应商(或者有限数目的供应商)的整合解决方案可以帮助减轻这些影响。

一个误解来自术语 “数据仓库” 本身,它好像和大型企业有关联。我曾经看到有公司使用该术语来描述一个表的数据库。其它公司将多个兆兆位的仓库称为数据中心。您可以用任何时髦的词语(数据中心、数据仓库、筒仓、报告数据库)来称呼历史数据库,但是它们都是指同样的事物:它是一个解决方案,帮助公司理解它们的盈利能力、分析历史购买模式、交叉销售产品给现有客户,以及理解它们的竞争力或创建简单的管理报告和指示板。

灵活包装和许可选项

我的数据仓库客户在寻求能支付得起的、组件很好集成的、相对容易管理的和全面的解决方案。IBM InfoSphere Warehouse(从 DB2 Data Warehouse 版本发展而来)提供许多选项,从原先的软件到各种解决方案,包括硬件、操作系统、软件和 IBM 或认证业务伙伴提供的服务。这些选项是完全可伸缩的,为大范围客户提供极大的灵活性,从需求较低的客户(例如小型公司、信息筒仓和部门数据中心)到大型企业仓库。

InfoSphere Warehouse 软件有各种版本(参见表 1)。对于只针对软件的方法,客户需要使用室内服务器或购买新服务器,以及获取任何室内或外部顾问来实现解决方案。软件可以安装在新服务器或室内服务器上,前提是它们必须满足 InfoSphere Warehouse 软件的操作系统需求。


表 1. InfoSphere Warehouse 软件有各种版本
表 1. InfoSphere Warehouse 软件有各种版本

另一方面,IBM InfoSphere Balanced Warehouse 包括由操作系统、硬件、InfoSphere Warehouse 软件和服务组成的完整的、预认证和预安装的解决方案。这个选项对于时间仓促或人员缺乏的客户比较有利,允许他们使用保证能够协调工作的组件来构建快速上线解决方案。

InfoSphere Warehouse 许可有各种可用选项,为客户提供很大的灵活性(起点是有限的内存和 CPU ,但可随数据仓库需求的增长而更新)。并且需求肯定是要增长的。我发现许多客户只有在实际使用后才意识到数据仓库的价值。实现了最初的价值之后,用户和管理人员通常对之要求更多。

即使是 Starter Edition 中包含的功能也提供了巨大的价值。其中一些功能(例如 CubeViews 和数据库分区功能)以前作为单独的 DB2 附件产品销售。

软件许可有下列版本:

  • Starter。针对中小型企业,通常是第一次使用数据仓库的客户,适用于 10 到 60 个用户
  • Intermediate。针对中小型企业和部门客户,适用于 50 到 200 个用户的较大数据仓库
  • Base。针对部门数据中心,基本的报告数据仓库和无限大小的业务仓库
  • Enterprise。针对需要高级业务洞察力和通过分析进行优化的仓库解决方案。

Starter、Intermediate 和 Base 版本能够充分满足大部分仓库解决方案(至少在最初的实现中)。表 1 显示特定的版本特性。

单个管理控制台

许多 InfoSphere Warehouse 的价值建议源自单个管理控制台(Design Studio)。这个基于 Eclipse 的控制台可以通过 Web 浏览器进行访问,并提供仓库的完整管理(包括设计、开发、项目和资产管理、作业控制和数据图表,参见图 1)。


图 1. 基于 Eclipse 的控制台
图 1. 基于 Eclipse 的控制台

左上方的面板可以导航到仓库的各个阶段。其它条目包括计划管理(左下方)、加载作业顺序和控制(中间)、数据工作量(右边)和当前资产的详细信息(右下方)。

管理工具

InfoSphere Warehouse 包含许多工具来管理和部署数据仓库资产。例如,Database Explorer 提供连接管理。Control Center(标准 DB2 安装的一部分)提供强大的数据库管理工具(虽然 Design Studio 包含一些管理功能,但是 Control Center 更全面)。Configuration Assistant 帮助执行各种与连接相关的任务。此外,基于 WebSphere 的管理控制台支持 OLAP 管理、数据挖掘、SQL Warehouse 作业(刷新数据仓库),以及流程控制和故障诊断。


建模和设计工具

InfoSphere Warehouse Design Studio 包括许多强大的工具,包括一个来自 IBM 的基于 Eclipse 的 Rational Data Architect(RDA)的插件库。这些插件为 Design Studio 提供物理数据建模和其它功能。Design Studio 还提供现有计划的逆向工程、数据库浏览、生命周期管理、数据模型的比较和同步、物理设计和规则验证。

数据移动和转换

创建数据仓库的主要障碍之一是填充它的实际能力。许多公司使用手动、耗时和冗长的过程来填充数据仓库(包括 FTP 和手动查询)。SQL Warehouse Tool 提供一个易于使用的轻量级 ETL 工具(与 IBM WebSphere DataStage 中的工具类似)。SQL Warehouse Tool 实际上被认为是一个 ELT(抽取、加载和转换)包;数据加载到仓库之后,转换和清理通过其它过程完成。

SQL Warehouse Tool 能够设置作业以从许多其它数据源加载数据,包括 DB2(Linux、Unix、Windows、System z 和 System i)、Informix、Oracle、SQL Server、平面文件、ODBC 等。作业可以设置成每晚运行(通常这样),在仓库中重新填充或创建新表。因为 SQL Warehouse Tool 的作业流程是基于 WebSphere 的,所以它具备访问强大的日志、调试、作业控制和其它功能的能力,同时它还能够通知工作人员每个作业的结果。结果是已填充的数据仓库,它只需较少的 IT 工作就能使用。(图 1 中屏幕截图的中心部分显示正在管理的 SQL Warehouse Tool 作业)。

数据库分区

DB2 的数据库分区功能(DPF)提供一种控制仓库存储和性能的方法。DPF(以前是 DB2 Enterprise 版本的一个附件)允许您定义一种方法,对相同或不同服务器上的存储进行数据分段。这种功能允许同时跨多个分区进行查询,极大地提了高查询性能。此外,DPF 可用来管理通常用在数据仓库中的历史数据的归档和存储。

Cubing Services

Cubing Services(InfoSphere Warehouse 的一个相对较新的附件),允许您在同一台数据库服务器上的内存中创建遵循 MDX(多维查询的实际标准)的多维数据集。在同一台服务器上创建多维数据集节约了网络带宽并消除了对第二台服务器的需求。在许多情况中,常驻内存的多维数据集会产生极大的性能提升。IBM Alphablox、Cognos 或任何符合 MDX 的产品都可以用来报告多维数据集中的数据;可以选择通过 MDX 查询语言直接访问这些多维数据集而无需通过前端工具。

使用许多 OLAP 产品(例如 Cognos)的内建多维数据集功能有许多优势;但是,Cubing Services 在许多环境中都能产生价值。此外,Cubing Services 现在包含 CubeViews,CubeViews 使用具体化的查询表来设计(如有需要可以通过顾问)、管理、部署和更新仓库摘要表的数据。图 2 显示 Cubing Services 为各种前端工具提供数据。


图 2. Cubing Services 为各种前端工具提供数据
图 2. Cubing Services 为各种前端工具提供数据

IBM InfoSphere Balanced Warehouse

IBM InfoSphere Balanced Warehouse 是一组预配置的解决方案,它是经过 IBM 认证的硬件、软件、操作系统和服务的组合。每个解决方案都包含我前面描述的所有核心 InfoSphere Warehouse 功能;只有 D 系列和 E 系列包含企业版本的功能(工作量管理、深度压缩、数据挖掘和虚拟化、非结构化的分析和内置分析)。

Balanced Warehouse 通过提供预安装的、立即可用的硬件和软件解决方案(可以一起工作,价格确定)来提升软件的价值。这个产品消除了实现新数据仓库解决方案的其他障碍;客户不必努力寻找可以满足仓库需求并且与 InfoSphere Warehouse 软件兼容的硬件。此外,这些系统由 IBM 或业务伙伴预先配置,因此仓库是开箱即用的。

当然,预先配置的选项对于每个公司来讲并非最佳匹配。许多客户想要控制他们的硬件和操作系统选择或者将它们集成在一个现有的环境中。对于这种情况,客户可以购买 InfoSphere Warehouse 软件的正确组合。

操作系统根据选择的选项而不同。例如,节约成本的 C-1000 和 C-3000 只在 Linux 和 Windows 上运行。这些解决方案也为基于 Intel 的系统降低了硬件和许可成本。(例如,部署 Microsoft 解决方案则需要更高的硬件和许可成本)。即使您的公司不使用 Linux,C-1000 或 C-3000(举例来说)因为其预安装的和基于 GUI 的管理功能仍然是可行的选项。

C、D、E 系列中的硬件全部来自 IBM。基于 Intel 的解决方案使用 IBM System x(以前称为 xSeries)或 BladeCenter 组件;其它解决方案使用使用 POWER6 芯片集的 IBM System p(以前是 pSeries)。

许可类别

InfoSphere Balanced Warehouse 解决方案有三种类型:

  • C 系列解决方案由认证的 IBM 业务伙伴销售,可以使用表 1 中所示的功能进行配置(除了企业版中的那些功能);唯一的区别与 CPU 和内存限制有关。这些解决方案通常提供为已完全安装和随时可以实现。
  • D 系列解决方案提供企业版中的功能,包括数据挖掘(内置和文字)、更高的存储限制和更多的报告工具。这些解决方案通常针对大中型客户、高级部门数据中心和中小型数据仓库。
  • E 系列解决方案的设计为大公司(具有动态增长的仓库并且对公司运营十分关键)提供无限的增长。

在每个系列中,都有根据仓库大小和使用情况的可配置选项。

C 系列解决方案是不确定其仓库建设目标的公司的良好起点;这些解决方案提供需要用来创建和管理仓库的所有基本工具,并且可以随着仓库需求增长升级到 D 系列和 E 系列。

针对所有规模的简化数据仓库

IBM 进行了巨大投资和开发,解决公司实现 BI 和数据仓库解决方案时遇到的障碍。InfoSphere Warehouse 和 InfoSphere Balanced Warehouse 提供一套可以随着公司发展而发展的单点管理集成产品。

投资于我在这篇文章所述的解决方案之一是一个良好的起点,但是它没有提供完整的 BI 解决方案。数据仓库和 BI 需要从企业用户购买,有时还要购买需求收集、仓库设计、项目专业技术、报告工具等。但是,为什么不使用更加完整的解决方案呢?

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15082138/viewspace-591602/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-08-05

  • 博文量
    269
  • 访问量
    555759