ITPub博客

首页 > 大数据 > 数据挖掘 > 数据挖掘在集成竞争情报中的应用研究

数据挖掘在集成竞争情报中的应用研究

数据挖掘 作者:yuandaoxiang 时间:2011-05-11 15:44:37 0 删除 编辑

数据挖掘在集成竞争情报中的应用研究

 

摘要:本文简要介绍了数据挖掘的概念、方法、基本功能,并研究了集成环境下的竞争情报系统的体系结构.对集成环境中面向竞争情报系统的数据仓库和数据挖掘技术进行了分析,对面向竞争情报系统的应用数据和数据挖掘系统的应用进行了研究。

 

关键词:数据挖掘    竞争情报    竞争情报系统     数据仓库    系统集成

 

一、数据挖掘与竞争情报基本信息

1.1、数据挖掘的概念、方法及基本功能

111、数据挖掘的概念

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;还可以是分布在网络上的异构型数据。

在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。典型数据挖掘系统的结构如图1所示。

图1---典型数据挖掘系统的结构

 

1.12、数据挖掘的方法

数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等),探索性分析(主元分析法、相关分析法)等;机器学习方法中包括归纳学习方法(决策树、规则归纳等)、基于范例学习.遗传算法、粗糙集等。

1.13、数据挖掘的基本功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标按其功能可分为以下几类。

(1)、自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测。寻找预测性信息。自动地提出描述重要数据类的模型或预测未来的数据趋势。

(2)、关联分析

关联分析能寻找到数据库中大量数据的相关联系,常用的两种技术为关联规则和序列模式。关联规则是发现一个事物与其它事物间的相互关联性或相互依赖性;序列模式分析将重点放在分析数据之间的前后因果关系。

(3)、聚类

输入的数据并无任何类型标记。聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或族,使得在同一个族中的对象之间具有较高的相似度,而在不同族中的对象差别很大。聚类技术主要包括传统的模式识别方法和数学分类法。

(4)、概念描述

概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述(characterization)和区别性描述(discrimination),前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

(5)、偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之问有意义的差别。

1.2、竞争情报与竞争情报系统

1.21、竞争情报

“竞争情报”这一概念,首先来自于国外的“Competitive Intelligence”,简称CI;也有人称之为BI,即Business Intelligence。竞争情报一般指竞争主体为保持竞争优势所需要的一切有关竞争环境、竞争对手和竞争策略的信息和研究,是一种过程,也是一种产品。过程包括了对竞争信息的收集和分析;产品包括了由此形成的情报和谋略。竞争情报模式图,如下所示:

竞争情报的出现引起了世界各国的广泛兴趣。据1993年的一项全球性问卷调查统计,已有74%的企业正式建立了竞争情报部门。1986年,以美国的竞争情报专业人员协会(SCIP)的成立为竞争情报研究工作专业化奠定了基础,同年出版了《竞争情报评论》和《SCIP新闻》。随后在欧洲、日本、澳大利亚、以色列、东南亚等国也相继建立了相应的专业组织,并正在筹建全球性的SCIP组织。我国于1994年1月也正式成立了中国科技情报学会竞争情报专业委员会,并主办了全国性的学术会议,标志着我国竞争情报理论研究与实践进入了专业化的新阶段。

 

1.22、竞争情报系统

竞争情报系统(competitive intelligence system——CIS)是指对反映企业内部和外部竞争环境要素或事件的状态或变化的数据或信息进行收集、存储、处理和分析,并以适当的形式将分析结果(即情报信息)发布给战略管理人员的计算机信息系统。CIS简称为基于计算机信息管理的竞争情报系统。

CIS的应用目的是在市场竞争环境中企业为保持或增加利润,围绕企业的经营战略目标,通过竞争情报系统为其获取有关企业内部、竞争对手、竞争环境的信息。并加以存储、处理、分析、研究.竞争情报分析研究结果最终对企业经营战略目标确立与实施产生调整作用的信息系统。CIS的基本功能是信息收集和分析,即将大量的信息数据采集输人CIS系统,并通过一定的方式加以处理,最终形成为企业战略管理层所直接使用的竞争情报分析报告。

CIS主要体现在以“Internet,Intranet”技术为基础,提供基于C/S系统结构的集成化的竞争情报系统,其价值在于充分利用Internet和Intranet技术构建企业的集成信息系统,使之既保留原企业的各种信息系统,又能适应国际市场大环境,建立沟通企业内部各业务部门、外部各分支机构和大市场竞争环境的集成信息系统,以增强企业的国际竞争力。

二、集成环境下的竞争情报系统

竞争情报系统(CIS)是广泛应用企业内部和外部信息的基于Internet,Intranet的信息系统(见图l:CIS基本体系结构图),其原始数据来源为2大部分,即来自企业内部的事务处理数据信息和来自企业外部竞争环境和竞争对手的数据信息。

企业内部数据信息指企业日常各业务部门进行事务处理(OLTP)而积累的数据信息,如生产部门、财务部门、营销部门、人事部门等等的事务处理信息,它们一般以企业的MIS/MRP||/ERP/OAS系统的数据库系统为中心,进行事务数据的登记、查询、打印等操作。企业外部竞争环境和竞争对手数据信息与内部事务处理数据信息不同,它是非事务操作型数据信息,其数据采集部门主要依据企业情报部门及对外的相关部门完成,数据的录人可在企业内部的局域网信息系统中完成,也可依据企业的广域网方式来完成,信息服务方式也可在企业内部的局域网系统中提供,也可依据企业的广域网方式来提供。在企业局域网内的应用系统,我们称之为intranet部分,在企业局域网外部进行事务操作处理的应用系统,我们称之为internet部分。在企业局域网内部的事务处理数据信息,一般以C/S体系结构为基础,在企业局域网外部的广域网部分,出现以C/S体系结构和B/S体系结构并存的现象,对内部和外部信息系统进行集成,以实现对所有数据信息进行信息处理和服务。由此构成了一个CIS的总体结构(见图2:CIS的总体结构)。

在此集成环境下CIS的数据集中并不是有效的竞争情报信息,竞争数据信息需要对其进行加工处理,形成面向一定主题的数据信息。即传统数据库主要面向业务处理,而竞争情报则要面向复杂的信息分析和高层决策支持。竞争情报系统提供来自种类不同的信息系统的集成化和历史化信息,为有关部门或企业进行全局范围的战略决策和长期趋势分析提供有效的支持。

 

 

竞争情报的处理过程主要包括如下几个方面:

(1)、情报采集:是情报处理的基础,突出及时性、全面性、准确性的特点。

(2)、筛选:通过归纳,去粗取精、去伪存真的过程,提供有用的决策情报。

(3)、分类排序:是对杂乱无章的情报进行归集,按照时间、内容、目的要求进行分类。

(4)、存储:在分类、排序等基础上,对各类决策情报进行存储,以供决策者查找使用。

(5)、综合:对原始情报作进一步的加工统计,提高情报的综台度。

(6)、分析:针对各种决策问题对情报的需求,采用相应的方法与模型对原始情报及统计结果进行分析,提高情报的价值。

(7)、挖掘:发现各种信息之间的内在联系,以及其间的变化规律,挖掘出更多的不可预见的隐含信息”。

针对竞争情报系统业务数据处理的过程及特点,采用以数据仓库为数据库平台的数据挖掘技术实现竞争情报数据信息处理,能够及时有效地为企业提供决策服务。

三、面向CIS的数据挖掘与数据仓库技术分析

3.1、数据仓库技术的特征及基本结构体系分析

“数据仓库”(Data warehouse,DW)是当今IT领域的热门话题,就数据仓库技术而言,可追溯到70年代,但明确其概念一词,则是起之W.H.Inmon的里程碑式的著作《建立数据仓库》一书,书中对数据仓库的定义是:数据仓库就是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。

我们对数据仓库技术的基本特征归纳为如下三个方面:

(1)、存储面向管理应用与综合分析的集成化和综合性的信息,从历史的角度描述系统结构和状态的变化,要求采用能够反映时间维特征的数据结构。

(2)、基于传统的面向业务(operational)的数据库或外界数据库作为数据源,经过提炼、加工、汇总和归一化整理(consolidation),生成符合数据应用语义规范要求的数据集合。

(3)、能够支持多种复杂的数据应用和综合性的管理决策”。

数据仓库是企业范围内数据的处理过程,它将分散的企业内各种跨平台的数据经过重新组合和加工,构成面向决策的数据仓库。最终用户可以在数据仓库的基础上进行数据的深层挖掘、多维数据分析、动态查询和动态报表等。数据仓库是基于决策的,它为企业决策者方便地分析企业发展状况,进而做出企业决策提供有效的途径。

从数据仓库技术的角度看,数据仓库提供了多数据源上的一个统一和数据平台(见图3:数据仓库基本体系结构)”3,图中给出了一个典型的数据仓库系统结构。其中:

 

(1)、Info source:信息源,不但包含那些常见的数据库,也包括文件、HTML文件、知识库、遗留系统等各种信息源。

(2)、Monitor:抽取器,连接着每个信息源,并负责把信息从原信息源的数据格式转换成数据仓库使用的数据格式和数据模型,自动监测信息源中数据的变化并把这些变化上报给集成器。

(3)、Integrator:集成器,对新的或变化的信息进行过滤、总结,或者和其他信息源的信息进行合并,再安置到数据仓库中。为了把新信息准确地集成到数据仓库中,集成器可能还要从原来或相关的其他信息源中获取进一步的信息。

(4)、Data Warehouse:数据仓库,它本身可以使用现在流行的或者特别设计的数据库管理系统。实际上,为了获得期望的性能,往往需要信息的并行和分布处理。

(5)、Client Application:客户端应用,面向各类不同的最终用户对数据仓库进行访问,主要有查询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决策支持系统的各种要求。

在实际应用中数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。可见,数据仓库中逻辑结构数据由3层到4层数据组成,它们均由元数据(Meta Date)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组织形式(由关系型事实表和维表组成)。一个数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成。

源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。

仓库管理(后端加工处理):在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规则、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。

分析工具(前段服务):用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等,以实现决策支持系统的各种要求。

3.2、数据挖掘技术分析

数据挖掘(Data Mining)是指从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)、约束(Constraints)、可视化(Visualizations)等形式,这种定义把数据挖掘的对象定义为数据库。另一种解释是,数据挖掘是指在一些事实或观察数据的集合中寻找模式的决策支持过程,数据挖掘的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,如WWW信息资源。

就数据挖掘的深度分析,可分为2个层次。在较浅的层次上是利用现有数据库系统的检索、报表功能与多维分析、统计分析方法相结合,进行称之为联机分析(OLAP),从而得出可供决策参考的统计分析数据。在较深层上,要求从数据库或大量数据记录中发现隐含的、前所未有的知识。前者主要是在数据库管理系统功能的基础上的OLAP,即“验证驱动”数据挖掘技术;后者则立足于发现大量数据记录中潜在的有用信息或新知识,属于“发现驱动”数据挖掘技术。

数据挖掘的一般过程由3个阶段组成:数据准备阶段、挖掘操作阶段、结果表达和解释阶段(如图4:数据挖掘的一般过程)。

数据准备阶段。这一阶段又可分为3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。预处理是为了克服目前数据挖掘工具的局限性。

数据挖掘阶段。该阶段又可分为4个子步骤:挖掘目标建立、挖掘工具选择、挖掘模型搜索和结果评价。挖掘目标建立:先确定数据挖掘的假设,即让数据挖掘系统为用户建立假设(称为发现驱动——Discovery—Driven),还是用户自己对于数据库中可能包含的知识提出假设(称为验证驱动——Verification--Driven)”。挖掘工具选择:选择合适的工具。挖掘模型搜索:利用数据挖掘工具在数据中查找模型,这个搜索过程可以由系统自动执行,自底向上搜索原始事实以发现它们之间的某种联系,也可以加入用户交互过程,由分析人员主动发问,从上到下地找寻以验证假设的正确性。结果评价:对数据挖掘的搜索过程需要反复多次,通过评价数据挖掘结果以不断调整数据挖掘的精度,以达到发现知识的目的。

结果表述和解释阶段。根据最终用户的决策目标对提取的信息进行分析,把最有价值的信息进行区分出来,并且通过决策支持工具提交给决策者。

 

四、数据挖掘技术在CIS中的应用分析

4.1、竞争情报数据应用分析

CIS是一个以竞争情报为处理对象的决策支持系统,通过从企业内部各业务部门、企业竞争对手、市场信息、竞争环境信息等方面搜集有利于企业在市场竞争中处于竞争优势地位的决策信息以调整企业经营战略决策,从而达到扩大市场份额、提高自身产品技术、优化企业管理水平的优势竞争力。

CIS要求其数据平台建立在企业集成数据环境下,仅以企业的MIS,MRP||,ERP数据库为数据源是不足以支持CIS的决策分析系统的,因为传统数据库对大量历史性数据分析处理(OLAP)能力有限,数据源也不足,即基本具备了“验证驱动”数据挖掘技术尚难以有效挖掘决策分析数据;基于事务操作(OLTP)的数据库不具备面向主题的分析能力;利用二维的查询,统计方式只能表达数据项之间简单的、浅层次的关系,而对数据之间更深层次的关系或知识无法表达;缺乏有效的数据分析工具。因此利用Internet/Intranet构成企业内外网互联和成熟的C/S客户机/服务器结构实现企业全方位的系统集成,利用数据仓库技术实现面向主题的数据的集成,利用数据挖掘技术充分实现数据的分析,从而构成一个全面高教的为企业高层决策服务的CIS系统。

在集成化CIS系统中,从应用层面分析其数据构成由数据采集部分、数据分析部分和数据输出部分三个方面构成。

数据采集部分的数据源来自企业内部和企业外部。其中来自企业内部的数据一般为企业运营系统的操作数据(OLTP),该类数据一般存储于企业各类数据库中,元数据较规范,便于向数据仓库的转化。来自企业外部的数据体现为来自正式渠道的数据和非正式渠道的数据。正式渠道的数据一般经过量化的,易于整理、排序。而非正式渠道的数据,需要经过较复杂的处理过程转化为规范的元数据。对于已形成的元数据,需要利用数据仓库的抽取器和集成器生成面向主题的、历史的、集成的数据。

数据分析部分是针对由数据仓库集成而来的数据利用数据挖掘技术进行分析,从而形成有价值的分析数据。针对竞争情报的复杂性特点,对集成的数据加以分析,利用数据过滤、模式过滤、统计过滤和语义过滤等数据挖掘技术辅助用户挖掘隐含的有价值的数据和评价其质量。完成度量测度转化和数据完整性约束,减少数据的冗余程度,最终确定符合实际需要的数据集合。

数据输出部分是将分析数据通过一定的工具输出给最终用户。该部分的数据应具有为决策者提供直观、有价值的决策支持的竞争情报数据。其数据输出方法一般利用OLAP等工具来实现。

4.2、基于数据仓库的数据挖掘系统研究

基于数据仓库的CIS数据挖掘系统设计研究可从知识发现的角度进行分析,知识发现则可从存在于数据仓库中的全部规则的空间中选取有价值的规则的多阶段过程,且这些过程是一个不断约简几乎无限大的初始规则空间,直到降至较小规则子空间的过程。我们可从以下4个数据过滤阶段对数据挖掘系统进行分析:

(1)、数据过滤。知识发现的第一步就是选择合适的目标数据集。用户可以通过使用知识模板或数据选择与可视化工具来引导该过程。系统因此可将学习聚焦在与发现目标相关的数据上,并筛选掉不必要的数据。对于连续值属性,一般还要进行离散化处理。该阶段的输出是用于数据测试的数据子集和约简了的规则空间。

(2)、模式过滤。知识发现的第二阶段。在该阶段主要借助于模板或其他类型选择工具来定义待发现规则的类型。这些工具通常是以适当的用户界面向用户提供可用的规则类型和属性值等形式协助用户构造模式。考虑到所能学习的不同类型规则是有限的,所以规则类型可进一步优化以符合系统的限制。模式过滤是通过除去不满足指定模式的规则而约简可能的规则空间。

(3)、统计过滤。规则空间在数据挖掘的第三阶段是根据统计方法加以进一步的过滤。尽管从数据仓库中发现的很多规则也许满足用户指定的模式,但其中相当一部分规则在统计意义上也许不重要。因此统计过滤阶段的目标是删除那些在统计意义上不重要的规则。用户可以通过设置适当的统计参数或选择适当的技术来参与该阶段。

(4)、语义过滤。作为数据挖掘的最后一阶段,即设法删除在语义上没有意义的规则。系统通常会产生大量的规则,可其中相当一部分可能从语义上分析是没有意义的,或冗余的。在分析基于数据仓库的CIS数据挖掘系统设计,还应充分考虑到如下4个方面:

(1)、数据规模。数据仓库中集成和存储了若干分布、异质的信息源的数据,这些数据本身就是一个庞大的数据库,而数据仓库则更为庞大,对于从如此巨量数据中有效提取有价值的数据,需要借助于信息技术的进步才能实现。

(2)、历史数据。基于0LTP的数据库系统其存储的数据量是有限的,因为数据越多,数据组织、重构、查询、索引和监控的难度就越大。而区别于进行OLTP操作的数据库,数据仓库的根本特征之一就是进行长时间的历史数据存储,以便分析数据的长期趋势。正因为如此,在时问轴上的数据纵深性也成为一个技术难点。

(3)、数据集成和综合性。数据仓库中集成了企业内部和外部全面的、综合的数据,数据挖掘是从这些关系更为复杂的全局模式中发现知识,从而为企业高层决策提供有价值的竞争情报服务。要求在数据准备阶段需要花大量的精力对数据进行整理、合并和分析,这成为数据挖掘的核心工作。另外,数据仓库中对数据不同粒度的集成和综合,能更有效地支持多层次、多种知识的采掘。

(4)、查询支持。数据仓库一般不支持数据的实时更新,对数据的更新不是由最终用户直接更新实现的,而是由专门的一套机制保证,由系统自动更新和管理员控制来协同完成。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做到实时交互,使决策者的思维保持连续,有可能挖掘出更深入、更有价值的知识。

 

参考文献:

[1](加)韩家炜,(加)坎伯(Kamber。IVl.).数据挖掘概念与技SEM].范明等,译.北京:机械工业出版社·2001.

[2]李志明,胡树森.数据挖掘及其在现代化图书馆中的应用[J].图书馆学研究,2006(6).

[3]刘文科.数据挖掘在高校图书馆读者管理中的应用[J].科技情报开发与经济,2006(8).

[4]马丽华.赵静.陈文勇.数字图书馆个性化信息服务模型[J].大学图书情报学刊.2007(2).

[5]潘旭武。陈玲洪.数据挖掘在数字图书馆中的应用研究[J].浙江高校图书情报工作.2007(1).

[6]MargaretH.Dunham数据挖掘教程[M].北京:清华大学出版社,2005.

[7]构建企业数据仓库.

[8]要敏强等基于数据仓库技术的决策支持系统的研究与应用.系统工程理论与实践.

[9]刘东苏等.基于数据仓库的联机决策情报分析技术研究情报学报,1998,17(1):51—55

[10]张云涛,龚铃.数据挖掘原理与技术[M].北京:电子工业出版社,2004.

[11]林瑞娟,侯德文.Web挖掘及其在电子商务中的应用研究[J].计算机技术与发展,2006,16(8):186—188.

[12]袁学松,宣宾.web挖掘技术在电子商务中的应用[J].电脑知识与技术,2006,14(8):78—79.

[13]张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报,2005(09).

[14]陆垂伟.电子商务中数据挖掘技术的研究与应用[J].商场现代化,2006(04).

[15]龚晓君.数据挖掘算法研究及在电子商务中的应用[D].杭州:浙江大学,2005.

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22427305/viewspace-1118958/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-08-27