ITPub博客

首页 > 大数据 > 数据挖掘 > 转:数据挖掘流程及主流工具

转:数据挖掘流程及主流工具

数据挖掘 作者:Parrotwu 时间:2010-01-22 15:23:36 0 删除 编辑
数据挖掘流程及主流工具

限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。

Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于200510月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:

        一个发现过程

        具有灵活的框架

        按照清晰定义的策略进行

        包含多个检查点

        多次定期的评估

        允许在反馈环路中对函数进行调整

        组织为叠代式的架构

很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。

但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。

“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):

        数据存取能力:能否访问各种类型的数据,数据接口的效率如何

        数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等

        模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署

        可视化能力:多种图形展示,交互操作

        性能:软硬件平台支持,并行,多CPU,多线程,分布式架构

        对各种用户和行业解决方案的支持能力

        其它能力支持:中文支持,友好界面,批处理,API,元数据管理等

企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括GartnerIDC等等。以下引用Gartner2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。

“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SASSPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXENPortrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”

“在此项评测中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SASKXENSPSS。”

2006年第1季度的评估报告中,还曾包含ChordiantTeradata等厂商。

评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。

转:数据挖掘流程及主流工具

图: Gartner客户数据挖掘魔力象限(2007年第2季度)

在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SASSPSS分别简要介绍。

转:数据挖掘流程及主流工具

 

SAS

 

在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS

 

SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。

 

SAS

 

在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS

 

SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22079084/viewspace-1121767/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-07-10