ITPub博客

首页 > 大数据 > 数据挖掘 > 跨行业数据挖掘标准流程

跨行业数据挖掘标准流程

数据挖掘 作者:biaosu 时间:2014-03-14 09:15:53 0 删除 编辑
tags: 数据挖掘 分析流程


@chrispher2012 数据,为梦想而生

跨行业数据挖掘标准流程(CRISP-DM ,cross-industry standard process for data mining) 此数据挖掘过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM 模型在各种数据挖掘过程模型中占据领先位置,采用量达到近60%。本文简单的介绍了CRISP-DM,参考信息主要源自维基百科及其所注的链接。

CRIS-DM模型如下: Alt text
主要过程为:商业理解 —— 数据理解 —— 数据准备 —— 建模 —— 模型评估 —— 部署, 我们将分别从这六个方面概要的讲述。

商业理解

商业理解(Business Understanding): 最开始阶段我们必须从商业的角度上面了解项目需求和最终目标,并将这些需求和目标转化为数据挖掘里的定义和目标。
主要考虑点如下:

  • 确定商业目标:明确商业背景、商业目标、可衡量的成功标准
  • 评估环境:明确企业资源、需求、约束,风险,沟通,成本代价分析
  • 确定数据挖掘目标:明确目标以及可衡量的成功标准
  • 制定项目计划

数据理解

数据理解(Data Understanding): 从数据收集开始、到熟悉数据,进而对数据的可用性进行评估,发现有用的数据和数据的潜在假设。
主要考虑点如下:

  • 收集原始数据:撰写数据收集报告(充分理解数据来源,注意数据集有效时间)
  • 描述数据:数据描述报告
  • 探索数据:数据探索报告
  • 检验数据质量:数据质量报告

数据准备

数据准备(Data Preparation): 将原始数据处理成最终建模需要的数据。该过程可能多次执行,且非常耗时,包括特征选择、数据清洗、数据预处理、数据转换等等。 主要考虑点如下:

  • 数据准备:数据集和数据集描述
  • 选择数据:包含/排除数据的准则
  • 清洗数据:数据清洗报告,一定要记录数据清洗方法
  • 构造数据:派生属性,数据转化、离散、产生新纪录化等等
  • 整合数据:合并数据,匹配数据
  • 格式化数据:去量纲等

建模

建模(Modeling): 使用数据挖掘模型技术进行建模,并对参数进行调优。过程中,可能会需要多次执行数据准备阶段。
主要考虑点如下:

  • 选择建模技术:建模技术、建模建设
  • 生成测试设计:撰写测试设计文档
  • 构建模型:使用的参数、模型以及模型描述
  • 评估模型:评估模型并完善参数

模型评估

模型评估(Evaluation): 在得到了从数据挖掘角度看是高质量的模型,在部署模型之前,要对模型进行全面的评估。非常重要的一点,就是判断模型是否达到了既定的商业目标,是否有改进空间等。
主要考虑点如下:

  • 评估结果:一句商业成功标准评价模型结果、审核模型
  • 重申模型:审核模型建立过程
  • 确定一下步:最终决定

部署

部署(Deployment): 在建模结束后,我们需要把得到的知识或规则应用起来。部署阶段极可能是生成一份报告,也可能是嵌入企业系统等。
主要考虑点如下:

  • 规划与部署:部署计划
  • 规划监控与维护:计划书
  • 最终报告:得到最终报告或陈述
  • 回顾项目:经验文档

虽然上述流程采用比例较大,如下图所示: Alt text
来自kdnuggets 2007年
但是,实际中我们可以根据自己的需要进行一定程度的修改。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/579556/viewspace-1118969/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论