ITPub博客

首页 > 大数据 > 数据挖掘 > 数据挖掘的分类算法

数据挖掘的分类算法

数据挖掘 作者:NOCYCLE 时间:2009-12-09 22:54:57 0 删除 编辑

看了浙大的数据挖掘,做了点笔记,作为以后想看的资料。

 

数据分类————一个两步过程

第一步,建立一个模型,描述预定数据集和概念集

  假定每个元组属于一个预定义的类,由一个类标号属性确定

  基本概念

训练数据集:由为建立模型而被分析的数据元组形成

训练样本:训练数据集中的单个样本(元组)

   学习模型可以用分类规则、判定树或数学公式的形式提供

 第二步,使用模型,对将来的或位置的对象进行分类

   首先评估模型的预测准确性率

     对每个测试样本,将已知的类标号和该样本的学习模型类预测比较

     模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比

     测试集要独立于训练样本集,否则会出现“过分适应数据”的情况

 

有指导的学习VS无指导的学习

有指导的学习(用于分类)

  模型的学习在被告知每个训练样本属于哪个类的指导下进行

  新数据使用训练数据集中得到的规则进行分类

无指导的学习(用于聚类)

每个训练样本的类编号是位置的,要学习的类集合或数量也是可能是事先未知的

  通过一系列的度量、观察来建立数据中的类编号或进行聚类

 

准备分类和预测的数据

通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性

  数据清理

清楚或减少噪声,处理空缺值,从而减少学习时的混乱

  相关性分析

     数据中的有些属性可能与当前任务不相关,也有些属性可能是冗余的;删除这些属性

     可以加快学习步骤,使学习结果更正确

   数据变换

      可以将数据概化到较高层概念,或将数据进行规范化

 

 比较分类方法

  使用下列标准比较分类和预测法国法

     预测的准确率;模型正确预测新数据的类编号的能力

      速度:产生和使用模型的计算花销

      健壮性:给定噪声或有空缺值的数据,模型正确预测的能力

      可伸缩性:对大量数据,有效的构建模型的能力

      可解释性:学习模型提供的理解和洞察的层次

 

用判定树归纳分类

什么是判定树?

 类似于流程图的数据结构

 每个内部节点表示在一个属性上的测试

 每个分支代表一个测试输出

  每个树叶节点代表类或类分布

判定树的生成由两个阶段组成

  判定树构建

     开始时,所有的训练样本都在根节点

     递归的通过选定的属性,来划分样本(必须是离散值)

  树剪枝

     许多分支反映的是训练数据中的噪声和孤立点,数剪枝试图检测和剪去这种分支

判定树的使用:对未知样本进行分类

通过将样本的属性值与判定树相比较

 

属性选择度量

  信息增益

    在数的每个节点上使用心思增益度量选择测试属性:在选择具有最高信息增益(或最大熵压缩)的属性作为当前节点的测试属性。(即根据当前节点对应的训练样本,计算各属性的信息增益,然后选用具有最高信息增益的属性来做样本划分)

 

判定归纳树算法

判定归纳树的算法(一个贪心算法)

   自顶向下的分治方式构造判定树

   树以代表训练样本的单个根节点开始

   使用分类属性(如何跟是量化属性,则需先进行离散化)

   递归的通过选择相应的测试属性,来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现

    测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益)

递归划分步骤停止的条件

    给定节点的所有样本属于同一个类

    没有剩余属性可以用来进一步划分样本———使用多数表决

    没有剩余的样本

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26680829/viewspace-1118914/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

最新文章