ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 数据挖掘1-基本概念

数据挖掘1-基本概念

原创 Linux操作系统 作者:zghover_cu 时间:2012-05-02 10:13:31 0 删除 编辑

数据预处理

1,什么是数据预处理

数据的迅速膨胀导致很多无用的、错误的数据,所以需要对数据进行预处理。

2,数据预处理的步骤

2.1 数据清洗

数据清洗通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。主要的数据清洗方法:

2.1.1 遗漏数据处理

假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入(income)属性,对于为空的属性值,可以采用以下方法进行遗漏数据(missing data)处理

.忽略该条记录

若一条记录中有属性值被遗漏了,则将此条记录排除在数据挖掘过程之外。但有时这种处理方法不是很有效。

.手工填补遗漏数据

这种方法比较耗时,而且对于大规模数据可行性较低。

.利用缺省值补漏

预先设定一个缺省值来填补缺失的属性值。但这种方法也不推荐使用。

.

2.2 数据集成

2.3 数据转换

2.4 和数据消减

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/20498361/viewspace-722532/,如需转载,请注明出处,否则将追究法律责任。

下一篇: python 升级
请登录后发表评论 登录
全部评论

注册时间:2012-03-25

  • 博文量
    12
  • 访问量
    57153