ITPub博客

首页 > 大数据 > 数据挖掘 > 数据挖掘中常用的采样方法

数据挖掘中常用的采样方法

原创 数据挖掘 作者:mysas 时间:2007-11-17 19:36:29 0 删除 编辑
近期看了一些关于数据采样的资料,顺便研究了一下SAS EM模块Sampling节点,SAS EM里提供了随机采样,等距采样,分层采样以及聚类采样等集中采样方法,这里分别介绍一下[@more@]

在数据挖掘的数据分析阶段,数据量通常都很大,一般为几十万甚至上百万。通过数据分析,用户可以了解数据集的特征,变量特征,并对数据进行初步的处理,以便在建模阶段有导向的提取特征变量进行建模。但如果建模的数据量过大,一方面要对所有数据进行训练,时间上很难满足,另一方面,数据量过大,容易造成模型的过度拟合。因此在建模之前对数据进行采样在数据挖掘过程中是十分必要的。

常用的数据采样方法可以分成两类:

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/11748324/viewspace-982889/,如需转载,请注明出处,否则将追究法律责任。

上一篇: SAS简介
下一篇: 没有了~
请登录后发表评论 登录
全部评论
  • 博文量
    2
  • 访问量
    3324

最新文章