ITPub博客

首页 > 大数据 > 数据挖掘 > MovieClick数据集数据挖掘总结  商务101班 张 才

MovieClick数据集数据挖掘总结  商务101班 张 才

数据挖掘 作者:cdq4233683 时间:2013-03-24 09:24:33 0 删除 编辑

      基于MovieClickSQL Server数据挖掘实验报告                     

一、 实验目的:

熟悉常见软件的数据挖掘功能,利用SQL Server 2005数据挖掘软件实现大规模数据集上的分类、聚类等挖掘功能,深入理解数据挖掘技术的应用。

二、 实验内容:

 利用SQL Server 2005数据挖掘软件对数据集MovieClick进行了实现如下的挖掘方法:

1)分类:决策树、贝叶斯、神经网络、SVM

2)聚类:k-meansEM

三、 实验用设备仪器及材料:

1)软件需求:使用WindowsXP

2)硬件需求:对于硬件方面的要求,建议配置是Pentium III 450以上的CPU处理器,64MB以上的内存,200MB的自由硬盘空间。我实验使用了2G内存,Intel Core(TM)2 Duo CPU ,双核,硬盘150G的笔记本电脑。

3)开发工具:SQL Server商务智能开发应用工具

四、 SQL Server数据挖掘实施过程:

本实验是利用SQL Server数据挖掘对大规模数据集MovieClick进行挖掘,以便从大量繁杂的数据中获取隐含中其中的信息。实验过程如图1

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

  SQL Server数据挖掘实施过程

 

五、 实验方法及步骤:

1. 在网上找到本次实验所需的大规模数据集MovieClick(如图2所示),为实验做好充分的准备。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

 MovieClick数据集

2. 导入数据集,将格式为Access 2000的数据集导入SQL Server挖掘软件,具体步骤为:

1)打开Microsoft SQL Server Management Studio,右击“数据库”新建一个数据库,并命名为 MovieClick,如图3所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

 新建MovieClick数据库

2)右击MovieClick数据库,选择“任务”,然后“数据导入”,准备打开导入向导。如图4所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

 MovieClick数据库的数据导入

①在“欢迎使用SQL Server导入和导出向导”对话框,单击“下一步”按钮,如图5所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

 SQL Server导入和导出向导

②在“选择数据源”的下拉列表,选择Microsoft Access,“文件名”选择E:课件数据挖掘 MovieClick.adb, 如图6所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

选择数据源

③在“选择目标”中,选择服务器名称和数据库,如图7所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

选择目标数据源

 

④在指定“选择表或查询”中选择“复制一个或多个表或视图的数据”,如图8所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

 选择表或查询

⑤在“选择源表和视图”中列表本实验中所需要的表,如图9所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

选择源表和视图

⑥保存并执行导入,完成导入,成功执行,如图10,图11所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

保存并执行包

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

10 执行成功

3SQL Server数据仓库事实表与多维数据的的建立

①建立Analysis Services项目

打开Business Intelligent Development Studio,在文件中新建一个Analysis Services项目,命名为MovieClick,如11所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图11 建立数据库Analysis Services项目

②定义数据源,右击“数据源”,单击“新建数据源”,准备打开“数据源向导”对话框,如图12所示,在“欢迎使用数据源向导页上,单击下一步”按钮。将显示选择如何定义连接,单击“新建”按钮,如图13所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图12  新建数据源

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图13 选择如何定义连接

 

提供程序列表中,确保已选中本机 OLE DBMicrosoft OLE DB Provider for SQL Server。在服务器名称文本框中,键入 PC2011032619KQL,并确保已选中使用 Windows 身份验证。在选择或输入数据库名称列表中,选择 Movieclick,如图14所示

显示模拟信息页上,可以定义 Analysis Services 用于连接数据源的安全凭据。在本实验中,选择 Analysis Services 服务帐户单击下一步”,如图15所示。随后出现完成向导,数据源名称为“Movieclick”,如图16所示

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图14 连接管理器

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图15  数据模拟

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图16  完成向导

③建立数据源视图。

在解决方案资源管理器中,右键单击数据源视图,再单击新建数据源视图。此时将打开数据源视图向导欢迎使用数据源视图向导页中,单击下一步。 此时将显示选择数据源页。关系数据源下的 Movieclick数据源已被选中。如图17所示。然后进入“名称匹配”页,选择通过匹配列创建逻辑关系,外部匹配选择“与主键同名”,如图18所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图17  选择数据源

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才
图18  名称匹配

单击 >,将选中的表添加到包含的对象列表中,在本实验中我们选择了Actos表,Channels表,Criteria表,Directors表和movies表(如图19所示)然后单击下一步,完成视图的添加。最后以“Customer ID”为关键字建立表之间主外键的关系,如图20所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图19  选择表和视图

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图20 建立表之间主外键的关系

 

4)建立挖掘结构,本实验以“决策树”挖掘方法为例进行分析的。

①使用数据挖掘向导新建一个挖掘结构。如图21所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图21 数据挖掘向导

②选择进行挖掘的数据集,选择“从现有关系数据库或数据仓库”,如图22所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

图22 选择定义关系

③选择挖掘的方法(这里选择 “决策树” 方法):挖掘技术采用微软的决策树数据挖掘算法,如图23所示。

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

23 选择数据挖掘技术

④选择数据源视图:就是刚刚创建的Movieclick数据源视图,如图24所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

24 选择数据源视图

⑤指定表的类型:指定事例表和嵌套表,把Customers指定为事例表,其余的均指定为嵌套表,如图25所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

25 指定表类型

⑥指定定型数据:指定一些表/列为输入部分或可预测部分,例如,我们分析要把住房卖给谁,可预测这部分就选择Home Ownership,如图26所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

26 指定定型数据

⑦指定列的内容和数据类型(直接点击测试按钮,系统会自动进行配置):指定数据类型是为告诉数据挖掘引擎数据数据源中的数据是数值还是文本以及应如何处理数据;内容类型描述列中包含的内容的行为,如图27所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

27 指定列的类型和数据类型

⑧完成挖掘结构的创建:指定挖掘结构的名称为:Movieclick;挖掘模型的名称为:Dtmovie,如图28所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

28 完成向导

⑨完成后得到数据源视图:完成挖掘结构和挖掘模型的构建,如图29所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

29 数据源视图

5)处理模型:现在开始模型的训练。

①选择挖掘结构下的Movieclick.dmn,右击选择“处理”:模型的处理就是模型的训练,如图30所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

30 选择处理

②选择后弹出下面的窗口:弹出对象列表的窗口,如图31所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

31 对象列表

单击“运行”按钮:出现处理进度窗口,开始模型训练的过程,处理成功后,单击“关闭”按钮,退出窗口,如图32所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

32 处理进度

④单击模型查看器,查看“决策树”结果(如图33所示):选择决策树算法得到的训练结果。从根节点到叶结点的一个过程,其实,就是它的一条规则。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

33 决策树结果

⑤点击挖掘模型,这里显示了已经创建的模型,右击可以添加新的数据挖掘模型,如图34所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

34 添加新的数据挖掘模型

添加“贝叶斯”挖掘模型:用贝叶斯算法来进行数据挖掘,如图35所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

35 新建数据模型

添加成功:添加“贝叶斯”挖掘模型成功,如图36所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

36 添加贝叶斯挖掘模型

添加“聚类分析”挖掘方法,最后的结果为如图37所示。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

37 聚类分析结果

六、实验结果分析:

1.决策树试验结果:

1)决策树:这是决策树方法挖掘出来的规则。从根节点到叶结点代表着不同的规则。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

38 决策树分析结果

 

2)依赖关系网络

所有链接:依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。通过决策树算法分析的依赖关系强度不同的每一类的特性。例如房屋所有者的依赖属性包括年龄、车子和卧室等。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

39 决策树所有链接

最强链接:决策树算法分析出来的依赖关系最强的特性表现个类间关联性的属性。在实验中,房屋所有者依赖关系最强的属性就是卧室的数量。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

40 决策树最强链接

内容查看器:存储了经过训练所得到的这些模式,以表的形式来展现的,可以用来查看不同的规则。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

41 决策树内容查看器

2.“贝叶斯”试验结果

1)依赖关系网络

所有链接:贝叶斯是根据各个变量之间的概率关系,使用图论方法表示变量集合的联合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。本例中通过贝叶斯算法分析的依赖关系强度不同的每一类的特性。例如房屋所有者的依赖强弱程度不同的众多属性

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

42 贝叶斯所有链接

最强链接:通过贝叶斯算法所得到的依赖程度最强的属性,它用概率测度的权重来描述数据间的相关性,从而得到最强的相关性。在实验中,房屋所有者依赖关系最强的属性就是卧室的数量,与决策树方法作出的结果实相符的。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

43 贝叶斯最强链接

2)属性配置文件:可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。44就是通过贝叶斯算法所得到的属性配置文件,可以分析缺失的和现在的比例。

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

44 贝叶斯属性配置文件

3)属性特征:贝叶斯算法所得到的数据集的属性特征。它们的属性对应的值以及所对应的概率,从中可以分析对我们有用的信息。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

45 属性特征

4)属性对比:属性对比就是呈现属性之间的特性对比。在图46中,规则可以查看算法中产生的关联规则,我们可以通过此来了解关联规则内容以及其支持度和置信度。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

46 贝叶斯属性对比

5) 内容查看器:存储了经过贝叶斯算法训练所得到的这些模式,以表的形式来展现的,可以用来查看贝叶斯条件下的不同的规则。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

47 贝叶斯内容查看器

3.“聚类分析”试验结果

1)分类关系图

所有链接:通过聚类分析所得到的强弱程度不同的所有链接。分类关系图可以显示挖掘模型中的所有分类,分类之间连线的明暗程度表示分类的相似程度。在此示例中,明暗度最深的分类8就是房屋拥有者百分比最高的分类。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

48聚类分析所有链接

 

②最强链接 :它是根据依赖程度最强的关系来确定最强链接的。在本实验中,聚类分析最强链接是分类一和分类二。

   

 MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

49聚类分析最强链接

2)分类剖面图:分类剖面图提供算法创建的分类的总体视图,显示了分类中的每个属性以及属性的分布。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最大条数在“直方图条”列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。如图 50所示,缺失的和现有的状态之间的对比。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

50聚类分析分类剖面图

3)分类特征:分类特征可以检查分类的组成特征。使用“分类特征”选项卡,您可以更加详细地检查组成分类的特征。 您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。在本例中,我们可以分析变量所对应的值以及它所对应的概率大小。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

51聚类分析分类特征

4)分类对比:分类对比可以比较两个分类的属性。使用“分类对比”选项卡,可以浏览区分分类的特征。当您从“分类 1”和“分类 2”列表中各选择一个分类后,查看器会计算这两个分类之间的区别,并显示各分类最独特的属性的列表。在本实验中,可以用来分析变量是倾向于分类一的还是倾向于分类二的。

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

52聚类分析分类对比

5)内容查看器:存储了经过聚类分析算法训练所得到的这些模式,以表的形式来展现的,可以用来查看聚类分析条件下的不同的规则。

 

MovieClick数据集数据挖掘总结 <wbr> <wbr>商务101班 <wbr>张 <wbr>才

53聚类分析内容查看器

 


<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22821463/viewspace-1121808/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-11-04