ITPub博客

首页 > 大数据 > 数据挖掘 > 数据挖掘导论

数据挖掘导论

数据挖掘 作者:zhaoxishan 时间:2014-02-13 09:08:15 0 删除 编辑
数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。数据挖掘是一种工具,是很多领域都可以运用的,选一个自己擅长的领域做有针对性的研究工作。
Q:哪些学科?
A:数据库、概率、在线分析处理(OLAP)、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别
数据丰富、知识匮乏
Q:为什么数据丰富,知识匮乏?
A:当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来帮助从中提取有用的信息和知识,人类显然就会感到像大海捞针一样束手无策。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”.
   被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的处理和分析理解能力(在不借助功能强大的工具情况下),这样存储在数据库中的数据就成为“数据坟墓”,即这些数据极少被访问,结果许多重要的决策不是基于这些基础数据而是依赖决策者的直觉而制定的,其中的原因很简单,这些决策的制定者
没有合适的工具帮助其从数据中抽取出所需的信息知识。来帮助实现将“数据坟墓”中的数据转化为知识财富。
    数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识到智慧,需要经过分析加工处理精炼的过程。

数据挖掘导论
    数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
    数据仓库不同于管理日常工作数据的数据库,它是为了便于分析针对特定主题的集成化的、时变的即提供存贮
数据挖掘导论
Q:数据库和数据仓库的区别
A:(1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

(3)数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。

(4)数据库是为捕获数据而设计,数据仓库是为分析数据而设计。
Q:什么是OLAP
A:数据仓库的出现,为更深入对数据进行分析提供了条件,针对市场变化的加速,人们提出了能进行实时分析和产生相应报表的在线分析工具OLAP
Q:在线分析处理(OLAP)和在线事务处理(OLTP)的区别
A:如果说OLTP侧重于对数据库进行增加、修改、删除等日常事务操作,OLAP(Online Analytics Process,在线分析系统)则侧重于针对宏观问题,全面分析数据,获得有价值的信息。
Q:什么是数据挖掘
A:简单的说数据挖掘就是在海量的数据中发现有价值的金矿;严格的定义数据挖掘就是从海量历史数据中,利用各种技术e狈ǎ????稀⒐槟刹黄拦溃?酳铣鲇屑壑档男畔ⅲ??笠稻??霾咛峁┮谰荨

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/8343243/viewspace-1118872/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论
  • 博文量
    1
  • 访问量
    2757