ITPub博客

首页 > 大数据 > 数据挖掘 > 读书笔记1-数据挖掘是信息技术的进化

读书笔记1-数据挖掘是信息技术的进化

数据挖掘 作者:hujiansheng01 时间:2013-12-30 20:37:42 0 删除 编辑
这主要体现在数据库的进化历史上,从数据的收集、存储、查询、分析、挖掘等技术不断的进步我们可以看到数据是如何转化为知识的。
韩老师的书中对数据库系统技术的演变有很好的解释
第一阶段:
数据的手机和数据库创建(20世纪60年代或者更早)
原始数据处理
第二阶段:
数据库管理系统(20世纪70年代-80年代初期)
层次和网状数据库系统
关系数据库系统
数据建模:实体-联系模型等
索引和存取方法
查询语言:SQL等
用户界面、表单、报表
查询处理与优化
事务、并发控制和恢复
联机事务处理
第三阶段:数据库继续进化,同时出现了高级数据分析
高级数据库系统(20世纪80年代中期-现在)
高级数据分析 (20世纪80年代后期-现在)
高级数据模型:扩充关系的、对象-关系的、演绎的等 数据仓库与联机分析处理
管理复杂的数据:空间的、时间的、多媒体的、序列的和结构化的、科学的、工程的
移动对象的等
数据挖掘与知识发现:分类、聚类、离群点分析、关联与相关性、比较汇总、判别分析、
模式发现、趋势和偏差分析
数据流和物联网数据系统 挖掘复杂的数据类型:流、序列、文本、空间、时间、多媒体、Web、网络等
基于WEB的数据库(XML语义WEB) 数据挖掘应用:商业、社会、零售、银行、电信、科学与工程、博客、日常生活等
管理不确定数据和数据清理 数据挖掘与社会:无形的数据挖掘、保护隐私的数据挖掘、挖掘社会与信息网络、推荐系统等
异构源的集成
文本数据库系统以及与信息检索的集成
非常大的数据的管理
数据库调整和自适应系统
高级查询:排位、skyline等
云计算与并行数据处理
数据隐私和安全问题

第四阶段:
未来一代信息系统(现在-未来)

什么是数据挖掘呢?
KDD,即数据中的知识发现。
一般有以下的几个基本步骤:
  1. 数据处理
  2. 数据集成
  3. 数据选择
  4. 数据变换
  5. 数据挖掘(狭义的概念,与上面要区分开来)
  6. 模式评估
  7. 知识表示
数据挖掘功能(也就是数据挖掘能干什么)
而这些工作一般分为两类:描述性(descriptive)和预测性(predictive)
  • 类、概念描述:特征化与区分(我发现这是一般市场调研公司做的工作)
    • 数据特征化,一般汇总所研究类的数据
    • 数据区分,将目标类与一个或多个可比较类进行比较
    • 数据特征化和区分
  • 挖掘频繁模式、关联和相关性
  • 用于预测分析的分类与回归
    • 分类(classification)
    • 相关分析
  • 聚类分析(clustering),注意与分类区别(书中有详细的介绍,聚类不像分类和回归分析标记类的(训练)数据集,聚类分析数据对象,而不考虑类标号
  • 离群点分析(异常挖掘)
什么样的数据挖掘是好的(有趣的)?
易于理解
确信有效
有用的
新颖的
支持度(support)和可信度(confidence)的定义。

看中文版的国外书籍就是有一点不好,有些地方感觉还是翻译的不透彻,特别是一些术语,翻译以后更难理解了。读书笔记1-数据挖掘是信息技术的进化
<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23512772/viewspace-1118734/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-03-13