ITPub博客

首页 > 大数据 > 数据挖掘 > 当数据遇见挖掘,当数据挖掘遇见增强现实。

当数据遇见挖掘,当数据挖掘遇见增强现实。

数据挖掘 作者:bijeddd66 时间:2010-01-09 05:05:52 0 删除 编辑

一、引言:

信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候,刷卡交易的信息和购物情况已经进入了银行和商场的数据库;当你拿起手机拨打电话的时候,话单的信息已经进入了电信运营商的数据库;当你在医院挂号就医的时候,门诊和处方的信息已经进入了医院的数据库;当你使用公交卡乘车的时候,购买车票的信息也已经进入了公交公司的数据库。-SAS软件有限公司资深顾问 张磊博士

二、数据挖掘出现的背景

随着时光推移,社会中大量积累的数据成几何倍数增加,如何从这些包含噪音数据和垃圾数据中的数据库中提取有用信息,人们需要更加依赖于计算机的处理能力,需要更高级的分析技术来协助从海量数据中发现潜在的规律。那么数据挖掘可以帮助我们做什么,它的作用和功能呢?

三、数据挖掘不同的定义:

简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(J. Han and M. Kamber)

“数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al)

“运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic)

“数据挖掘,简单地说,就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》(Alex Berson, et al)

“数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang)

而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。”

四、数据挖掘的学科内容

严格地说,数据挖掘并不是一个全新的领域,它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。

五、应用领域

1、统销售商业

啤酒与尿布

世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一,里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯,沃尔玛利对顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些,结果他们有了意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”

这是数据挖掘技术对历史数据进行分析的结果,它符合现实情况吗?是否是一个有用的知识?是否有利用价值?

于是,沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

该项应用是数据挖掘关联方法的典型应用。

2、社会管理

格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。

按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。

此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。

新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。

治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。

该项应用主要采用数据挖掘分类及预测功能。

 据挖掘应用领域很广,对社会各个领域都有很好的应用前景。

六、Phd的方向选择

既然选择的数据挖掘来作为毕业的学科方向,必须有相对应的应用领域,并在该领域进行实际应用,通过对数据挖掘相应方法的对应算法进行优化,提高应用领域的工作效率和得出比原来更加准确的预测。

来到爱城以后,与nice的谭教授进行了多次沟通,结合谭教授的mobile learning的研究方向,确定了augmented reality与data mining的结合。when augmented reality met data mining,when i met you(tan、will、chris)。Who knows what could happen!

1、augmented reality 介绍

Augmented reality (AR) is a term for a live direct or indirect view of a physical real-world environment whose elements are merged with (or augmented by) virtual computer-generated imagery – creating a mixed reality.

用领域:

增强现实技术是采用对真实场景利用虚拟物体进行“增强”显示的技术,与虚拟现实相比,具有真实感强、建模工作量小的优点。可广泛应用于工程设计、现代展示、医疗、军事、教育、娱乐、旅游等领域。

简单来说,就是通过摄像装置观察被观察物体时,提供可根据设定好或计算后的结果,针对观察者的身份提供附加的虚拟信息。

当数据遇见挖掘,当数据挖掘遇见增强现实。

P&G通过AR技术推广「Always Infinity」卫生棉品牌。打印一张带有特殊符号的纸,然后用摄像头对准这个纸,在电脑中拍摄的视频的纸上会出现一个小动物来说出广告词。

七、目前工作进展

1、确定数据挖掘中的具体方法及算法,并完成文献综述工作。

2、确定aumented reality的具体应用场景,与AR系统开发人员进行系统构架讨论,确定合作界面。

3、完成6天后的项目进行报告。

 

由于工作安排原因,日志更新速度降低,请大家见谅。我在这边一切正常,请大家放心。我会尽量加快日志更新速度。

by the way:请cistec的兄弟姐妹们,如学科方向有交叉,请与我联系,我们可以进行讨论,为了我们共同的目标奋斗。谢谢。

 

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23832781/viewspace-1119082/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-05-01