ITPub博客

首页 > 大数据 > 数据挖掘 > Web挖掘及其在电子商务中的应用

Web挖掘及其在电子商务中的应用

数据挖掘 作者:zaris 时间:2011-05-11 09:17:01 0 删除 编辑

一、引言

  电子商务站点的成功很大程度上取决于保持已有用户和将随意浏览者转化为现实购买者的能力。因此,怎样在电子商务环境中吸引新用户,并确保自己可以提供足够的产品或服务留住老用户,成为许多电子商务站点所要关注的主要问题。另一方面,用户面对电子商务站点所提供的众多选择,要从中挑选出自己真正需要的产品或服务犹如大海捞针。

  人们为了实现从海量Web数据中,查找自己想要的数据和有用信息,提出了Web挖掘(Web Mining)。Web挖掘可以帮助人们从Web文档和Web活动中发现和抽取潜在的、有意义的模式和知识。它将传统的数据挖掘技术与Web结合起来,并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术,形成了Web结构挖掘、Web内容挖掘和Web使用挖掘的研究与应用体系。

  二、Web结构挖掘

  由于Web页面具有比纯文本更为丰富的结构,不仅具有文本信息,而且具有表示页面之间关系的链接,所以Web结构挖掘主要是利用Web文档之间的超链结构进行分析。大量的Web超链接信息提供了关于Web页面内容相关性、质量和结构方面的信息,反映了文档之间的包含、引用或者从属关系。引用文档对被引用文档的说明往往更客观、更概括、更准确。它有助于推断出页面的权威性。所谓权威页面是在一个主题内被高度引用或参考的页面,与其相关的另一个概念是枢纽页面,即:那些指向许多权威页面的页面。权威页面和枢纽页面展示了强烈的互增强关系;一个好的枢纽页面指向了许多好的权威页面;一个好的权威页面被许多好的枢纽页面所指。在信息检索中往往将高权威分和枢纽分的页面视为高质量的页面,可以考虑优先提供给用户。

  三、Web内容挖掘

  Web内容挖掘主要有两种策略:1.直接挖掘Web文档的内容;2.在工具搜索的基础上进行改进。采用第一种策略的有针对Web查询语言利用启发式规则的Ahoy等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。共分为四个阶段:

  首先,对文本挖掘对象建立特征表示。为Web文本内容建立特征表示是Web文本挖掘中的基本问题,常用的特征表示方法有:向量空间模型、布尔模型、聚类模型、概率模型和基于知识模型等。

  其次,提取文档特征并缩减。在目前所采用的文档表示方法中,共<优麦电子商务论文>同存在的瓶颈就是文档特征向量维数过高。常用的特征提取与缩减方法有:信息增益、互信息、文本证据权、特征频度、文本频度,以及特征熵等。

  再次,在完成文档特征向量维数的缩减后,利用数据挖掘的方法 (如分类、聚类、关联规则等)提取面向特定应用的知识模式。

  最后,对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到之前的某个环节,分析改进后再进行新一轮的挖掘工作。

  四、Web使用挖掘

  Web使用挖掘的结果通常是用户群体的共同行为和共性兴趣,以及个人用户的检索偏好、习惯和模式等,已经成为当前电子商务个性化推荐的主流方法。Web使用挖掘主要通过分析用户访问Web的记录了解用户的兴趣和习惯,对用户行为进行预测,以便提供个性化的产品信息和服务。Web使用挖掘的方法可以分为两类:

   1.基于Web事务的方法

  基于Web事务的Web使用挖掘技术通常应用于Web服务器日志文件,引入最大向前引用算法MF,将用户会话分割成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序列,从而取得用户访问模式。Web使用数据的采集和预处理是Web 使用挖掘过程中非常关键的步骤。

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22440393/viewspace-1119006/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-08-29