ITPub博客

首页 > 大数据 > 数据挖掘 > 基于语义Web挖掘的个性化推荐

基于语义Web挖掘的个性化推荐

数据挖掘 作者:fuwei286679875 时间:2013-03-17 16:53:43 0 删除 编辑

基于语义Web挖掘的个性化推荐

摘要:随着Internet上数据信息的激增,传统的万维网已经无法满足广大用户的需求,自从“互联网之父”在1998提出语义Web的构想后,语义Web展现出其广阔的应用前景,并在理论和应用方面都取得了巨大的进展。本文首先介绍了语义Web的概念,并简要说明了其由来,并详细分析了语义Web体系结构中各层的概念和功能。语义Web可以对Web挖掘的结果加以改进,而Web挖掘的结果也可以帮助构建语义Web,因此将语义Web和Web挖掘结合起来加以分析并使用可以提高两者的效率。由于传统的推荐模型无法达到真正的个人定制,因此利用语义Web来提高个性化推荐的效果就成了很自然的想法,本文分析了基于关联规则的个性化推荐系统实例,并说明了哪些部分可以引入语义Web,从而使整个系统的效率得到提高。本文的最后对语义Web以及个性化推荐的主要技术和相关应用做了展望。

关键字:语义Web; Web挖掘; 个性化推荐; Ontology

一、概述

随着信息技术的普及以及计算机硬件制造工艺的成熟,PC已经深入千家万户,由此带来的用户增长和需求变化,使得服务器的数量也以几何级的数量增长。各种各样的机构、组织和个人都在网上发布信息,这使得Internet成为了一个巨大的信息资源宝库。虽然Internet上有海量的数据,但由于Web是分布的,无结构以及动态增长的,并且Web的页面是以超文本的形式呈现的,其复杂程度远远超过了文本文档,人们在短时间内查找到完全符合自己需求的数据犹如大海捞针一般。

信息检索界开发了许多搜索引擎,但其覆盖率有限,因此查全率低,一般的搜索引擎是基于关键字的查询,命中率较低,另外不能针对特定的用户给出特殊的服务,因为每个人感兴趣的东西是不一样的,因此不具有个性化[1]。为了减少用户对特定需求信息的响应查找时间以及提高用户的满意度,我们应该对用户提供个性化推荐的服务。Web个性化信息推荐服务主要是指按照用户个性化需求,将 Web网络上获取的相关信息主动地推送给用户。具体来说,首先应该对用户的个性化特征进行识别,得到用户的个性化模式,然后利用已有的Web信息资源和它进行匹配,最后提供给用户满足其个性化要求的信息内容[2]

互联网被设计成一个信息空间,它的目标不仅是对人与人之间的通信有帮助,而且机器可以参与以及帮助使用者互相交流。目前主要的障碍就是互联网中的大部分信息是仅仅为人类使用的,计算机更擅长处理结构化和定义良好的数据,尽管有些信息是来自数据库且有良好的定义,网络爬虫或者机器人程序对这些数据的含义并不是明白的[3]。为了解决机器自动处理Web数据能力很弱的问题,Tim Berners-Lee在1998年首次提出了Semantic Web的构想,将人工智能如何训练机器从而表现得像人的问题搁置一边,语义网方法开发得是以一种机器可以处理的形式表达信息的语言[4]。“互联网之父”Tim Berners-Lee对语义网的定义是:语义万维网并不是一个孤立的万维网,而是对当前万维网的扩展,语义万维网上的信息具有定义良好的含义,使得计算机之间以及人类能够更好地彼此合作[5]。语义网会将结构引入有意义的网页内容中,创建一个软件代理可以从一个网页到另一个网页简单地为使用者执行复杂任务的环境。

个性化服务经过这么多年的研究与发展,已经取得了很多的成果。国内外对个性化服务进行研究的企业和科研单位很多,在所有人的共同努力下,个性化服务无论在理论研究、技术研究、产品和系统都取得了一定的发展。在个性化服务理论的研究方面,主要是对个性化服务的一个表面层次的描述,强调的是用户个性显现以及表达的方面。因为用户的个性需求是一个非常复杂的东西,而且这个需求还随时间的增长而发生相应的改变,所以相对于这个复杂的信息需求而言,制定一个相当精确的描述这个需求的概念也是相当困难的,所以至今也没有一个非常统一和权威的定义[6]。目前已经在以下方面取得研究性的进展:李勇等[7]通过对用户概貌数据的获得方式以及用户概貌的表示方法和学习算法的介绍从而给出用户概貌的创建和表示;陆悠等[8]根据Web服务的协同环境下个性化访问控制的特点,提出了基于Web服务的消息中间件机制框架,并配合扩充了的RBAC- 3访问控制模型,从而提出并实现了个性化访问控制框架;周凤丽等[9]提出了改进的FP_Growth算法在Web个性化服务中的应用,从服务器日志中得到用户感兴趣的隐式模式,并将该隐式兴趣集推荐给用户;白丽君[10]提出了结合内容过滤和协作过滤技术的方法;高利军等[11]提出了改进的K-means算法,使其成为自适应的聚类算法,并将其用于个性化服务中;B Sarwar等[12]提出了基于项目条列的协同过滤推荐算法;MOBASHER B等[13]基于Web使用挖掘提出了自动个性化技术。

二、语义Web

由于语义万维网的知识表示具有创建上的分散性,同时又具有应用上的通用性,所以需要一个统一的框架,这个框架应该能够满足这种分散性以及由这种分散性所带来的安全性,满足这些知识跨应用、跨领域的可互操作性[14]。Tim Berners-Lee在2000年的XML大会上首次提出了7层的语义Web体系结构[15],如图1所示。

基于语义Web挖掘的个性化推荐



 

图1 语义Web体系结构

语义网的体系结构共分7 层,各层之间相互联系,通过自下而上的逐层拓展形成了一个功能逐渐增强的体系。它不仅展示了语义网的基本框架,而且以现有的Web为基础,通过逐层的功能扩展,为实现语义网构想提供了基本的思路与方法[16]。从图1的语义Web体系结构,我们可以知道语义Web的分层:XML层作为语法层;RDF层作为数据层;本体层作为语义层;逻辑层提供了智能推理的规则;证据层支持代理间通讯的证据交换[17]。下面将详细描述每一层的概念和功能[14]

Unicode和URI。Web环境下的应用之间不可避免地需要相互通信,直接或间接地以机器可读的格式传递发布信息。这些信息中很大一部分是对Web上资源的描述,因此,首先应该以明确的方式来标识这些资源(对象)。语义万维网采用通用资源标识符来标识资源及其属性。另外由于语义万维网的最终目的是要构建一个全球信息的网络,在这个网络上应该涵盖各种语言和文字的信息资源,所以它采用统一编码Unicode作为字符的编码方案。这一层是整个语义万维网的基石,它成功地解决了万维网上资源的定位和跨地区字符编码的标准格式的问题。

XML、NS和xmlschema。该层是XML及相关的技术层,用于表示数据的内容和结构。用户对信息的内容进行标记,并使用文档类型定义DTD ( Document Type Definition) 或XML Schema来约束标签的结构,这样只要URI 索引前缀不同,二者就不会混淆。为了简化URI的书写,W3C采用了名命空间NS机制( Namespace)即命名空间。XML是底层的数据交换格式,它只是解决了文档内容的次序、结构的问题,并没有解决文档内容的语义、联系的问题。标签的具体含义的定义和互操作要交给上一层去解决。

RDF和rdfschema。用于描述Web上的资源及其类型。RDF是一个用于表达Web资源的语言,而RDFS(RDF Schema)是用来描述RDF的模式语言,主要提供了定义类(class)、类与类之间的关系(subclass)、属性(property)、属性之间关系(subProperty)的方法,并规定了简单的、基于集合理论的类继承规则,以及属性继承规则。

Ontology vocabulary。它用于描述各种资源之间的联系。本体层可以看作是对RDF/RDFS层的扩展,用于描述各种资源之间的联系。提供了对领域知识的共同理解和描述,具有更强的表达能力,支持可保证计算完整性和可判定性的逻辑推理。

Logic、Proof和Trust。在语义网体系结构中,本体层以上的各层统称为规则层。规则层中各层的具体含义是不同的。逻辑层(Logic)主要描述推理规则,因为它是代理对用户任务进行分解、定位、协调、验证乃至最后建立信任关系的基础。验证层(Proof)是根据逻辑陈述进行验证,以得出结论。信任层(Trust)位于体系结构的最顶层,同时也处在规则层的最上层。通过“ 验证”建立信任关系,保证语义网的可靠性。

三、Web挖掘

Web挖掘是使用数据挖掘技术从Web文档和服务中自动地发现和提取信息,Web挖掘的目标是从巨大的文档集合以及超链接信息、访问和使用信息中发现访问模式和隐藏信息[1]。Web挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术和简单的知识发现,它面对的海量信息不全是简单的结构化数据,而常常为半结构化数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的[19]。Web挖掘可分为3类:Web内容挖掘、Web结构挖掘和Web使用挖掘[1][19][20]

Web内容挖掘是从文档内容或其描述中抽取知识的过程。Web文档文本内容的挖掘,基于概念索引的资源发现,以及基于代理的技术都属于这一类。Web内容挖掘有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。采用第1种策略的有针对Web的查询语言Web Log,WebOQL等,利用启发式规则来寻找个人主页信息的Ahoy,等等。采用第2种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。

Web结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面,有助于用户找到相关主题的权威站点。

Web使用挖掘的主要目标则是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。这方面的研究主要有两个方向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构。而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。

利用语义Web可以在很多方面改善Web数据挖掘。在内容挖掘方面,语义能够带来对文档的内容和含义更清楚的认识;在结构挖掘方面,语义意味着更清晰的结构;在使用挖掘方面,利用语义可以获得与用户行为更为相关的信息,从而可以更好地理解用户的意图,以建立完善的用户跟踪架构,由此可以得到一个更有效率的用户跟踪系统[21]。同样地,利用Web挖掘的结果也可以帮助构建语义Web。

四、Ontology模型

Neches等人将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”[22]。Ontology的本质是概念模型,表达的是概念及概念之间的关系,其具有良好的概念层次结构和对逻辑推理的支持。基于ontology的信息检索的基本设计思想是:1.在领域专家的帮助下,建立相关领域的ontology;2.收集信息源中的数据,并参考已建立的ontology,把收集来的数据按规定的格式存储在元数据库中;3.对用户检索界面获取的查询请求,查询转换器按照ontology把查询请求转换成规定的格式,在ontology的帮助下从数据库中匹配出符合条件的数据集合;4.检索的结果经过定制处理后,返回给用户。

一个本体可由概念类、关系、函数、公理和实例等5种元素组成[23]。1.本体中的概念是广义上的概念,它除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等。本体中的这些概念通常构成一个分类层次;2.本体中的关系表示概念之间的一类关联,典型的二元关联如子类关系形成概念类的层次结构,一般情况下用R:C1×C2×…×Cn表示概念类C1,C2,…,Cn之间存在n元关系R;3.函数是一种特殊的关系,其中的第n个元素相对于前面n-1个元素是惟一的,一般情况下,函数用F:C1×C2×…×Cn2 1→Cn表示;4.公理用于表示一些永真式。具体地说,在许多领域中,函数之间或关联之间也存在着关联或约束;5.实例是指属于某概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例构成领域概念类在该领域中的指称域。

语义网依赖形式化的为了综合的和可移植的机器理解的目的而结构化基本数据的本体,因此,语义网的成功主要取决于本体的扩散,这需要本体的快速和简单工程化以及预防知识获取的瓶颈。本体学习帮助本体工程师构建本体,本体学习的视角帮助我们提出了一系列补足的规则为了支持半自动化,协作的本体工程处理而依靠不同类型的非结构化的、半结构化的以及完全结构化的数据[24]。基于Ontology创建语义网需要以下技术:从网络中抽取本体,即本体学习;本体的集成,即本体的映射和合并。

五、个性化推荐

个性化推荐可以采用基于规则的技术、基于内容过滤的技术和协作过滤技术。

基于关联规则的个性化推荐技术[25]主要如下所述。个性化智能推荐服务系统包括两个主要部分:离线部分和在线部分,在离线方式下,执行对Web服务器的访问log文件的分析挖掘,获取用户事务模式,再采用支持度过滤方法获取频繁的用户事务模式,然后,生成聚集树。在在线方式下,针对当前滑窗的用户访问操作路径,采用基于聚集树的关联规则挖掘,获取匹配当前滑窗的用户访问操作路径的关联规则集,生成推荐的候选集,实现在线个性化智能推荐服务[25]。基于Web访问挖掘的个性化智能推荐服务过程如图2所示。离线部分由数据准备和特定的访问挖掘任务组成,数据准备将Web服务器的访问log文件以及站点的相关文件生成用户文件和事务文件;特定的访问挖掘任务包括关联规则发现和URL聚类生成。在线部分利用离线部分生成的频繁项或者URL聚类,再根据用户的当前访问操作行为,动态地为用户推荐下一步访问操作。在线部分由个性化智能推荐服务Agent和Web服务器组成,Web服务器通过各种方法,如重写URL、暂存Web服务器的访问log文件,跟踪用户的访问操作;个性化智能推荐服务Agent通过分析用户当前访问操作,发现相关联的访问模式或者所属的URL聚类类别,计算生成推荐的URL集合作为用户下一步访问操作的候选集合[12]

由于访问log文件存在大量的“噪声”数据,必须对访问log文件进行预处理才能进行下一步的关联规则挖掘。预处理主要包括:数据精化、过滤和事务识别[20]。过滤访问log文件涉及二个方面的内容:过滤无关项或冗余项,分析丢失的访问记录。过滤无关项或冗余项就是将对Web访问挖掘分析不产生影响的访问记录从访问项集中删除。

计算推荐集的一个有效方法,就是直接利用离线方式下获得的频繁访问模式。在预处理阶段识别出用户事务(即最大前向访问路径辅助-内容事务)后,利用最小支持度过滤掉不频繁的项,然后,利用生成的频繁用户事务集合产生聚集树。基于关联规则的个性化智能推荐服务算法首先从聚集树发现匹配用户当前访问操作路径的关联规则,然后,再根据推荐度因子的大小确定推荐项,推荐度因子定义为关联规则的置信度乘以距离因子[25]

基于语义Web挖掘的个性化推荐




图2  基于Web访问挖掘的个性化智能推荐服务流程图

将语义Web引入个性化智能推荐服务,就可以很容易地清除访问log文件的“噪声”数据,这样将大大提高推荐系统的效率。

六、展望

虽然语义Web是下一代互联网的标准,其有着广阔的前景,基于语义Web挖掘的个性化推荐也将产生更好的推荐集从而提高用户的满意度,同时也会使Web应用变得更有效率,但是其中有许多亟待解决的难题。

本体的发展和管理。本体是当前语义Web研究的热点问题,当前的语义Web研究者都认为本体将为语义Web提供语义级的共享,是语义Web实现的关键所在。而在语义Web中应用本体,需要对现有的本体相关技术作进一步的发展。本体的主要目的是知识的共享与重用,因此一个典型的本体库系统要支持开放式的存储与组织、标志和版本化。开放存储和组织研究本体库如何存储和组织才能便于本体的访问和管理;标志为每个本体给定一个唯一的标记符;本体是随时间而不断发展的,所以需要有一个版本机制来保证不同版本本体的一致性[17]

数据的使用和处理的问题。这一挑战主要来自3个方面,其一就是如何在WWW上表达带有明确语义信息的内容;其二就是如何将现有的Web页面转换为带有明确语义信息的页面。特别是对于后者而言,其面临的挑战更加严峻。目前互联网上已经存在数以十亿计的网页,而且仍在承几何级数增长,因此如何对这些已经存在的网页信息增加语义信息就变得更加棘手。第三就是对语义内容的组织、存储和检索,其方式、方法和手段必须能够满足语义内容不断增长的需要。

用户个性化建模以及系统建设的问题。如何更好地对用户兴趣和行为进行表达也是一个难题,用户的思维和兴趣是动态变化的,对这些信息建模是十分困难的,现在只能对这些信息进行一个概貌的抽象,如何完整的建模将需要更多的关于人工智能和自然语言方面的研究成果。如何提高个性化服务系统的响应时间从而提高用户的体验度也是一个需要解决的问题,提高系统响应时间不仅需要在硬件方面进行提交,进行查询的技术也需要提高,目前使用的结构化查询语言SQL或许已不能很好地满足需求,新一代的数据挖掘查询语言将成为查询这种超文本资源的很好技术。

参考文献

[1] 韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414.

[2] 李树青,崔北亮.基于个性化信息推荐服务的Web搜索引擎技术综述[J].情报杂志,2007,8,98-101.

[3] T.Berners-Lee,J.Hendler. Scientific publishing on the semantic web[J]. Nature, 2001,410:1023-1024.

[4]Tim Berners-Lee.A roadmap to the Semantic Web[EB/OL].(1998-10-14) [2012-9-3]. http://www.w3.org/DesignIssues/Semantic.html.

[5] T.Berners-Lee,J.Hendler, O.Lassila. The Semantic Web[J]. Scientific American, 2001,284(5):34-43.

[6] 阳晓萍.B2C旅游电子商务网站个性化服务研究[D].上海:东华大学旭日工商管理学院,2007.

[7] 李勇,徐振宁,张维明.Internet个性化信息服务研究综述[J].计算机工程与应用,2002,19:183-188.

[8] 陆悠,张妮,吴宏杰.Web服务协同环境下个性化访问控制框架的实现[J].计算机工程与应用,2007,43(18):157-160.

[9] 周凤丽,于海平.改进的关联规则挖掘算法在Web个性化服务中的应用[J].计算机与数字工程,2011,39(5):33-36.

[10] 白丽君.基于内容和协作的信息过滤方法研究[J].情报学报,2005,24(3):304-308.

[11] 高利军,王辉,张望.个性化服务中自适应聚类算法的研究[J].微电子学与计算机,2007,24(8):89-92.

[12] B Sarwar, G Karypis, J Konstan, et al. Item-Based collaborative filtering recommendation algorithms[C]. In: Shen, V.Y., Saito, N., eds. Proceedings of the 10th International World Wide Web Conference (WWW10). 2001. 285~295.

[13] MOBASHER B,COOLEY R,SRIVASTAVA J. Automatic personlization based on Web usage mining[J].Communication of the ACM,2000,43(8):142-151.

[14] 朱礼军,陶兰,黄赤.语义万维网的概念、方法及应用[J].计算机工程与应用,2004,3:79-83.

[15] Tim Berners-Lee. Semantic Web on XML[EB/OL].(2000-12-6)[2012-9-4].

http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html.

[16] 孔邵颖.语义网中关键技术发展形势的探讨[J].信息科技,2012,1:181.

[17] 白同强,刘磊.语义Web的研究与展望[J].吉林大学学报(信息科学版),2004,22(2):154-159.

[18] 杨卓群,王以松.语义网及其应用[J].贵州大学学报(自然科学版),2011,28(5):66-72.

[19] 伏晓,骆斌,陈世福.基于语义的Web挖掘[J].计算机科学,2005,32(3):202-206.

[20] Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques, Second Edition[M].范明,孟小峰.北京:机械工业出版社,2007.3.

[21] Till Plumbaum, Tino Stelter, Alexander Korth. Semantic Web Usage Mining Using Semantics to Understand User Intentions[J]. UMAP 2009, LNCS 5535, pp.391-396.2009.

[22] 邓志鸿,唐世渭,张铭,等. ontology研究综述[J].北京大学学报(自然科学版),2002,38(5):730-738.

[23] 曾宪文,高桂革,杨明福.基于本体的多Agent语义挖掘系统[J].华东理工大学学报(自然科学版),2006,32(11):1323-1326.

[24] Alexander Maedche, Steffen Staab.Learning Ontologies for the Semantic Web[J]. ADVANCES IN WEB BASED LEARNING-ICWL 2008, PROCEEDINGS,2008,5145:446-456.

[25] 李煊,汪晓岩,庄镇泉.基于关联规则挖掘的个性化智能推荐服务[J].计算机工程与应用,2002,11:200-204
<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22063984/viewspace-1118939/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-07-08