ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 第三代搜索技术展望(转)

第三代搜索技术展望(转)

原创 Linux操作系统 作者:ilg 时间:2019-07-01 17:18:06 0 删除 编辑
第三代搜索技术展望(转)

  搜索引擎已经成为互联网上的“重磅炸弹”。然而,网上搜索信息效果究竟如何呢? ――诸如 AOL、Google、微软及雅虎等公司所提供的关键字搜索引擎技术,在涉及到企业内部网络时往往会失败,而企业内部不仅有熟悉的网页、Office文档及Adobe文件,而且还会有存在特定主机数据库或计算机辅助设计(CAD)系统中的数据,其中有些数据已有几十年历史了。飞速增长的业务以及政府在IP电话、电子病历及反恐技术等新型IT领域的日益增大的投入力度都促使人们寻求搜索数字信息的新途径。

  被称为第三代的未来搜索技术的目标是从数据库、网页、文档或音频和视频剪辑中自动提取信息;识别人名、地点、组织、日期、金额并且寻找其中的关联性;同时随着企业拓展呼叫中心并转向基于IP电话系统、以及政府在智能化及国家安全信息技术上投入巨资,挖掘声音和图像含义的重要性日益凸现。

  目前在搜索技术的研发方面有哪些新的进展呢?

  Google改善企业搜索和音视频搜索

  多数计算机用户在搜索信息时首当其冲要去的地方就是 Google或Yahoo,它们的关键字搜索模式在互联网上效果不错,这是因为利用了人们构建网页时所建立的关联。它还可用于企业计算机网络,即便业务文档并非像网页那样链接在一起。问题是,在习惯了Google 的简捷及快速后,多数人期望轻松便捷地获取最关联的信息,这在企业网络中往往难以如愿。据搜索专家称,客户关系管理系统、供应链计划软件以及财务数据库内的结构化信息仅占企业全部数据的五分之一。其余的数据都是非结构化的,存在于电子邮件、Word 文档及 PDF 文档之中。

  截至目前,Google的解决方案是在公司内部设立特殊的应用服务器,来对企业内部数据加以索引并以Google 用户所熟悉的界面呈现出来。有些人称该公司的PageRank 核心算法对于数据并非像网页文档那样有效,针对这种说法,Google公司企业总经理Dave Girouard称,PageRank 基于100多个变量来决定什么是相关的,而只有其中一种是匹配结构化链接的。对于购买搜索应用系统的业务而言,其它变量权值更大。这就意味着Google不仅适合广大的计算机用户市场,而且还能够满足购买其数据搜索服务器的企业客户。

  Google还在致力于研究分析音频和视频剪辑文件的算法。该公司还对软件系统加以改进,将不同IT系统中的数据萃取到易于理解的分类下, Google在其新闻网站上就采用了该技术。

  Roussinov 用问答搜索替代关键词搜索

  美国亚利桑那州立大学信息系统系助理教授D m i t r i Roussinov 说,多数用户惯用的简单关键词检索方法难以得到太多相关性。因为该技术已经几乎达到其颠峰。为此,Roussinov 已经研究出一种“问答”系统,旨在返回问题对应的准确答案,而不是包含分类结果的数十个相关网页。他在去年的一篇论文中描述了该系统,该系统对网页上的语句结构进行分析,回答诸如, “IBM首席执行官是谁?”等问题,而无需依赖于语言规则数据库。他说,这样使得系统实施更加简捷、便宜。在亚特兰大举办的IEEE 智能及安全信息国际会议上,Roussinov 展示了一种新型问答式应用系统实现新的搜索功能,该系统能够发现诸如介绍如何制造炸弹或入侵计算机等“危险”网页。

  微软加强搜索个性化

  微软公司认为要提高互联网以及企业内网搜索的关联性还任重道远,该公司将利用其实力简化用户使用并发挥其研发优势解决关键词搜索难题。微软MSN 产品部门经理Dane Glasgrow 说,计算机用户和搜索引擎交互还有一段艰难路途。该公司的市场分析显示,对于多半问题搜索引擎得不到令人满意的答案,原因往往在于用户没有提供足够多的细节信息。为此,微软正在开发一种工具,便于用户设定其问题,而且计算机易于得出相关答案。有迹象表明微软正在利用其技术实力对搜索结果个性化。历经3个月测试而在今年面世的MSN搜索引擎通过同时搜索Web 和微软在线百科全书而给用户所提问题得出直接答案。

  从Georgia 技术学院研究机构派生出的音频搜索公司 Nexidia 开发出一种“语音搜索引擎”,它可以分析构成英文单词中的基本声音,搜索速度是实际播放速度的50 倍。该技术可用于军事上监听敌方通讯以及商务中分析客户支持电话。

  Autonomy致力工作流搜索

  剑桥软件供应商 A u t o n o m y 公司美国运营部 Stouffer Egan 称,该公司的软件可以查找部分用户工作流。 A u t o n o m y 公司的客户包括: BP、Ford、通用电子、GE、英特尔以及西门子等公司,该公司的软件在后台扫描企业文档,然后给出与用户工作最相关的建议搜索结果。例如,一位销售人员正在Siebel 系统使用该软件,则Automony就会返回相关的信息――诸如刚才输过人的姓名等相关联信息。

  Autonomy 技术以Blinkx 搜索引擎为基础,它可以搜索网上和用户桌面打开文档相关的信息。Autonomy 还对图像及视频文件进行分析,这是一项处理密集型工作,为了便于用户桌面快速搜索而将元数据与之关联。Video Monitoring Services 公司对新闻广播进行记录并加以分析,让企业能够监控其市场范围及热点,该公司首席信息官Gerry Louw 利用Autonomy 软件每月搜索近 7 5 0 0 0 小时的电视和广播节目,然后将之剪辑成客户相关资料。该公司将处理时间缩短了2/3,而且能够几乎在广播的同时就为客户提供新的信息。 Louw 说:“它改变了我们传统的工作模式,为我们从非结构化数据中发掘业务智能提供了舞台。”

  IBM 研究多媒体分析和语义搜索

  对多媒体信息进行分析也是萦绕在IBM 技术人员头脑中的想法,他们正在致力于解决拥有许多计算机的大企业所面临的问题。

  Boolean搜索要求用户掌握一套新的与、或、非等专业词汇,这正在淡出历史舞台。IBM 公司搜索事业部开发组经理兼 IBM 学院文本分析及研究负责人Arthur Ciccolo说:“我们正在为了改变这种状况而努力,新型搜索技术将文档视为‘人类语言的表达’,而不是匹配文字模式”。 除处理句法分析之外, IBM 还在研究能够理解语义的搜索引擎技术――词在上下文中的含义。

  IBM杰出工程师、信息系统集成副总Nelson Mattos 称,该公司正在开发一种称作非结构化信息管理架构(UIMA)的软件架构,它有助于其它程序获取并分析文本、音频、视频中的数据,并且将之组织为更加结构化信息。在今后几年内,IBM 计划公布UIMA技术细节,以帮助软件厂商构建应用程序,通过文本挖掘及分析从存储数据中提取有用信息。Mattos说:“这将开启我们称作的第三代搜索系统之门,它将真正实现智能化”。譬如,利用UIMA 技术构建的系统可以分析数百万病历并发现危险的用药组合。Mattos 还称,分析呼叫中心的记录的应用程序可以在产品的设计早期就检查出缺陷。

  事实上,搜索技术已经影响到操作系统的设计:苹果计算机公司计划在其发布的下一代系统的Mac OSX 中增加这种海量数据搜索引擎,而微软则在致力于开发一种新型的文件系统,有望在即将面世的Windows 新版本 Longhorn 中简化计算机查找文件、电子邮件、合同等。

  

本文来自:http://www.linuxpk.com/30126.html

-->linux电子图书免费下载和技术讨论基地

·上一篇:使用RFID技术之前请阅读此文

·下一篇:网格技术重演大型机发展历程
 
     最新更新
·注册表备份和恢复

·低级格式化的主要作用

·如何防范恶意网站

·常见文件扩展名和它们的说明

·专家:警惕骇客骗局,严守企业信息

·PGPforWindows介紹基本设定(2)

·解剖安全帐号管理器(SAM)结构

·“恶作剧之王”揭秘

·绿色警戒

·黑客反击战

·网络四大攻击方法及安全现状描述

·可攻击3种浏览器代码流于互联网

·黑客最新的兴趣点,下个目标会是谁?

·“僵尸”——垃圾邮件的主要传播源

·Lebreat蠕虫惊现3变种

·POSTFIX反病毒反垃圾Ų…

·在FreeBSD上用PHP实现在线添加FTP用户

·简单让你在FreeBSDADSL上…

·安全版本:OpenBSD入门技巧解析

·Internet连接共享上网完全攻略

·关于ADSL上网网速常识

·静态缓存和动态缓存的比较

·最友好的SQL注入防御方法

·令网站提速的7大秘方

·网络基础知识大全

·路由基本知识

·端口映射的几种实现方法

·VLAN经典诠释

·问题分析与解决——ADSL错误代码

·问题分析——关于2条E1的线路绑定


关于我们 | 联系方式 | 广告合作 | 诚聘英才 | 网站地图 | 网址大全 | 友情链接 | 免费注册

Copyright © 2004 - 2007 All Rights Reserved

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/14102/viewspace-117439/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2002-06-18

  • 博文量
    1715
  • 访问量
    1295765