ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 搜索引擎零距离--基于Ruby+Java搜索引擎原理与实现

搜索引擎零距离--基于Ruby+Java搜索引擎原理与实现

原创 Linux操作系统 作者:china-pub 时间:2009-06-04 16:33:50 0 删除 编辑

搜索引擎零距离--基于Ruby+Java搜索引擎原理与实现



【作  者】王亮 [同作者作品] [作译者介绍] 
【出 版 社】 清华大学出版社     【书 号】 9787302201472 
【上架时间】 2009-6-4 
【出版日期】 2009 年6月 【开 本】 16开 【页 码】 394     【版 次】1-1 

市场价 :¥39.80
会员价 : ¥29.85(75折) 

网上购买及样章试读:http://www.china-pub.com/195494


【内容简介】
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。.

本书的作者是一位资深的搜索引擎开发人员,书中对数据获取(网络信息挖掘)与数据检索(搜索引擎)两个方面作了深入的介绍。本书首先提出了一套“网络数据挖掘”的完整理论,并给出一个实际的智能爬虫系统,通过理论与实际的完整呈现,使读者能够对“网络数据挖掘”有一个比较具体的认识,然后介绍了一个专用程序语言IRS,并给出了这个语言的编译器以及虚拟机的实现方法。本书还通过对多个开源搜索引擎项目抽丝剥茧的细致分析,引出搜索引擎的一些基本原理与开发方法,并介绍了一个商业化搜索引擎的实例。本书的最后还结合一个Java框架介绍了一些软件设计思想。..

本书涉及网络数据挖掘、搜索引擎原理、编译原理、数据库原理、正则表达式、软件工程、设计模式、Ruby语言、HTTP协议等计算机科学与技术的知识,适合搜索引擎开发人员作为参考,也适合有一定计算机基础的读者阅读,以扩展视野。

本书的内容中,既有教科书式的理论阐述,也有“七天入门”式的实例解析,还有《Linux内核情景分析》风格的细致的代码分析,甚至还有一些英语文献翻译,从初学者到有一定经验的搜索引擎开发人员,各个层次的读者都能找到一些适合自己阅读的章节。...
【作译者介绍】
 本书提供作译者介绍
王亮,主持或参与过多个大中型搜索引擎开发与运营,具有丰富的搜索引擎算法理论知识与实际开发运营经验。曾任职于爱立信、Smarter.com、上海网村、上海迈众,2009年创立上海睿驿信息技术有限公司并任CEO,致力于提供搜索引擎相关的产品和服务。...
【目录信息】

第1章 网页数据挖掘. 1
1.1 网页数据挖掘定义 1
1.2 Web数据挖掘面临的问题 1
1.3 Web数据挖掘的分类 1
1.4 网页数据的结构与特点 3
1.4.1 HTML超文本标记语言 3
1.4.2 WML 无线标记语言 4
1.5 网页数据挖掘的基本方法 6
1.5.1 预备知识 7
1.5.2 变量模板匹配方法 8
1.5.3 树节点直接标识方法 10
1.5.4 语义规则识别方法 13
第2章 智能网络爬虫 14
2.1 智能网络爬虫的定义与特点 14
2.2 抓取入口定义 14
2.3 次级页面自动发现 14
2.4 次级页面地址拼接 16
2.5 已爬地址处理 17
<< 查看详细目录

zcover.jpg

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/16566727/viewspace-605125/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2008-10-29

  • 博文量
    922
  • 访问量
    1352063