ITPub博客

首页 > Linux操作系统 > Linux操作系统 > google的"补充材料"跟排名无关(转)

google的"补充材料"跟排名无关(转)

原创 Linux操作系统 作者:jcszjswkzhou 时间:2019-04-30 13:00:05 0 删除 编辑

在点石看到这个贴子,觉得挺有意思的。转发过来。

google的"补充材料"跟排名无关

关键字:补充材料 Google排名 搜索引擎优化 Spider 补充索引

看了网上很多关于google补充材料的文章,都在寻找google补充材料形成的原因和对策。依我的理解,很多文章都是片面的,不准确的。

有的人甚至说:

Google补充材料会把页面打入西伯利亚的牢房。
Google补充材料是和正常Google索引相对的。
Google补充材料会被赋予极低的信任值。
Google补充材料不会被用于任何重要的排名。


他们不相信Matt Cutts的解答

经过一段时间的观察,我认为Matt Cutts所言是完全正确的。而google的"补充材料"跟排名没有必然的联系。

不信你可以看个例子:

http://www.google.cn/search?comp ... %E7%B4%A2&meta=

你可以看到,就搜索“补充材料”这个关键字而言,Zac博客的文章排名在前面,但是被标识为“补充材料”,这一点可以证明"补充材料"跟排名无关。

怎么去理解“补充材料”呢?我们来看google官方的解释

补充结果与常规的网络结果类似,不同之处在于其来自我们的补充索引。在为此补充索引进行抓取的网站上,与为主要索引而进行抓取的网站不同,我们可以设置较少的限制。例如,一个网址的参数数量可能使该网站无法抓取到主要索引中,但是,仍可能抓取和添加到我们的补充索引中。

如果您是网站管理员,请注意,将网站包括其中的索引是完全自动的,没有任何方式可以选择或更改网站出现在其中的索引。还请注意,将网站包含于其中的索引不会影响其 PageRank。


很多人理解这句话的时候,对于“主要索引”和“补充索引”这两个概念理解错误。错误的原因在于不了解搜索引擎的工作原理,这里讲的索引是指搜索引擎的spider索引,并不是我们用户在google搜索的时候的索引数据库。这就是解释为啥上面的网页被列为“补充材料”而排名第一的原因了。因为两者根本不是一个同一个概念的索引。

一个关键字的排名是根据google别的因素计算出来的,spider所以只为其提供抓取时候的一些基本信息提取和处理,诚然,spider提取和处理的网页信息对google排名有影响,但是跟“补充材料”无关,这就能解释某些人写的文章中一些处理方法有效的行为了。

说到这里,大家可能还不能明白!如果我把google为啥要做“补充材料”的原因说一下,大家可能就明白了。

google为啥要标识“补充材料”呢?就四个字:节约带宽。搜索引擎spider在索引网页的时候的时候对带宽的消耗是极大的,你可以从“Google工程师解释Googlebot抓取网页的原理”这篇文章中可以看到。google的spider把索引分为主要索引和补充索引,就可以有效地解决带宽,因为某些网站是不需要经常去抓的,如果大量去抓,纯粹是在浪费带宽。

什么样的网站或者网页不值得经常去抓呢?网上所讲到的形成补充材料的原因都说的没错:

1、死链接或者服务器暂时不能访问。不存在或者不能访问的网页当然不用去更新啦,spider肯定不会老去connect它浪费感情。但是死链接有些资料也是很重要的,可以用快照看,一般在一定期限内,搜索引擎是不会删除的。

2、复制网页或者相似网页。一篇文章,如果被贴了无数遍,抄别人的东西的网站当然不会去修改它了。

3、长期未更新的网站或网页,如果有个3-4年没更新,spider肯定不会去经常更新了,把它列为“补充材料”不为过,不过对排名没啥影响。你可以用google搜索“瑜伽”这个关键字:

http://www.google.cn/search?comp ... %E4%BC%BD&meta=

你可以看到,第二和第三的网站确实3年多没更新了,被列为“补充材料”,但是不妨碍它排名这么高。

4、还有别的可以不经常索引的原因你可以去想...

从上面几点可以看出,很多人认为“补充材料”对排名有影响基于第2点,大家可以从我上次发的文章“搜索引擎复制网页的算法”可以看到,很多人被列为补充材料的原因确实如此。而网上有很多人抱怨,自己的文章全是原创,也被列为是“补充材料”,那肯定跟第2点无关。主要的原因在于缺少有效链接,当然包括外部的链接和内部的链接了,内部的链接主要跟网站结构相关,外部链接靠你自己努力和别人的捧场了。让我们再温习一下Matt Cutts的回答:

有补充材料现在不一定是件坏事。你的这个情况在我看来,只是缺少PR和链接的一个反映。你的首页已经在我们的主数据库中,但是你并没有多少链接。所以我认为你的网站并没有什么问题,只不过我们的索引数据库只能选择一部分文件,如果有更多的人链接到你的网站,我预期你的网页会回到主数据库。


这是Matt Cutts回答一个网站管理员的回答,说明的是这个网站管理员的网站并不是大量转载别人网站的那种网站,也没有作弊,所以Matt Cutts说:“我认为你的网站并没有什么问题”。

在接下的时候必须说到,以前google在索引网页的时候都是根据该网页的pr值决定抓取该网站的多少层连接,这个spider抓取网页的方法本来就是为了节约带宽,但所得必有失,造成一些深层次的质量好网页无法被索引。现在google的做法就是全部给你索引,把以前不抓取的放进“补充材料”,这就是他所说的“只是缺少PR和链接的一个反映”。我想如果你网站首页有点pr值,如果你的网页离你首页很近,一般不认为是“补充材料”。

“如果有更多的人链接到你的网站,我预期你的网页会回到主数据库。”试想,如果有很多不是在“补充材料”里面的网页链接到你,spider这个小家伙就会开始判断了:

就一个链接,权重不够,还打入“补充材料”;

怎么?又有权重好的链接了,要不要把它放入“主索引”呢?

先看看最后是啥时候更新的,哇,三年没更新了,这网页!打入“补充材料”,下次告诉咱“主索引”别的兄弟,看到这个链接不用去比较日期了,下次判断让“补充索引”的兄弟们干。

最近半年以下更新的,好,让我来看看你是不是复制网页?(说明:spider只是第一道工序,后面还有处理过程)。

不是复制网页,初步面试通过,加入“主索引”。


上面是把spider的行为拟人化的描述了一番。

当然,关于sipder的索引行为会有更多的东西,此文抛砖引玉,希望大家从搜索引擎的工作原理上来做搜索引擎优化。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10294527/viewspace-126095/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2007-08-29

  • 博文量
    2820
  • 访问量
    2071111