ITPub博客

首页 > 大数据 > 数据分析 > Google Analytics获得GOOGLE真正的收录网站数据

Google Analytics获得GOOGLE真正的收录网站数据

数据分析 作者:yoguai 时间:2011-04-04 14:33:00 0 删除 编辑
Google的搜索结果生成根域名下有93800个页面被搜索引擎索引。这听起来美妙不堪,但是当我们在一周后使用同样的搜索请求时,索引的数字却变成了大约75000个,这时我在大概一分钟后对Google.co.uk使用同样的搜索请求,返回的极富戏剧性的数字结果更让人感到困惑:
我们在 Google.com 的搜索结果页中点击一下“刷新”怎么样:
哦看吧!谷歌刚刚删除掉了我搜索的站点在他们索引中的8500个页面。太不靠谱了对吧?但其带来的不便却远未及得上主管,营销总监和CEO…等等一切使用这些数字作为KPI的家伙们对于你工作产生的负面印象!我说明白了吧?一个小小的数字就让你一无所有了…不同的数据中心间约计300%的浮动可以改变人们的瞬时注意力,或给人一个可行的洞察行为契机作为一种商业度量指标?
额,不幸的是,的确如此。
但不幸中的万幸是,我们可以通过一种简单的方法来获得较之利用搜索引擎提供的通过“site:xxx.com”语法能搜到的更多,更翔实的数据。那么接下来,我们将向您一步步展示如何按部就班的获得真正的数据指标。

步骤/方法

  1. 1
    步骤一:到你的Web Analytics工具中查看流量来源吧
    点击位于Google Analytics 或 Omniture中的 “Traffic Sources”(中文版中名曰“流量来源”)链接。(它在其他的分析工具中或许被称作“Referring Source”即-“引荐来源”)
  2. 2
    步骤二:选择搜索引擎分组啊!
    我们想要知道究竟有多少网页被搜索引擎收录(或说“索引”)了的话,很显然,下一步就是点击搜索引擎分组了。
  3. 3
    步骤三:选择一个目的搜索引擎吧
    选择你需要的要将真实的指标提取出的搜索引擎点击它。如果你对于这个搜索引擎同时具备付费放置与自然流量的话,在这一步中要显示的则只有自然流量一项。
  4. 4
    步骤四:选择登录页过滤
    在Keyword下拉菜单中的“Landing Page”(“目标网页”又或者叫“登陆页”)过滤器能够将每个你选择的单独页面从搜索引擎获得流量展示给你。这同时也产生了神奇的获得的“Total”(全部)流量数据,将在下一步骤中做进一步解释。
  5. 5
    步骤五:记录位于底部的数据
    这个数字告诉了你哪些网页是通过使用 Google 搜索行为引导最少来过一次的具有独立编号的网页(很拗口- -|| 就是至少有人用 Google 搜索到并查看过一次的网页…)。就是它!数据中的圣杯(意指:特别想做的事)— 一个你始终能够精确跟踪到得数字,而且它表现出了搜索引擎真的在渐渐收录(索引)你的站点!就其本身而言,它并非十分有用。但随着时间的推移(原文作者通常建议是每月记录一次,但对于部分站点来说,每2-3个月记录一次显得更有意义。)它无论在你将页面做的更好或是更糟的情况下,都将给出一个直观的流量增减曲线。
    现在,从技术层面来讲,我厚颜无耻的准备在这放点臭气。这个数字并没有告诉你故事的全部 — 你网站被搜索引擎抓取或说收录(索引)的真实总数并非你所见到的那样,但他确实告诉了你至少被搜索到并浏览过一次的网页数量。以我的观点来看,这个数据距离精确与更加可靠差的还远。第一个形容词  精确 - 是很难争论出结果的(特指此文中可以看到的数据),但第二个形容词,则需要更进一步来解释。
    END

原理

为什么被访问过一次的页面总数就可靠呢?
首先,孤立的看待收录数量(索引数量)是毫无价值可言的。商业与网站使用这玩意来作为KPI是因为那些头头们想要弄清楚(或许他们也并没在意- -|||),随着时间的推移,是否能让自己的网页更多的跻身搜索引擎“指数”中。我必须要提出的是:你并不关心你的网页是否在搜索引擎中占有一席之地,而是你在意的是你的网页是否有足够多的机会去吸引更多的流量。
如果你的页面出现下面给出的一条或几条特征,那就说明还有需要改进的地方:
1、搜索结果中的页面出现过低的PageRank/Link Juice
2、搜索引擎无法对正在显示的内容正确的解析
3、缺乏能够创造流量的关键词与内容
4、死链,错链等
5、复制其他网页的话搜索引擎会对权重进行重新排名
然而,你长久以来想要计算的度量标准并非被收录(索引)的网页数量(于大多数情况下适用),而是能够吸引流量的网页数量究竟是多少。也就是说这才是你真正想要提升的数据指标,这个数字才是你希望营销专员集中注意的,同样也是对 KPI 真正有意义的。它能够告诉你在一个人在进行一次搜索请求时,搜索引擎是否在不断地爬行,收录与在搜索结果中显示了你的网页,并且那个人也真正的点击了该页。
如果这个数字下降了,你可以通过将以往输出到表格记录的数据(上一个月,或上一个周期的数字)进行横向比较来推断出究竟有哪些页面已经不再能让你从其获得流量了。如果这个数字呈上升趋势,你也可以通过对比看到有哪些页面让你获得了新的流量。这些独立的 URLs 将告诉你一个完整的故事  有问题的页面,出错的链接,远低于分页结果显示的或是去了内容来源唯一性。这种指数化的操作流程远优于一个或可叫做黑箱 SEO 操作的过程,这就可以避免根据 “site:xxx.com” 语法获得的收录(索引)数字常常偏低这个现象。

注意事项

  • 这种方法论也绝不是完美的,其中有一些十分重要的点是你需要知道的:

  • Google Analytics(或其他的分析工具)使用了数据模型模拟真实的结果。如果你想要确保得到数字式绝对真实的,那么就别嫌麻烦了把数字录入到表格中,然后静下心来在数据表格中做横向对比吧。你甚至可以将两个时间段中相似的结果中那些吸引来/未吸引来流量的页面删掉。大多数情况下,你可能只关注那些获得/或丢失5/10/20+浏览者的页面。
  • 高精确度的数据只能从相对较短的时间段中获得,但在分析一个依靠长尾吸引流量的的网页时,或许在表格中看起来是相对较少的。所以应当适当调整,为不完整数据做计划。这个理论也并非万全之策,但在我看来,总比那些单纯的依靠“site:”的轮盘赌来的靠谱。
  • 这个技巧并不能帮助你发掘到其他的SEO问题就比如重复的内容(在某些情况下适用,但不及其他工具的报告来的方便准确)还有301重定向,302重定向的问题等等。那些都是需要爬行来给出解决方案的。
    当然我很愿意得到您的反馈。我知道有很多从业人员也好,发烧友也罢都对使用“site:”指令得到的数字来衡量网站的进展情况怀有十分的推崇或说近乎膜拜的情绪,所以我很有可能对于在其他方面产生的意义与价值没做到足够多的考虑。我也晓得您十分信任谷歌网站管理员工具(Google Webmaster Tools)基于Sitemaps爬行提供的数据(同样我也对其产生的报告中的数据表示不那么信任)鄙人也十分乐意听到您关于如何从这些数据中挖掘价值的思考与总结!

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22921884/viewspace-1113894/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-06-17

最新文章