ITPub博客

首页 > 大数据 > Hadoop > 网站日志分析方法总结

网站日志分析方法总结

Hadoop 作者:huyizhong12 时间:2013-07-18 13:48:00 0 删除 编辑

通过分析网站日志Log文件我们可以看到用户和搜索引擎蜘蛛访问网站的行为数据,这些数据能让我们分析出用户和蜘蛛对网站的偏好以及网站的健康情况。在网站日志分析中,我们主要需要分析的是蜘蛛行为。

在蜘蛛爬取及收录过程中,搜索引擎会给特定权重网站分配相应的资源量。一个搜索引擎友好型的网站应该充分利用这些资源,让蜘蛛可以迅速、准确、全面的爬取有价值、用户喜欢的内容,而不浪费资源在无用的、访问异常的内容上。

但由于网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer。

在分析日志时,对于单日日志文件我们需要分析的内容有:访问次数、停留时间、抓取量、目录抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活跃时段、蜘蛛爬取路径等;对于多日日志文件我们需要分析的内容有:蜘蛛访问次数趋势、停留时间趋势、整体抓取趋势、各目录抓取趋势、抓取时间段、蜘蛛活跃周期等。

下面我们来看看网站日志如何分析?

网站日志数据分析解读:

1、访问次数、停留时间、抓取量

从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。

平均每次抓取页面数=总抓取量/访问次数

单页抓取停留=每次停留/每次抓取

平均每次停留时间=总停留时间/访问次数

从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,表明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单而立停留时间,让爬虫资源更多的去抓取收录。

另外,根据这些数据我们还可以统计出一段时间内,网站的整体趋势表现,如:蜘蛛访问次数趋势、停留时间趋势、抓取趋势。

2、目录抓取统计

通过日志分析我们可以看到网站哪些目录受蜘蛛喜欢、抓取目录深度、重要页面目录抓取状况、无效页面目录抓取状况等。通过对比目录下页面抓取及收录情况,我们可以发现更多问题。对于重要目录,我们需要通过内外调整增加权重及爬取;对于无效页面,在robots.txt中进行屏蔽。

另外,通过多日日志统计,我们可以看到站内外行为给目录带来的效果,优化是否合理,是否达到了预期效果。对于同一目录,以长期时间段来看,我们可以看到该目录下页面表现,根据行为推测表现的原因等。

3、页面抓取

在网站日志分析中,我们可以看到具体被蜘蛛爬取的页面。在这些页面中,我们可以分析出蜘蛛爬取了哪些需要被禁止爬取的页面、爬取了哪些无收录价值页面、爬取了哪些重复页面url等,为充分利用蜘蛛资源我们需要将这些地址在robots.txt中禁止爬取。

另外,我们还可以分析未收录页面原因,对于新文章,是因为没有被爬取到而未收录抑或爬取了但未放出。对于某些阅读意义不大的页面,可能我们需要它作为爬取通道,对于这些页面,我们是否应该做Noindex标签等。但从另一方面讲,蜘蛛会弱智到靠这些无意义的通道页爬取页面吗,蜘蛛不懂sitemap?【对此,笔者有疑惑,求分享经验】

4、蜘蛛访问IP

曾经有人提出过通过蜘蛛的ip段来判断网站的降权情况,笨鸟感觉这个意义不大,因为这个后知性太强了。而且降权更多应该从前三项数据来判断,用单单一个ip段来判断意义不大。IP分析的更多用途应该是判断是否存在采集蜘蛛、假蜘蛛、恶意点击蜘蛛等。

5、访问状态码

蜘蛛经常出现的状态码如301、404等,出现这些状态码要及时处理,以避免对网站造成坏的影响。

6、抓取时间段

通过分析对比多个单日蜘蛛小时爬取量,我们可以了解到特定蜘蛛对于本网站在特定时间的活跃时段。通过对比周数据,我们可以看到特定蜘蛛在一周中的活跃周期。了解这个,对于网站内容更新时间有一定指导意义,而之前所谓小三大四等均为不科学说法。

7、蜘蛛爬取路径

在网站日志中我们可以跟踪到特定IP的访问路径,如果我们跟踪特定蜘蛛的访问路径则能发现对于本网站结构下蜘蛛的爬取路径偏好。由此,我们可以适当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取重要、有价值、新更新页面。其中爬取路径中我们双可以分析页面物理结构路径偏好以及url逻辑结构爬取偏好。通过这些,可以让我们从搜索引擎的视角去审视自己的网站

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23823274/viewspace-1112678/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2010-04-30