谷歌SEO爬虫抓取篇-如何分析爬虫抓取数据

2021-10-10

一直想做一个关于SEO知识的系统梳理与总结，从搜索引擎的基本原理、网页的抓取收录与索引再到排名、点击与转化等的SEO全链路，将SEO知识的大方向包含在内，也是对自身SEO知识的一次巩固。

关于爬虫抓取，其实对于现在的SEOer来讲关注的比较少，一方面对于小型企业的网站来讲，关注重点更多的还是网站的内容优化以及外链，一般的爬虫抓取量已经够用，不是关注重点；另一方面，爬虫抓取的数据难以获取，这涉及到与技术和服务器运营方的协作。所以关于爬虫抓取的分析一般都应用于中大型网站。

本文会着重于搜索引擎关于抓取的基本原理，影响抓取的几个基本因素，爬虫抓取数据的分析以及抓取预算这个概念等进行讨论。

搜索引擎的基本原理

搜索引擎一方面要对海量数据（也就是互联网网页）进行获取/存储，另一方面也要快速准确地响应用户查询，而这一切的第一步就是抓取。通过多种类型的网络爬虫，搜索引擎可以发现未知的网页，并通过这些网页可以进一步挖掘更多网页。

在获取网页数据后，搜索引擎需要对网页进行解析，抽取其主体内容，以及其中包含的链接及链接关系（为网页的相关性排序做准备），搜索引擎了解网页的这个过程叫收录与索引，谷歌的索引是一个拥有很多很多台计算机的巨大数据库。

当用户输入关键词进行查询时，搜索引擎会判断用户的真正搜索意图，根据多种因素（主要是内容相关度与网页质量度）来尝试对相关的网页进行排序，这个过程中你的网页就有机会得到展示与点击。当然现在谷歌以及百度都会参考个人的地理位置以及设备等信息，给出最优的搜索结果，所以以后的搜索会越来越个性化。

影响爬虫抓取的因素有很多，但并不是抓取的越多越好，我们的目的应该时让搜索引擎抓取我们想让抓取的网页，并且这个抓取过程是简单的，对服务器也不会造成压力。

关于爬虫抓取数据分析方面的工具，国内最早且比较有名的就是张国平的光年日志分析工具，不过在我开始做SEO的时候早就没这个东西了，一些专业的SEO人员可能都是通过自己开发的代码程序进行分析，但我这里推荐一款爬虫日志分析工具：尖叫青蛙（screamingfrog），很实用也很适合非技术型的SEO人员。

关于爬虫抓取数据的分析，作用主要有两个，一个是根据异常反馈，查看并及时修补网站目前存在的抓取等方面的技术问题，另一个是日常监测，发现网站目前存在的增长机会。

关于爬虫抓取数据的分析，主要会涉及到以下方面：

以我司网站为例，我发现网站的整体索引率较低，通过查看爬虫抓取日志数据，发现近一半的抓取量都消耗在了AMP页面，但AMP页面带来流量占比极少，这其实就压缩了其他页面的被抓取机会，并降低了索引率。但我们还需要进一步判断AMP页面存在的价值，决定是否将其下线。

对于搜索引擎来讲，互联网存在着近乎无限的空间与页面，不可能对所有页面都进行抓取；同时对各个网站来说，抓取网站所有页面既有可能对服务器造成负担，同时也会让搜索引擎无法找到你的重点页面与优质页面。所以这个时候就要提出一个概念：抓取预算。

所谓抓取预算，就是将引导爬虫到你最想被抓取的页面，并保证其都能抓取且不会影响网站正常运行，这一点对于有着数百万甚至上千万页面的大型网站尤为重要。我们需要优化和提升抓取预算，来提升爬虫的爬虫效率，进而提高索引率。

抓取预算思维导图

SEO爬虫抓取篇其实涉及到的专业知识和技术原理很多，如果懂技术，也能对爬虫数据做出更细致的分析，这也是我欠缺的地方（还是要多学习呀），所以写此文还是有些吃力的，也拖了好些天。

由于SEO涉及的因素与变量太多，有时候看到流量数据的异常也无法准确分析，这时候看看爬虫抓取的数据吧，或许你会得到解答（也可能是更加困惑，嘿嘿）。

以上