内容重复页面的处理:大型网站的难题 - 阿伟的SEO博客

/ 0评 / 2

选择探讨这个问题,是去年找工作时候遇到的一个面试。二轮面试时候那家公司老板问我,他们的页面是百万千万级别的,但页面做的非常细,比如参数方面可能就是一个年份或者型号的差别(做的好像是汽车配件网站),这种情况下,极容易被谷歌判定为重复页面,那怎么处理呢?

老板的问题很专业,但我那时候有点紧张,虽然以前也有过对类似问题的思考与研究,但那会确实没有回答好这个问题,最后面试也自然是没有通过,而这个问题却一直记在了我心里。

内容重复的定义

内容重复通常是指在网站内或网站之间存在内容与其他内容完全匹配或大致类似的情况(谷歌官方定义)。由于谷歌认为这种情况一般都是无意产生的,所以只会在重复内容中选出最适合的版本,极少数情况下才会进行惩罚乃至去掉网站的收录排名。但不管怎样,我们还是需要避免这类页面的产生。

内容重复的三种情况

  1. 完全重复,指的是两个内容相同但URL不同的页面,很多时候是各种参数调用产生的;
  2. 近似重复,指的是内容的重复程度较高,可能仅仅是在个别参数以及图像变量上有变化;
  3. 跨域重复,指的是不同网域之间存在着完全重复或近似重复的内容。

这些页面要么是内容比较单薄,要么就是差别非常之小,如我开头所说,我面试那家公司的站点,页面之间的差别就在一个年份或型号,这都是谷歌不喜欢和不提倡的页面做法。

而我所在的这个项目组也存在着类似问题,这也是大型网站不可避免的问题,页面体量大,相应地会做很多聚合页面。但聚合没做好,很容易产生相似页面,比如新生成的某个词的分类页可能就跟这个词的搜索页页面相似,而且做这类聚合页本身的目的就是为了获取更多流量,很难讲不会对网站造成负面影响。

内容重复的危害

  1. 抓取预算的浪费:每个页面都在消耗着网站的抓取预算,爬虫抓取重复内容越多,那么独特页面被抓取的机会也会相应减少;
  2. 自然流量的减少:重复内容页面争取同一个排名,谷歌必然会选择过滤掉一部分,这既损失了一部分流量机会,而且谷歌选择的也不一定是你想要的版本;
  3. 处罚:这就是前面说的极少数情况了。

如何处理此类页面

我看了很多文档的解决思路,无非是选择自己想要的版本,然后就其他版本的URL进行屏蔽和禁止抓取,一方面可以使用robots文件禁止抓取,另一方面也可以用noindex标签来禁止索引;还有个办法是使用canonical标签,将其运用在多种参数产生的URL上,这样既能方便用户看到不同版本的页面,也方便搜索引擎选择最合适的版本。

但对于SEO人来讲,我就是想做此类页面的流量排名(就是喜欢刺激),那怎么办呢?比如我司的这种情况,就想做这个词的分类页排名,毕竟分类页和搜索页还是有差别的,那只能从页面布局的逻辑下手,如果逻辑不好动,甚至可以用人工的方式,来对分类页的结果进行差异化。

再比如我面试的那家公司,做了这么多相似的详情页(毕竟涉及了年份等参数运用,一般都是详情页),那是不是可以在涉及到差异化的地方做文章,将有区别的参数放在重要的SEO标签,如标题、H1等,并且在做相似推荐时候,更多地提供差异化的内容。

这是解决SEO问题的两种思路,一个是按谷歌的要求来,不能做那我就不做;一个是我虽然按照你的要求来,但我在测试你的底线,能接受那我就这么做。所以想做好SEO,还是要多看看书,多拓展思路才行。

以上

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注