站长之家- 优化 2011-03-07T09:38:59 +08:00

谈谈淘宝网的“私服”现象

在百度搜索引擎又发生了有趣的事情,搜索“私服”“传奇私服”“新开传奇私服”等关键词,淘宝网女人频道均排在显赫的位置(见下述图片|PS:周一早上起来看,发现此现象已经消失!暂不知是为算法改变,还是人工干预)。这个消息在站长圈子里炸开了锅,大量的站长朋友对此现象提出了自己的疑问,下面墨明棋妙在此对这个现象做出自己的解释,也针对性的解答一下比较典型的一些疑问。

许多同学看到这个现象后的第一反应是:淘宝解除了对百度的robots屏蔽,被百度收录了。在这里墨明棋妙首先纠正这个错误的说法。淘宝并没有解除对百度的屏蔽,我们打开淘宝网的robots页面https://taobao.com/robots.txt,我们看到淘宝网的robots设置如下:

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

可以明显的看出,淘宝网屏蔽百度蜘蛛抓取全站信息,那么,在百度搜索为什么还能看到淘宝的页面呢?

在这里,首先要解释两个名词,抓取和索引。百度蜘蛛抓取是指蜘蛛爬虫在互联网上爬行、访问页面并获取页面内容返回数据库。而索引则是将数据库中的内容展示在搜索引擎中供用户访问。许多SEO朋友经常有疑问,百度蜘蛛天天来我的站抓取数据,为什么收录数还是那么少?这实质上是因为蜘蛛抓取后并没有为数据建立索引的原因。蜘蛛抓取数据后不一定索引,而搜索引擎索引数据同样不一定需要抓取。这实质上是百度搜索引擎为优化用户体验而采用的一种策略。对于不允许被百度抓取的网站,如果其他站点对其进行描述和指向,那么百度会利用其他站点所获知的信息通过自身的策略对该站点进行索引,并参与到搜索引擎关键词排序中。而淘宝网女性频道,这是由于这种原因,出现在了百度的索引中,同样,淘宝网许多其他的页面被百度索引,也是出于这个原因。

那么,为什么在搜索传奇私服等关键词时,淘宝网为什么会以私服类的标题出现呢?这还得归结到百度自身的策略上。不少SEOer都知道,在几年前,就有百度等搜索引擎将DMOZ对网站的标题描述内容植入索引中供用户搜索的例子。这种现象通常表现在网站屏蔽抓取、网站无法访问、网站性质,标题,内容出现大规模的改动 等几种情况下。搜索引擎会通过其外链指向自动为其选择一个与当前搜索请求最相关的标题展示。淘宝网的标题现象,正是出于此种原因。

其实大家最关注的,还是淘宝网为什么在这些关键词上取得了如此优秀的排名。我认为,会有朋友给出如下解答:有大量的外部链接指向淘宝网女人频道,导致这个页面权重极高,所以在标题表现为传奇私服的时候能取得非常好的排名。我认为这种说法只是对了一半,并没有抓到最本质的原因。

实质上,这种基于链接关系的搜索引擎排序主要依靠几大算法:超链接导向搜索(HITS)算法、TF-IDF算法(相关性算法)和PR算法。因为PR算法得出的数据在一段时间内是比较稳定的,所以分析这个现象,我们并不需要将PR算法做过多的考虑。下面介绍一下HITS算法:HITS算法基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。通过这段解释,我们可以看到的是,淘宝网女人频道是有着极高的内容权威度的。

而这,还并不足以让淘宝网女性频道达到如此优秀的排名,国内比淘宝网女性频道外链数量多的还是有很多,而其他站点却并没有在此关键词上取得排名。这是为什么呢?

说到这里,觉得不得不提一下“主题漂移”现象,主题漂移现象是指对于一些大站,其自身权重极高之后,导致只要其网页出现的关键词,都能取得很好的排名的一种现象,这种现象在早期的搜索引擎中经常出现,而现在,绝大多数搜索引擎都采用了各自的算法对此现象进行了很好的遏制,主要思路即为:判断网站的主题,给予主题越相关的关键词越高的权重,与主题相关度越低该关键词权重越低,再将这个值与HITS算法结果进行加权,从而降低低相关度的关键词排名。即所说的TF-IDF算法(相关性算法)。譬如我的博客https://www.seo-mmqm.com,主题为深圳SEO,在这个词上,也有不错的权重,而搜索深圳赶集网,却没有任何排名,我的首页也出现了赶集网,实质上这是和我的博客相关度极低的词,所以在这个词上权重得分极低,所以也就不会有排名。话说回来,对于淘宝网女人频道呢?这个频道自身是屏蔽百度搜索引擎的,那么百度是无法通过获取其内容来判断指向它的站与它的相关性的,那么,百度是如何判断的呢?

墨明棋妙认为,百度在无法获知网页内容的情况下,将综合网站所有外链指向的文本信息,以此作为网页内容来和任一外链对比从而判断相关性,那么显而易见的是,越多相同锚文本相同的词指向淘宝网女人频道,该关键词将获得越高排名,那么得出的结论是:有朋友开了个小小的玩笑,利用私服类关键词给淘宝网女人频道做了较多的外链,导致此频道在私服类关键词排名极度飙升。

一个小小的BUG,却也暴露出百度一些技术方面的不足,回望Google,似乎并没出现这个现象。搜索的路子,还有很长。

推荐关键词

24小时热搜

查看更多内容

大家正在看

美图秀秀网被罚关闭网站