百度站长俱乐部对SEO一些问题的解释

问:百度对重复内容是如何处理的?
lee答:这的确是个显著的问题。这表明我们在这方面的策略上有极大改进空间。这类积重的问题,非一朝一夕能搞定,需要伤筋动骨的动动手术才行。所以请大家耐心。
另外需要说明的是,搜索引擎的排序出发点,是用户的搜索体验。虽然说,很多时候尊重原创和用户体验是一致的。但是,毕竟也有一些case,转载的体验会比原创更好。这时候原创者的排序未必会高于转载者。但无论如何,原创者的应该以另外一种方式被肯定,而不是简单的被聚合掉。
问:百度对子域名如 lab.simue.com 和主域名 simue.com 权重怎么处理?是当作两个不同的网站 还是子域名会继承主域名的权重?
kkksuper答:怎样处理是合乎逻辑的,策略上就会采用那个合乎常理的处理手段。或者这样讲,如果你是负责这个权重处理的,你觉得怎样做是最合理的?那么很可能百度就是如你所想的。呵呵。
搜索引擎理解起来并不复杂,站在用户角度考量,很容易揣摩搜索引擎的策略思路。
问:百度如何对站外作弊的手法判断是不是竞争对手所做,比如买黑链,建群站,群发垃圾垃圾等,这些 竞争对手都能帮你做。可否透露下百度对这个判断的原理,站长如何防范,发现被人陷害的话,如何举报 或采取其他措施?
kkksuper答:如果想维护一个策略的生命周期的话,最好的方式是保守策略细节的秘密。但有一点可以确定,一个成熟的搜索引擎,不会轻易的通过一两个要素来判断一个网站的生死。
问:使用虚拟主机的网站会不会因为同一个IP或同一台服务器上有其他网站作弊被处罚而受连累,也被惩 罚?
kkksuper答:连坐,血统论等,是在极权社会里才出现的反人类政策。一个成熟的搜索引擎,这么蛮干的可能性很小。
问:百度目前支持链接的nofollow属性吗?rel='external nofollow'
kkksuper答:百度现在支持nofollow标签。带nofollow标签的链接,我们会忽略掉它绝大部分的作用。
问:服务器开启gzip压缩是否会影响蜘蛛抓取和收录量?
lee答:服务器开启gzip压缩,不会对spider抓取产生影响,我们会以压缩的方式来抓取。并且也能够节省站点的网络流量。
问:我有个小站,流量固定,但是百度蜘蛛爬去的很频繁,造成N多流量被蜘蛛占用,怎么限制它?或者用 别的什么标签语句限制?
lee答:正常情况下,Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。
一个小网站的抓取频率远高于新内容产出速度,通常会是下面这两种问题有中的一个:1)有其他程序冒充Baiduspider抓取。建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。
2)网站程序有漏洞,产生了无穷尽的url,被Baiduspider当成了很多新内容而频繁的抓取。建议分析网站的访问日志,看看Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。
问:网页体积与索引的关系。以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常 ,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?
lee答:页面大小和搜索引擎的抓取之间没有直接关系。
但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。
问:百度支持哪些Robots Meta标签
lee答:百度支持nofollow和noarchive。
robots相关的信息,我们会定期更新到http://www.baidu.com/search/robots.html 上,建议多关注。
问:在原网页没有改变TITLE的情况下为何百度搜索结果中所示显的网页的TITLE并非跟网站实际TITLE一样
?
lee答:原因比较复杂,需要针对性分析。主要原因可能是tag title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。
还有一些系统异常也会造成类似的现象。
问:请问百度支持通过robots提交Sitemap么?
lee答:暂时还没这个打算。一般情况下,spider能处理大多数网站的数据抓取和更新,而无须借助sitemap。
问:百度如何面对很难处理的重复页面,比如列表页有分页,文章页也有分页,他们的meta都是相同的, 这样会不会当重复页面处理。同时比如一个论坛有两篇相同的帖子都收录,会影响先收录的排名吗?
lee答:1,判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。
2,相同两个帖子被收录(URL可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。
问:我的网站用的是.LA域名,从各个方面来说 外链 权重 用户体验,都比同类网站的要多要高,但排名总是在一些小站下面,内页也在其它站的内页下面。
听某百度的朋友说非主流后缀像 .LA 之类的域名做站百度不给好权重,不知道是不是真的。
lee答:可以肯定的回答:不会。
问:网页中是否推荐设置keywords和description?如果每页都设置这两个属性,是否会被搜索引擎判断为过度优化或作弊而处罚?
lee答:可以肯定的回复:不会。但也不见得会起到SEOER预期的排序效果。我们会慎重的对待这些meta信息。
实际上我们非常欢迎网站首页和索引页严肃的设置meta description,这样会使得搜索引擎摘要更好提取,对用户更友好,更易读。
问:百度建议URL静态化吗?还是像Google一样,不建议URL静态化?对伪静态怎样看待?和真的静态文件 一样吗?
lee答:对URL的动静态,没有歧视政策。
之所以以前有过提倡静态的说法,是因为很多动态URL,带了很多参数,而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。
所以,总的原则就是,URL的动静态无所谓,只是尽可能的避免重复即可。但是动态url也不要动态得太变态,搞几十个参数,那会吓着蜘蛛。
酝酿中的sem指南,会有对url优化方面的详细说明 。
问:百度对网页标题长度有没有限制?标题过长是否会对百度搜索不利?
lee答:这个自然是没有限制的。
很多人喜欢往标题里塞很多关键词,以为那样就全面开花,但很可能适得其反。这个原理同在一个页面上设超链个数一样。分一杯羹的人越多,每个人所得的羹越少。
问:修改首页的meta description是否会受到惩罚?是不是偶尔可以相应的修改一下,这样会不会出现所 谓的惩罚?
lee答:这个肯定是多虑了。我们鼓励大家通过meta description来撰写网站的简介。只是过于频繁的修改,未必会及时的反馈在摘要中。
问:大量修改页面标题(如增加前缀或后缀)是否会给网站排名带来消极影响?
lee答:title是极重要的内容。大幅修改,只会带来大幅波动。所以请慎重对待网页标题。
至于标题长短对于权重的影响,我在另一个帖子中有说明。如同一个页面上的出链越多,每个链接获得的超链权重越小一样,title上的关键词越多,单个关键词获得的权重也会越低。这是很直观的逻辑。但是,如果为追求某个关键词的权重,极力压缩标题长度,那么真正合乎该页面的搜索需求,又很难被命中。
问:更换服务器对网站排名有影响吗?如果有,影响有多大?
lee答:原则上是不会的。除非...新换的服务器太糟糕,三天两头访问失败,或者服务器从国内换到国外,动辄被和谐,诸如此类的“硬件”问题。
问:代人提问,我自己也很感兴趣。好像不仅是*号,也可以是逗号之类的。有的明显被惩罚的网站在搜索 词后加标点,会回到首页。这是否百度的某种filter呢?是否可以作为网站被惩罚的标志呢?
lee答:除了*号,还可以加.(英文句号),排名也会有变化