一分钟看懂Baidu Spider3.0(seo优化新时代)

已有 994 人阅读此文 | 2016-09-28 01:30 | 来源: 刘传鹏博客 | 作者: 刘传鹏

baidu-spider-3.0

Baidu Spider升级到3.0升级后

优点是:抓取快了!速度提升80%!

缺点:延时严重!

而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!

baiduspider

一、链接发现方面

如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

二、链接抓取方面

策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。

三、时效性页面方面

中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!

四、死链方面

全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。

五、建库方面

索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!

baiduspider-1

在搜索新生态之下,内容质量和时效性是用户关注的重点。在Spider2.0时代,可能很多站长都会有这样的感受:百度对大站的内容更加青睐,小站难以受到认可,中小型网站越来越难生存。一个比较简单的例子:小站原创的一篇文章,一直没有被百度收录,但是这篇文章被大站转载后,对方的转载页面反而迅速被百度收录了。

在Spider3.0问世后,上述情况肯定可以较好的改善,因为3.0蜘蛛的抓取能力和效率大大加强,对原创、优质内容的“嗅觉”更加敏锐,能够以最快的速度发现原创的、有价值的资源。换言之,Baidu Spider将会从对大型网站抓取收录更多的大趋势,转变为对优质内容抓取收录更多更快,中小型网站的高质量内容会更容易的展示在用户眼前,这就是一个更加健康的互联网生态。

百度站长工具中的自动推送、主动推送、搜索引擎提交、sitemap功能可以让优质内容,尤其是中小型网站的页面,第一时间“喂”给百度3.0蜘蛛,使Baidu Spider3.0的抓取收录更高效、更及时。看来,推送提交工具与Spider3.0更配哦!

百度蜘蛛(BaiduSpider)IP段详细情况介绍

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。

220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。

220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

本文地址: http://liuchuanpeng.com/wangluoyingxiao/1260.html

已有 3 人评论 网友评论

必填

选填

选填

刘传鹏博客|专注分享互联网商业模式和网站运营推广策略的博客