读书人

百度爬行动物型(Baiduspider)及robot

发布时间: 2012-07-25 09:43:06 作者: rapoo

百度爬虫类型(Baiduspider)及robots设置方法
Baiduspider的user-agent是什么?百度各个产品使用不同的user-agent:
产品名称 对应user-agent无线搜索 Baiduspider-mobile图片搜索 Baiduspider-image视频搜索 Baiduspider-video新闻搜索 Baiduspider-news百度搜藏 Baiduspider-favo百度联盟 Baiduspider-cpro网页以及其他搜索 Baiduspider

你可以根据各产品不同的user-agent设置不同的抓取规则,如果你想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。在robots.txt中禁止爬虫抓取(robots.txt写作方法)

以下robots实现禁止所有来自百度的抓取:
User-agent: Baiduspider
Disallow: /

以下robots实现仅禁止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /

以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/
请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果 Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。






读书人网 >网络基础

热点推荐