什么是Baiduspider?
Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。
Baiduspider的user-agent是什么?
百度各个产品使用不同的user-agent:
|
产品名称 |
对应user-agent |
|
无线搜索 |
Baiduspider-mobile |
|
图片搜索 |
Baiduspider-image |
|
视频搜索 |
Baiduspider-video |
|
新闻搜索 |
Baiduspider-news |
|
百度搜藏 |
Baiduspider-favo |
|
百度联盟 |
Baiduspider-cpro |
|
网页以及其他搜索 |
Baiduspider |
如何判断是否冒充Baiduspider的抓取?
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
通过robots协议 屏蔽百度抓取网站或网站的某些页面
以下robots实现禁止所有来自百度的抓取:
User-agent: Baiduspider
Disallow: /
以下robots实现仅禁止来自百度视频搜索的抓取:
User-agent: Baiduspider-video
Disallow: /
以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录:
User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Allow: /image/