蜘蛛排除robots协议

发布时间：2018-12-18

搜索引擎蜘蛛如何排除标准robots协议？如果不想搜索引擎的蜘蛛程序抓取网站所有页面或者是网站某类页面，那么我们就需要了解搜索引擎蜘蛛排除的一些标准，这些标准称为robots协议，格式一般是TXT文件。robots.txt文件一般都放置在网站的根目录下，期就说明了网站中的哪些网页是搜索引擎蜘蛛可以索引的，那些页面是搜索引擎蜘蛛不可以索引的。

　　一、Robots协议的代码形式

　　Robots协议是使用了特定的语法才能使爬虫理解文件中的含义。Robots.txt文本文件基本的形式如下：

　　User-agent:*

　　Disallow:/

　　所有的robot文件中一定要有以上两句语句。

　　先进句User-agent的意思是告诉蜘蛛所对应的是哪里个搜索引擎，“*”是代表所有的蜘蛛；

　　第二句Disallow是告诉搜索引擎蜘蛛那些地方不可以索引，可以针对某一个搜索引擎，也可能针对所有的搜索引擎。“/”是代表所有的目录；

　　提示，在User-agent和Disallow后面都需要加冒号（：）它起的作用是要求搜索引擎时和蜘蛛注意的信息；

　　二、实例讲解

　　1、要求所有搜索引擎不能访问/kehu文件夹下的网页；

　　User-agent:*

　　Disallow:/ kehu/

　　2、要求百度搜索引擎不能访问/kehu文件平下的所有网页；

　　User-agent: Baiduspider

　　Disallow:/ kehu/

　　3、要求百度搜索引擎和谷歌搜索引擎都不能访问/kehu文件平下的所有网页

　　User-agent: Baiduspider

　　Disallow:/ kehu/

　　User-agent: googlebot

　　Disallow:/ kehu/

　　4、屏蔽所有动态页面被搜索引擎收录

　　User-agent: *

　　Disallow:/*?*

　　5、禁止所有搜索引擎抓取指定的某个页面的

　　User-agent: *

　　Disallow:/指定的某个页面的URL地址

　　提示，搜索引擎蜘蛛访问robots.txt文件时是丛上往下访问，当搜索引擎蜘蛛访问到合适规定的时就会停止读取，并根据规则访问网站。

　　三、各搜索引擎蜘蛛对应的英文名称

　　google蜘蛛：googlebot

　　百度蜘蛛：baiduspider

　　搜狗蜘蛛：sogou spider

　　搜搜蜘蛛：Sosospider

　　yahoo蜘蛛：slurp

　　alexa蜘蛛：ia_archiver

　　msn蜘蛛：msnbot

大连新图闻科技有限公司是一家品牌设计服务提供商，企业网络服务品牌，也是企业邮箱“盈世”的大连地区代理商。公司服务项目包括网站建设、平面设计、网络营销推广、商业摄影、企业邮箱等，帮助客户提高企业综合竞争能力。

我们能做什么

18609840880（微信同步）

市场部 : 8001@newtwowin.com
业务联系，业务需求请发到此邮箱.

QQ咨询: 94091176
客服部：xxz@newtwowin.com
地址：大连市西安路罗斯福B座3109

常见问题

蜘蛛排除robots协议

售后响应及时

数据备份

价格公道优惠

标准化合作流程

我们能做什么

18609840880（微信同步）