服务与支持 |咨询热线 0931-8733767
  • 金城在线
  • 公司简介
  • 发展历程
  • 企业文化
  • 售后服务
  • 工作机会
  • 联系我们

你们知道robots.txt必须注意的这几点吗?-Robots基础知识

来源:发布时间:2019-7-5 10:21:48

一:robots基础知识


robots协议(也称爬虫协议、机器人协议等),“全称是网络爬虫扫除规范“(Robots Exclusion Protocol),网站经过robots协议通知搜索引擎哪些页面能够抓取,哪些页面不能够抓取。


Robot.txt的效果?


能够让蜘蛛更高效的匍匐网站


能够阻挠蜘蛛匍匐动态页面,从而处理重复录入的问题


能够削减蜘蛛匍匐无效页面,节约服务器带宽


能够屏蔽搜索引擎屏蔽一些隐私页面或者临时页面


怎么创立robots.txt文件呢?


右击桌面——新建文本文档——重命名为robots.txt(一切文件有必要小写)——编写规矩——用FTP把文件上(放到根目录下)传到空间


创立robots.txt需求留意的知识点:


1、有必要是txt结束的纯文本文件


2、文件名一切字母有必要是小写


3、文件有必要要放在根目录下


4、文件内的冒号有必要是英文半角状态下



深圳SEO


二:robots参数解说


User-agent


首要效果:用于描绘搜索引擎蜘蛛的姓名


举列:


1、描绘一切蜘蛛


User-agent:*


2、描绘百度蜘蛛


User-agent:BaiduSpider


百度:BaiduSpider


谷歌:Googlebot


搜狗:Sogou web spider


好搜:360Spider


MSN:MSNBot


有道:YoudaoBot


宜搜:EasouSpider


User-agent技巧:


1、当robots.txt不为空的时分,有必要至少有一条User-adent记载


2、相同的姓名,只能有一条(例如User-agent:*),可是不同蜘蛛,能够有多条记载(例如:User-agent:Baiduspider和User-agent:Googlebot)。


Disallow


首要效果:用于描绘不答应搜索引擎匍匐和抓取的URL。


运用技巧:


1、在robots.txt中至少要有一条Disallow


2、Disallow记载为空,则表示网站一切页面都答应被抓取。


3、运用Disallow,每个目录有必要独自分隔声明


4、留意Disallow:/abc/(abc目录底下的目录不答应抓取,可是目录底下的html答应抓取)和Disallow:/abc(abc目录底下的目录跟html都不答应被抓取)的差异


相关文章
  • 预约专家

    为您提供一对一解决方案
    立即预约
  • 售前咨询

    周一至周五9:00——17:30
    立即咨询
  • 联系方式

    13919049954

    全国7×24小时热线服务
  • 免费报价

    专属专业顾问1对1报价
    免费报价