图片展示
图片展示

网络推广中网站robots协议是什么?

发表时间: 2021-01-22 09:59:21

作者: 东莞亿客互联

浏览:

在新的一年,我们的文章开头先祝各位2021年新年快乐哈,robots是搜索引擎爬虫协议,也就是你网站和爬虫的协议。


简单的理解:robots是告诉搜索引擎,你可以爬取收录我的什么页面,你不可以爬取和收录我的那些页面。robots很好的控制网站那些页面可以被爬取,那些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后,会读取上面的协议,并准守协议爬取网站,收录网站。


robots文件是一个纯文本文件,也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。因此,robots的优化会直接影响到搜索引擎对网站的收录情况。


存放目录

robots文件必须要存放在网站的根目录下。也就是 域名/robots.txt 是可以访问文件的。你们也可以尝试访问别人网站的robots文件。输入域名/robots.txt 即可访问。


robots写作语法:

user-agent这句代码表示那个搜索引擎准守协议。user-agent后面为搜索机器人名称,如果是“*”号,则泛指所有的搜索引擎机器人;案例中显示“User-agent: *” 表示所有搜索引擎准守,*号表示所有。


Disallow是禁止爬取的意思。Disallow后面是不允许访问文件目录(你可以理解为路径中包含改字符、都不会爬取)。案例中显示“Disallow: /?s*”  表示路径中带有“/?s”的路径都不能爬取。*代表匹配所有。这里需要主机。Disallow空格一个,/必须为开头。


如果“Disallow: /” 因为所有路径都包含/ ,所以这表示禁止爬取网站所有内容。

如果没有被禁止到的路径,默认为可以被爬取。


关于robots的注意事项

1、不要禁止爬虫爬取网站的所有,因为从经验来看,如果屏蔽一次,解封后好一段时间爬虫都不会来你网站,收录成为问题。

2、代码后需要【冒号+空格+斜杆】 ,比如“Disallow: /*?* ”

3、当网站为静态路径时,需要屏蔽掉所有动态链接。网站中存在一种链接被收录即可,避免一个页面2个链接。代码如下“Disallow: /*?* ”表示禁止所有带 ?号的网址被爬取。通常动态网址带有“?”“=”等。

4、根据自己网站情况定,屏蔽不需要收录的网址。


以上是东莞亿客网络公司小编为大家作解答的几点。东莞网络营销推广、东莞网络推广,就找亿客网络公司O(∩_∩)O~恭候~

公司业务

———————

网络推广

网站建设

91获客系统

SEM代运营


关于我们

———————

公司简介

文化生活

联系我们

新闻动态


联系我们

———————

资讯热线:13418894797

东莞地址:东莞市保利珑远国际广场13楼1301室

深圳总部:深圳市龙岗区大运软件小镇35栋3楼D

深圳分部:深圳市龙岗区坂田星河WORLD-B座1006室

 

图片展示

昊客公众号

合作资源

———————

图片展示
图片展示
图片展示
图片展示
图片展示