您好,欢迎光临山东云搜双赢网络官方网站!

咨询热线:186-6899-1018

全网网站排名优化

新闻分类

如何屏蔽蜘蛛对网站的抓取!

发布日期:2019-04-20 作者: 点击:

要知道在seo优化的过程当中,有时候是需要对搜索引擎蜘蛛进行屏 蔽的,就是禁止对网站的某个地方进行抓取,那么我们应该如何屏 蔽搜索引擎蜘蛛呢?下面我们一起来看一看具体的操作方法。

百度蜘蛛抓取我们的网站,希望我们的网页能被包含在它的搜索引擎中。将来,当用户搜索时,它会给我们带来量的搜索引擎优化流量。当然,全网网站排名优化不想让搜索引擎抓取所有东西。

因此,此时我们只希望能够抓取搜索引擎搜索到的内容。例如,用户的隐私和背景信息不希望搜索引擎被捕获和包含。解决这些问题有两种佳方法,如下所示:

robots协议文件屏 蔽百度蜘蛛抓取

robots协议是放在网站根目录下的协议文件,可以通过网址访问,当百度蜘蛛抓取我们的网站时,它会先访问这个文件。因为它告诉蜘蛛哪些能抓,哪些不能。

robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

Disallow:不允许抓取的目录或页面;

User-Agent:对不同搜索引擎的声明;

Allow:被允许抓取的目录或页面通常可以省略或不写,因为如果你不写任何不能抓取的东西,它就可以被抓取。

下面我们来看一个示例,场景是我不希望百度抓取我网站所有的css文件,data目录、seo-tag.html页面

如上所述,user-agent声明了蜘蛛的名称,这意味着它针对的是百度蜘蛛。以下内容无法获取"/*。css",首先/指的是根目录,这是您的域名。 *是代表任何内容的通配符。这意味着无法抓取以.css结尾的所有文件。这是你自己的两个经历。逻辑是一样的。

403状态代码是http协议中的网页返回状态代码。当搜索引擎遇到403状态代码时,它知道这些页面受权限限 制。我无法访问它。例如,如果您需要登录才能查看内容,搜索引擎本身将无法登录。如果您返回403,他也知道这是权限设置页面,无法读取内容。当然,它不会被包括在内。

如果要检测上次设置的漫游器文件,可以访问本文《检查robots是否正确的工具介绍》并获取详细的工具来检测您的设置。

通过403状态码,限 制内容输出,屏 蔽蜘蛛抓取。

对于机器人协议,我想补充一点:“现在,搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果阻止css文件和js文件相关到布局,然后搜索引擎我不知道你的网页布局是好是坏。因此不建议阻止这些内容来自蜘蛛。

返回403状态代码时,应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是不可或缺的。您只有提示页面,状态代码返回200,这是百度蜘蛛的大量重复页面。有403个状态代码但返回不同的内容。这也不是很友好。

好的,分享在这里,我希望对你有所帮助,当然,上面的两个设置对除了百度蜘蛛之外的所有蜘蛛都 有效。安装时要小心。

全网网站排名优化

本文网址:http://www.baidushandong.com/news/542.html

相关标签:全网网站排名优化

最近浏览:

在线留言
您的姓名:
您的电话:
留言内容:
联系我们

山东双赢信息技术有限公司

座  机:0531-88723972

电  话 : 辛经理:186-6899-1018(微信同号)

技术支持:徐经理:156-5005-6685 / 赵经理:176-1581-0767

Q   Q:2628885206    邮  箱:2628885206@qq.com

地  址:济南世纪大道15612号

备案号:鲁ICP备17043004号

版权所有:山东双赢信息技术有限公司

二维码
山东双赢信息技术有限公司山东云搜双赢信息
全网网站排名优化全网网站排名优化

网站建设


欢迎给我们留言
请在此输入留言内容,我们会尽快与您联系。
姓名
联系人
电话
座机/手机号码
邮箱
邮箱
地址
地址