我的同学的博客是坚决不想让搜索引擎收录的,但是还是莫名其妙被百度收录了几十条,虽然说这个要求有点奇葩,但是确实有这需求。原本百度还是有个闭站保护的,据说可以删除掉收录,但是现在这个功能貌似取消了,改成了“网站改版”入口。这里我谈谈我的一些去除收录的思路吧!不一定正确,但是可以参考!理论上说我的这个方法是通用的!

虽然我搞不懂这种小世界的想法,对我而言,收录和排名越多越好!?

本站的收录量

这个童鞋设置了常见的蜘蛛的robots,但是发现百度不是很遵守这个协议,虽然写了百度蜘蛛Disallow,还是照收不误。这样小陶很疑惑,百度有那么饥渴吗?记得常见的几个搜索引擎,一开始就是百度最难收录了。

百度收录

其实在《如何在宝塔中配置Nginx阻止垃圾蜘蛛_反爬虫_防采集》这篇文章里就说过robots这件事:

设置robots.txt,这是对一些垃圾蜘蛛人品(蜘蛛品)抱有一丝丝幻想,希望他们能遵守robots规定。人家不欢迎你来爬虫,应该有点自知之明吧,别那么厚脸皮。robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

唠了一堆废话,还是说说关于删除百度收录的思路吧。其实还是和宝塔中配置Nginx阻止垃圾蜘蛛的思路差不多。利用返回404死链的方式去提交死链,来实现删除收录的效果!来说说具体实现的过程吧!

第一步:Nginx设置返回404

这里以宝塔面板为例,别的控制方法类似的道理。

首先进入宝塔面板,打开Nginx配置。

配置Nginx

在配置信息中,找到serve:

serve位置

在serve中插入代码:

(百度的蜘蛛UA: BaiduspiderBaiduspider-imagebaiduboxappBaiduspider-render

#设置百度蜘蛛爬取返回为404

if ($http_user_agent ~ "Baiduspider|Baiduspider-image|baiduboxapp|Baiduspider-render|^$" ) { 
   return 404;        
} 

也可以使用PHP通用的方法:在博客模板里的head加入:


<?php if($_SERVER['HTTP_HOST'] == 'www.52txr.cn') { ?>
header('HTTP/1.1 404 Not Found');
header("status: 404 Not Found");
<?php } ?>

第二步:暂时解除robots.txt对Baiduspider的限制

可能你会疑问为什么要解除,因为我们要告诉百度这些是死链,但是Baiduspider在原则上其实是遵守robots协议的。但是有时又不遵守,这点就有点薛定谔的百度了。所以robots里暂时要解除对百度的限制。如果在Nginx免费防火墙里也有对百度UA的限制,也需要暂时解除了!反正暂时得让百度的蜘蛛来爬,但是由于第一步的设置,会返回404!

第三步:模拟抓取测试

模拟蜘蛛爬取在线工具

模拟抓取返回404

第四步:制作和提交死链

死链,可以通过站点地图来制作txt提交。站点地图可以通过插件生成,这里不过多介绍。

tips:如果你的网站被收录的不是很多,可以一个个复制链接到记事本里就行,不需要用到站点地图!

站点地图

制作txt死链,然后重命名为silian.txt:

制作txt死链

上传到网站的根目录:

根目录

最后提交死链:

提交死链

然后就是等待了,等待百度那边处理!


一个月过去了


过去几周之后,你再看百度还有收录不,如果没有的话,就说明成功了!

本方法只是自己的一个想法,理论上可行,但是没有经过亲自测试,所以效果不得而知。

有一点非常需要注意,就是设置了404之后,后面要让Baiduspider爬取,也就是第二步。不然可能会效果不明显!


版权声明 ▶ 本网站名称:陶小桃Blog
▶ 本文链接:https://www.52txr.cn/2022/Baiduspider404.html
▶ 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行核实删除。
▶ 转载本站文章需要遵守:商业转载请联系站长,非商业转载请注明出处!!
▶ 站长邮箱 [email protected][email protected] ,如不方便留言可邮件联系。

最后修改:2022 年 10 月 31 日
如果觉得我的文章对你有用,请随意赞赏