为了获得搜索的收录,自然是要让蜘蛛爬取的,但是垃圾蜘蛛会让服务器压力增大,还可能让内容被非法转载。本文介绍如何在宝塔中配置robots文件以及Nginx来拦截垃圾爬虫。


2022-05-10更新:DataForSEO Link Bot
许多人会将DataForSEO Link Bot视作另一个搜索引擎的网络爬虫。其实不然。
DataForSEO是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来创造公平的竞争环境。
换句话说,就是DataForSeoBot爬虫采集的数据是提供给众多SEO从业人士的,这些数据可以被用作SEO竞争分析、SEO软件开发、市场调查、甚至网络推广等方面。也就是说,对于被抓取的网站本身来说,无任何价值,甚至有数据被采集的负面影响。

2022-05-12:如果使用宝塔的话,可以打开Nginx免费防火墙里全局配置的常见扫描器以及User-Agent过滤


在前文中,介绍过如何防止被百度文库之类的剽窃。

(Handsome主题)个人博客如何做好内容保护_只防君子

正规的蜘蛛例如百度蜘蛛、谷歌蜘蛛等都是好蜘蛛,也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫。

设置robots.txt

设置robots.txt,这是对一些垃圾蜘蛛人品(蜘蛛品)抱有一丝丝幻想,希望他们能遵守robots规定。人家不欢迎你来爬虫,应该有点自知之明吧,别那么厚脸皮。robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

下面汇总了一些网友们提供的垃圾蜘蛛,基本得不到什么流量,很多是国外的一些蜘蛛。

在我的robots.txt文件中,内容如下:

# robots.txt generated at http://www.jsons.cn/robots/ 
User-agent: *
Disallow: /admin/
Disallow: /install/

User-agent: DataForSeoBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: YisouSpider
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /
User-agent: SemrushBot-BA
Disallow: /
User-agent: SemrushBot-SI
Disallow: /
User-agent: SemrushBot-SWA
Disallow: /
User-agent: SemrushBot-CT
Disallow: /
User-agent: SemrushBot-BM
Disallow: /
User-agent: SemrushBot-SEOAB
Disallow: /
user-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /
Sitemap: https://www.52txr.cn/sitemap.xml

Nginx屏蔽垃圾蜘蛛

首先进入宝塔面板,打开Nginx配置。

配置Nginx

在配置信息中,找到serve:

serve位置

在serve中插入代码:

#禁止Scrapy等工具的抓取 
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
   return 403; 
} 
#禁止指定UA及UA为空的访问 
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DataForSeoBot/1.0|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 
   return 403;        
} 
# 禁止非GET|HEAD|POST方式的抓取 
if ($request_method !~ ^(GET|HEAD|POST)$) { 
  return 403; 
}
# 屏蔽单个IP的命令是
# deny 123.45.6.7

点击保存即可。

附录(爬虫说明):

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

模拟蜘蛛爬取的网址

设置完了可以用模拟爬去来看看有没有误伤了好蜘蛛。

蜘蛛抓取模拟-搜一搜

搜索蜘蛛、机器人模拟抓取



博主个人公众号
版权声明 ▶ 本网站名称:陶小桃Blog
▶ 本文链接:https://www.52txr.cn/2022/badSpider.html
▶ 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行核实删除。
▶ 转载本站文章需要遵守:商业转载请联系站长,非商业转载请注明出处!!

最后修改:2022 年 06 月 14 日
如果觉得我的文章对你有用,请随意赞赏