识别User Agent屏蔽了一些Web爬虫防收集
from:https://jamesqi.com/%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5%B1%8F%E8%94%BD%E4%B8%80%E4%BA%99bweb%E7%88%AC%E8%99%AB%99%98%B2%E9%87%87%E9%9%96%
自从我们成为一个网站以来,大量的爬虫自动捕获我们的内容一直是一个问题,预防收集是一个长期的任务,这是我五年前的博客文章:“Apache设置屏蔽IP地址和URL网站禁止收集”,此外,您还可以识别User Agent在Apache中设置的代码例子如下:
RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sagent|Creative\sautoupdate|httrack|yisouspider|SemrushBot)(.*)$RewriteRule .* - [F,L]
屏蔽User Agent为空代码:
RewriteCond %{HTTP_USER_AGENT} ^$RewriteRule .* - [F]
屏蔽Referer和User Agent都是空的代码:
RewriteCond %{HTTP_REFERER} ^$ [NC]RewriteCond %{HTTP_USER_AGENT} ^$ [NC]RewriteRule .* - [F]
以下是一些常见的收集软件或机器爬虫的User,可以屏蔽 列出Agent的特征关键词供参考:
- User-Agent
- DTS Agent
- HttpClient
- Owlin
- Kazehakase
- Creative AutoUpdate
- HTTrack
- YisouSpider
- baiduboxapp
- Python-urllib
- python-requests
- SemrushBot
- SearchmetricsBot
- MegaIndex
- Scrapy
- EMail Exractor
- 007ac9
- ltx71
其他也可以考虑屏蔽:
- Mail.RU_Bot:https://www.tulingxueyuan.cn/d/file/p/20230601/t00b0yjh1ze Commons-HttpClient
- Apache-HttpClient
- BDCbot
- ECCP
- Nutch
- cr4nk
- MJ12bot
- MOT-MPx220
- Y!OASIS/TEST
- libwww-perl
主流搜索引擎的特点一般不屏蔽:
- Baidu
- Yahoo
- Slurp
- yandex
- YandexBot
- MSN
不要轻易屏蔽一些常见的浏览器或通用代码:
- FireFox
- Apple
- PC
- Chrome
- Microsoft
- Android
- Windows
- Mozilla
- Safar
- Macintosh