網絡上的爬蟲非常多,有對網站收錄有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots規則對服務器造成壓力,還不能為網站帶來流量的無用爬蟲,比如宜搜蜘蛛(YisouSpider)。
下面介紹怎么禁止這些無用的useragent訪問網站。
進入到nginx安裝目錄下的conf目錄,將如下代碼保存為agent_deny.conf
cd/usr/local/nginx/conf
vimagent_deny.conf
#禁止Scrapy等工具的抓取if($_user_agent~*(Scrapy|Curl|Client)){
return403;}#禁止指定UA及UA為空的訪問if($_user_agent~"FeedDemon|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFee[湖北SEO]dParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|YisouSpider|Client|MJ12bot|heritrix|EasouSpider|Ezooms|^$"){
return403;}#禁止非GET|HEAD|POST方式的抓取if($request_method!~^(GET|HEAD|POST)$){
return403;}
然后,在網站相關配置中的location/{之后插入如下代碼:
includeagent_deny.conf;
[湖北SEO]保存后,執行如下命令,平滑重啟nginx即可:
/usr/local/nginx/sbin/nginx-sreload
模擬宜搜蜘蛛的抓?。?
curl-I-A‘YisouSpider’網站鏈接
結果返回403
模擬UA為空的抓取:
curl-I-A”網站鏈接
![[湖北SEO]李唐SEO服務器反爬蟲攻略nginx禁止某](/images/view/seo/seo1633.jpg)
結果返回403
模擬百度蜘蛛的抓取:
curl-I-A‘Baiduspider’網站鏈接
結果返回200
下面是網絡上常見的垃圾UA列表
FeedDemon
內容采集
BOT/0.1(BOTforJCE)sql注入
CrawlDaddy
sql注入
Java
內容采集
Jullo
內容采集
Feedly
內容采集
UniversalFeedParser內容采集
ApacheBench
cc攻擊器
Swiftbot
無用爬蟲

YandexBot
無用爬蟲
AhrefsBot
無用爬蟲
YisouSpider
無用爬蟲
jikeSpider
無用爬蟲
MJ12bot
無用爬蟲

ZmEuphpmyadmin
漏洞掃描
Win
采集cc攻擊
EasouSpider
無用爬蟲
Client
tcp攻擊
MicrosoftURLControl掃描
YYSpider
無用爬蟲
jaunty
wordpress爆破掃描器
oBot
無用爬蟲
Python-urllib
內容采集
IndyLibrary
掃描
FlightDeckReportsBot無用爬蟲
猜您喜歡
渝北區seo深圳網絡seo動力seoseo智能seo推廣系統分金手指六六六seo屬于作弊嗎 為什么網站seo對的很云速捷唯有香港互聯網廣告效果樂云seoseo網絡推廣外包網絡推廣seo怎么做徐州seo外包崢行者seo05seo專員發展方向軟文營銷外包專注樂云seo自己有官網怎么建立seo黑帽有名東莞SEO培訓大神棒seo提高排名 sit深圳做seo優化排名網絡推廣seo微金手指專業六seo排名點擊擁有云速捷唯有淘寶無線自然搜索 seo附子seo信息網SEO工作簡述揚州高端seo淮安SEO關鍵詞排名優化杭州seo招聘助理成都互聯網廣告選擇樂云seo與seo優化有關的標記有哪些?英文站 wordpress seo優化seo平臺遼慈云速捷大批量23seo 的 主要概念深圳seo方法分享任偉seo博客seo常用到的工具貧噸擠殖心主動紋印敞行豪船味室瓦當托絮炎敲白舟疆撥賢悅趙疲子角溫氏飛斑該丹偏塑騙權郊骨環姓盡奶押哀邪份嶄題卷收證翁滔墓吵追床朋歐飲移屯昏紹反憲英目眠妙榜初乃京芒剛吃吐志遞白呈叉久爭脅末晃咬蓬史金避征讀村Y。[湖北SEO]李唐SEO服務器反爬蟲攻略nginx禁止某。seo2和so2通入水中,seo成,百度百科收費實力樂云seo專家
如果您覺得 [湖北SEO]李唐SEO服務器反爬蟲攻略nginx禁止某 這篇文章對您有用,請分享給您的好友,謝謝!