AI in WAF︱騰訊雲網站管家 WAF：爬蟲 Bot 程式管理方案

阿新 • • 發佈：2019-01-03

案例是說明一件事情最有力的輔證

某大型生活服務類站點被爆簡歷資料被惡意爬蟲洩露；
某二次元文化社群站點原創內容被惡意爬蟲遭侵權；
航空公司被爬蟲惡意低價搶票；
外賣平臺使用者資料洩露。

惡意爬蟲 Bot 機器人程式會給業務運營帶來風險已成為眾行業難題，與其相關的安全問題事件也多次出現在新聞報道中。

在上週，騰訊安全雲鼎實驗室釋出的

《2018上半年網際網路惡意爬蟲分析：從全景視角看爬蟲與反爬蟲》專題報告在行業內外都產生了一定影響，爬蟲問題在行業的關注度也進一步升溫。從報告可以看出，惡意爬蟲 Bot 程式廣泛分佈在出行、社交、電商、O2O、公共行政、運營商、自媒體、地圖、新聞等行業，那麼惡意爬蟲 Bot 程式會給這些行業帶來哪些業務運營風險呢？

一、惡意爬蟲 Bot 帶來哪些業務運營風險？

資訊洩露：惡意爬蟲 Bot 程式所有者蓄意抓取站點介面資料或對外發布的內容資料，如站點的商品資料、訂單資料、使用者資料等，造成對外發布的資料被採集利用的資訊洩露風險；

業務風險：爬蟲比價、庫存抓取等行為帶來的營銷策略競爭風險；站點內容被未授權抓取、轉載，降低站點內容競爭力；刷票、羊毛黨、垃圾註冊、簡訊介面濫刷等帶來業務運營風險；

自動化攻擊：黑客利用惡意Bot 程式實現自動化的撞庫攻擊、漏洞嗅探、DDoS 攻擊、CC 攻擊、傳送垃圾郵件等惡意行為，給業務帶來安全威脅；

站點負載：大量惡意的爬蟲 Bot 程式流量佔用站點資源，造成伺服器的高負載，影響正常使用者的訪問速度與體驗。

惡意爬蟲 Bot 程式爬取網際網路站點資訊，損害業務營銷效益及企業利益，那麼平臺運營者為什麼難以發現並阻截這些惡意爬蟲Bot 程式的流量呢？

二、應對爬蟲 Bot 程式問題：管理流量而非徹底攔截

網際網路站點的流量一部分由人類正常訪問行為產生，而高達30%-60%的流量則是由 Bot 網路機器人孜孜不倦的執行程式編寫者賦予它的任務所產生。這些程式流量並非全部惡意，也有友好型 Bot 程式，如搜尋引擎的爬蟲、廣告程式、第三方合作伙伴程式、Robots 協議友好程式等。

惡意爬蟲 Bot 程式包括前段時間已曝光的外賣平臺數據洩露事件裡用到的惡意資訊爬取程式，用於電商定價的比價程式，用於入侵的木馬程式，撞庫程式等。雲鼎實驗室2018年上半年監測的資料表明，網際網路惡意流量中惡意爬蟲佔比高達23.46%。

對於爬蟲 Bot 程式管理，平臺安全運維者並不能採用一刀切的方式進行封堵。更多情況是，安全運維需要花費大量時間去區分爬蟲 Bot 程式流量與正常人類的訪問流量，再進一步區分友好的爬蟲 Bot 程式流量與惡意的爬蟲 Bot 程式流量。因此，解決爬蟲 Bot 程式問題的關鍵在於精準的流量檢測技術，這也是爬蟲 Bot 程式管理的核心挑戰所在。

三、常規爬蟲 Bot 程式檢測手段容易被繞過

爬蟲Bot 程式常規的檢測體系包括檢查 ua 、refer、http 請求、訪問模式、ip、cookie、指紋異常等。但爬蟲與反爬蟲的戰爭向來都是此消彼長，基於常規的規則檢測體系並不一定能奏效，容易被繞過。

常規爬蟲 Bot 程式繞過檢測的方法：

模擬 UA/Refer/Cookie；

支援 js 響應偽造客戶端指紋，基於瀏覽器外掛完成攻擊；

模擬真人行為或對特定行為模擬，使用動態 IP 進行分散式等。

當然更大的挑戰在於，對於爬蟲 Bot 程式的行為管理，規則的設定又充滿挑戰：檢測規則設定過於鬆散，則蓄意繞過者可輕鬆繞過檢測；如果將規則設定過為嚴格，又將會影響到友好爬蟲 Bot 程式的運營，甚至導致“誤殺”正常流量。

如同雲鼎實驗室的專題報告提到，爬蟲的“技術之爭就進入了鏖戰的「平衡期」，此時反爬蟲工程師對抗掉了大部分的低階玩家，剩下的高階爬蟲工程師也默契的保持一個不給伺服器太大壓力的爬取速度，雙方猶如太極推手，那下一步如何打破這個平衡？”

當前基於 AI 模式的爬蟲流量判定能夠大幅提高判定的精準度和效率，然而應用 AI 技術則需要大量的資料訓練及運算負載，同時要求具備 AI 技術能力的專業人才持續開發，這對使用者的安全運維來講是不小的挑戰。

四、AI in WAF：騰訊雲網站管家 WAF 爬蟲 Bot 程式行為管理方案

管理而非杜絕的爬蟲 Bot 行為管控方案

針對爬蟲 Bot 程式行為管理方案，網站管家 WAF 採用了溫和管理而非直接杜絕的方案。先通過分析引擎識別出爬蟲 Bot 程式流量行為，對機器人程式行為進行分類並以圖表化模式呈現，再根據實際業務需求採取針對性的管理策略，從而實現對爬蟲 Bot 程式及業務運營帶來的風險問題的管控。

基於 AI 引擎的爬蟲 Bot 程式行為檢測

在最為關鍵的爬蟲 Bot 程式檢測的環節上，網站管家 WAF 則納入了 AI 檢測引擎能力。

AI 引擎對站點訪問流量的會話進行追蹤，通過流量畫像，匹配行為模型及行為標籤進行識別，相比傳統基於規則的檢測模式具備更為精細的爬蟲 Bot 程式識別能力。例如，常規基於訪問速率的反爬蟲策略管理中，慢速爬取行為由於與正常訪問行為相近，往往難以被判定識別；網站管家 WAF AI 引擎則通過追蹤目標會話，基於會話行為特徵模型而非閾值（包括站點業務特徵模式，頁面訪問頻率，訪問層級關係等多維模型）來匹配正常人類訪問特徵和爬蟲Bot 程式訪問特徵標籤，進一步確定會話的訪問屬性。

與此同時，騰訊海量業務訪問資料訓練樣本，以及網站管家 WAF AI 引擎的演算法泛化能力，可以保障方案的爬蟲 Bot 程式識別能力能夠持續進化，不斷適應及識別新的爬蟲 Bot 程式訪問樣本。

應用騰訊爬蟲 Bot 程式威脅情報

在騰訊數十年自營業務與黑產對抗經驗中，騰訊雲建立了成熟的安全大資料威脅情報平臺，涵蓋豐富爬蟲庫、僵屍網路、全球代理、高匿名代理、tor 代理等資料等，這些資料成為騰訊雲網站管家WAF 的爬蟲 Bot 程式威脅情報的重要來源。此外，騰訊安全雲鼎實驗室持續監控捕獲最新的惡意爬蟲 Bot 行為，幫助獲取最新爬蟲資訊及 AI 引擎訓練樣本。這些有效的威脅情報被納入爬蟲 Bot 程式行為的判定決策依據，大大提高了網站管家 WAF 的爬蟲程式管控效率。

五、助力使用者反爬蟲 Bot 行為管理策略

騰訊雲通過持續開放騰訊技術能力，助力企事業單位的業務穩步安全發展。在 Web 安全層面，騰訊雲網站管家 WAF 已經集成了基於 AI 引擎的爬蟲 Bot 程式管理能力，企事業單位可通過部署網站管家 WAF 服務，幫助緩解爬蟲 Bot 程式問題帶來的運營風險問題。

瞭解並免費試用全新發布的騰訊雲網站管家 WAF

速速申請通道：https://cloud.tencent.com/product/waf

AI in WAF︱騰訊雲網站管家 WAF：爬蟲 Bot 程式管理方案

案例是說明一件事情最有力的輔證

一、惡意爬蟲 Bot 帶來哪些業務運營風險？

二、應對爬蟲 Bot 程式問題：管理流量而非徹底攔截

三、常規爬蟲 Bot 程式檢測手段容易被繞過

四、AI in WAF：騰訊雲網站管家 WAF 爬蟲 Bot 程式行為管理方案

五、助力使用者反爬蟲 Bot 行為管理策略

AI in WAF︱騰訊雲網站管家 WAF：爬蟲 Bot 程式管理方案

AI in WAF | 騰訊雲網站管家 WAF AI 引擎實踐（下篇）

AI in WAF | 騰訊雲網站管家 WAF AI 引擎實踐

騰訊雲網站開啟HTTPS

破局人工智慧：構建AI，與騰訊雲一起探索語音應用場景

微信小程序/網站上傳圖片到騰訊雲COS

騰訊雲服務器手動和自動安裝WordPress網站程序

怎樣利用騰訊雲或者騰訊雲主機搭建自己的網站

php 呼叫騰訊雲的人臉融合 ai介面

在5G、大資料、AI領域進行合作，商飛與騰訊雲共推大飛機智慧製造

關於iis+php架構網站遷移到騰訊雲ECS後公網IP無法訪問的可能解決方法

騰訊雲學生伺服器搭建個人網站（01）——配置web開發環境

在騰訊雲伺服器使用WamServer釋出PHP網站（不使用域名，直接用公網IP訪問）

零基礎利用騰訊雲伺服器搭建網站

騰訊雲+tipask快速搭建基於laravel的CMS網站

新購騰訊雲主機安全組未放行導致網站、資料庫無法訪問

騰訊雲Ubuntu安裝JDK、tomcat、mysql、部署網站步驟詳解

如何使用在騰訊雲申請的域名配合自己的電腦搭建自己的網站

Windows server 2012R2 版本安裝Geoserver --------基於騰訊雲伺服器搭建個人地圖網站(三)

【騰訊雲的1001種玩法】個人網站如何開啟HTTPS？

AI in WAF︱騰訊雲網站管家 WAF：爬蟲 Bot 程式管理方案

案例是說明一件事情最有力的輔證

一、惡意爬蟲 Bot 帶來哪些業務運營風險？

二、應對爬蟲 Bot 程式問題：管理流量而非徹底攔截

三、常規爬蟲 Bot 程式檢測手段容易被繞過

四、AI in WAF： 騰訊雲網站管家 WAF 爬蟲 Bot 程式行為管理方案

五、助力使用者反爬蟲 Bot 行為管理策略

相關推薦

四、AI in WAF：騰訊雲網站管家 WAF 爬蟲 Bot 程式行為管理方案