1. 程式人生 > >徐東山:騰訊雲安全的使命和技術實現

徐東山:騰訊雲安全的使命和技術實現

徐東山騰訊雲安全副總監, 2005 年進入騰訊並服務至今,歷任後臺開發、後臺策略安全等崗位。從 2010 年騰訊開放平臺和騰訊雲啟動迄今,一直從事騰訊雲安全相關的業務規劃和系統建設工作。對海量服務系統開發、後臺策略安全設計等有較強烈興趣和一定積累。

分享主概要

1、騰訊雲安全在騰訊雲不同發展階段,承擔著不同的使命和職責,在這些不同階段,騰訊雲安全建設方向有著怎麼樣的體現。對於使用騰訊雲的客戶,騰訊雲安全主要提供的保障和服務。

2、對騰訊雲安全的網路防護(大禹)、業務安全(天御)、移動安全(樂固)等產品服務和技術實現的說明。

分享實錄

首先介紹下我自己,我是來自騰訊公司的徐東山,當前主要負責騰訊雲安全的架構設計與產品規劃等工作。

我們團隊主要涉及到海量服務後臺開發、後臺安全策略、運維安全、大資料處理、機器學習等領域,當前也有較大的人力缺口,歡迎在這些方面有經驗、同時對騰訊和深圳有興趣的同學私下聯絡我。

*現在我開始分享。5 年前,我們說到雲端計算,還覺得它是一個有些飄渺的技術方向和概念,但今天,我們說到雲端計算,已經可以認為它是實在的產業並且直接影響到了 IT 行業的現實領域和抉擇。

產業發展過程中,騰訊雲在裡面起到了重要作用。從騰訊雲誕生至今,安全一直是最核心的問題,也一直面臨質疑和挑戰。並且,隨著騰訊雲與行業的發展,安全的質疑與挑戰也隨時間與階段呈現不同的特點

下面,我根據騰訊雲發展的不同階段,對雲安全在相應階段的使命與建設理念進行描述。

騰訊雲的發展,可以認為有四個階段:

1**內部使用階段:對雲端計算技術進行研究,並在內部業務如 QQ、Qzone、會員等業務上進行應用。2**支援開放平臺階段:以開放平臺推出為標誌,騰訊正式邁出了開放的步伐。其中,騰訊雲負責支援合作伙伴的計算、網路等資源需求。
3**公有云階段:在支援開放平臺基礎上,騰訊雲正式推出了公有云,全面對外提供 IaaS、SaaS 等服務。4**網際網路 階段:隨著網際網路 戰略的實施,騰訊雲在裡面承擔了基礎資源落地的核心任務和使命。

在騰訊雲的發展歷史中,雲安全從開放平臺階段開始介入,通過完成使命,推動著騰訊雲在不同階段的發展和演進。

1**開放平臺階段:在這個階段,外部合作廠商的服務開始納入騰訊體系,並對使用者直接提供服務。當時最大的挑戰在於,服務由合作廠商提供、運營和管理,其服務標準等是否能夠符合騰訊要求,會否損害使用者利益。基於此,雲安全需要對合作廠商的服務進行監控,對損害使用者利益的合作廠商,要能及時阻止並處理。

2**公有云階段:公有云階段最大的挑戰在於,騰訊雲第一次對外全面開放了基礎措施,原來基於自研的強制的安全規範和措施對公有云客戶來說無法落地和實施,在全面開放的背景和要求下,怎麼保障騰訊雲基礎平臺和支撐體系的可靠和安全,是雲安全當時面臨的主要任務。
3**網際網路 階段**:在這個階段,騰訊雲有更強烈的使命來幫助整個行業、整個生態更安全的運營,除了託管在雲上的業務,對非託管業務也需要一起覆蓋。雲安全需要針對網際網路行業和生態的痛點,提供切實可行的安全解決方案,從而幫助行業和生態更聚焦在業務成長上。

開放平臺時代,雲安全主要針對合作廠商的業務進行行為和內容安全審計:

1、對服務進行漏洞掃描、對主機進行檢測等,幫助合作廠商發現業務脆弱性並進行修復。

2、對業務內容進行掃描,和結合傳播渠道,發現其中不合規的惡意內容,並及時處理。

3、對業務託管機器進行網路監控,對惡意網路行為進行識別,從而從事後發現被惡意控制的機器。

公有云初期,雲安全重點保障了支撐體系的安全可靠:

1、梳理安全運營規範和修改安全策略,給正常客戶更自由體驗,對非正常客戶識別行為做到旁路化。
2、對齊行業標準,梳理雲端計算基礎平臺的資產和風險,並制定相應的規範和基線,強制執行。
3、對公共的安全需求,進行統一服務提供,通過統一服務減少業務參與,減少風險。
4、定期進行基線更新、風險識別並推動修復,通過自動化開發提升執行效率。

當前,為了配合網際網路 戰略的更進一步實施,雲安全針對客戶痛點推出一序列強化服務,在基礎服務之外,推出了更有針對性、能力更強的大禹、天御等安全服務,並且覆蓋到非雲客戶。

對一般客戶來說,主要存在著下面的幾個問題:

1、客戶端被篡改。
2、被 DDoS 攻擊。
3、業務有漏洞導致被入侵。
4、業務邏輯被盯上,導致被刷。

通過公司內部積累和騰訊雲各個階段的使命達成,騰訊雲安全積累了業界領先的能力,並且形成了一整套的安全總體架構。

從層次上,覆蓋了組織管理、物理安全、基礎平臺、合規性審計、網路安全、主機安全、應用安全等各個方面,給客戶提供全面強有力的安全保障。

對提供計算和網路資源的雲服務商而言,可信是其首要保證的。騰訊雲從兩方面來保障基礎平臺的可信度:

1、確保客戶的資源只自己可見,包括網路隔離、訪問鑑權等。客戶只能看到自己的資源,看不到別人的資源,也看不到任何非授權的服務。

2、雲服務提供商做好自我保障,斷絕從平臺方向對客戶資源的非授權訪問。包括平臺自我加固,以免存在漏洞被惡意利用;同時對內部進行審計,任何操作都有記錄可追溯,並對異常行為能夠自動告警。

通過上面的可信措施落實,騰訊雲也獲得了一序列的外部合規性認證,包括 ISO 27001:2013、可信雲、等保等認證,給客戶提供了更可信的保障。

在基礎平臺和支撐體系安全可靠之外,騰訊雲安全在網路、主機與應用、業務、移動等領域均提供了全面的安全服務。

下面,針對雲安全服務,我挑選部分內容對大家進行介紹。

大禹、天御、樂固三大產品,分別從網路安全、業務安全、移動安全的方向,提供了整套全面的安全服務。

同時,這三大產品,也可以很好支援非雲託管的客戶。

首先介紹下 DDoS 攻擊:

DDoS 又稱為分散式拒絕服務,全稱是 Distributed Denial of Service。

DDoS 就是利用合理的請求造成資源過載,導致服務不可用。

描述:城東新開了一家牛肉麵館,生意紅火,顧客絡繹不絕。

某天,一個地方惡霸召集了手下一批小弟,一窩蜂湧入牛肉麵館,霸佔了所有座位,只聊天不點菜,導致真正的顧客無法進店消費。由此,牛肉麵館的生意受到影響,損失慘重。如果把這家牛肉麵館,看作是一家網際網路企業,那麼這群地痞的惡行,就是典型的分散式拒絕服務,也就是我們所說的 DDoS 攻擊

DDoS 黑產

動機=》敲詐勒索:線上盈利企業為首要敲詐目標,收取"保護費";商業競爭:遊戲的私服,和電商,是重災區,競爭對手攻擊

成本=》黑產圈承諾 150 元一次,包打死!!!

流量來源=》非法 IDC;肉雞

面對猖獗的 DDoS 攻擊我們能做什麼?

1、默默忍受:被打時,網路無法訪問

2、擴容機房出口頻寬:高成本

3、接入騰訊雲-大禹系統

大禹治水,分而治之,而非堵而治之

如果機房頻寬 < DDoS 頻寬,無法承受。因此,我們聰明地選擇全國分散式節點(騰訊既有資料中心)做防護。

大禹系統防護說明:

單節點防護能力 40G+,全國節點 100 ,合計可抵抗攻擊 4T+

每個節點由騰訊自研 DDoS 檢測和清洗演算法

因為是分散式部署,相當於把流量分攤
沒有哪個黑產可以進行 4T+的攻擊

大禹系統,就是這樣以分散式,來保證你的服務可用

大禹系統防護全景圖:

使用者請求

-> 騰訊 GSLB 排程系統

-> 騰訊雲大禹系統流量清洗

-> 業務側自己的伺服器

大禹系統接入流程:

客戶到大禹管理臺配置安全域名

把使用者請求以 cname 的形式重定向到大禹系統
使用者請求->域名->大禹系統->

業務側伺服器

*羊毛黨第一步:

*其次:

*全路徑進行識別和打擊:

從信用、行為、內容等方面,對廣告、惡意內容等進行識別:

*騰訊驗證碼:

*型別豐富:

天御提供了防刷、內容識別、驗證碼等多項業務安全能力

app 存在風險

對抗的主要思路和原理:
1、Dex 加固----整體替換

2、Dex 加固----方法替換

3、SO 加固----PC 加殼

4、自定義加固、多維度加固

注:分內容沒有詳細說明。歡迎大家掃碼下載騰訊雲安全白皮書,瞭解更多內容。

問答實錄:

1.全國分散式節點怎麼理解?

答:大禹系統使用了 CDN 節點在前面分流攻擊流量,我們 CDN 節點是全部分佈的。

2.CDN DNS 怎麼分配的?

答:dns 解析用了騰訊自研體系的 gslb 系統,能根據使用者訪問就近接入,並會根據節點質量自動排程。gslb 在我們公司服務了 qq、微信、qzone 等業務,久經挑戰。

3."對內部進行審計,任何操作都有記錄可追溯",能具體說說麼,操作每條指令都存入日誌麼?

答:這裡的操作指騰訊雲內部人工的操作,我們通過管理許可權、堡壘機等限制員工在合理範圍內操作,並把輸入的命令記錄到流水。

4.騰訊雲安全對最典型的 DDos 攻擊是怎樣防禦和限制的?在雲平臺上,謝謝!**

答:我們的 ddos 防護有三種模式,一種是在雲機房內,一種是專門的高防機房,一種是大禹在前端的分流清洗。我理解的是第一種,這種我們是搭建了自研的 ddos 防護裝置(宙斯盾,大禹在具體節點上也複用到了這個系統和能力),由宙斯盾進行清洗。對於協議級別攻擊(一般也是大流量),我們根據協議內容的異常識別等進行攻擊源識別;對於應用層攻擊(cc),我們根據請求規則、互動等識別。

5.你們這套系統是隻能對騰訊雲有用嗎?我們私網可以使用嗎?

答:大禹、天御、樂固都可以對非雲的業務提供,其中,大禹、天御必須要有外網,樂固只要在我們官網上加固。

6.請教下騰訊雲 vpc 私有網路與企業網之間建立的 ipsecvpn 通道有什麼辦法做到監控?

答:對這個我們不會做內容監控,但是可以對流量包量、時間曲線、源端目的的等識別,並判斷異常進行告警。

7.你們的 ip 動態遷移是怎麼實現的?

答:基於 gslb 和 cdn 節點可用性來排程,對 cdn 節點進行可用性監控,當滿足遷移條件時,修改 gslb 解析。

8.請問一下 大禹是如何判斷的,如何自動接入大禹的?

答:大禹在各個節點均有攻擊清洗能力,在節點可以進行流量清洗。接入的話,只要把域名 cname 給我們分配的特定域名上即可。

9.對於國外伺服器的建議與方案呢?

答:騰訊雲在香港和北美均有託管機房,可以接入天御,可以使用樂固。但是接入大禹意義不大,因為大禹資源主要在國內。

10.請問面對這麼大流量,怎麼分析哪些是惡意攻擊?哪些是正常流量在 DDOS 攻擊的時候 正常使用者可以正常使?

答:系統分成檢測、清洗、控制等部分,在平時,流量會直接到源站或者業務伺服器,同時,流量會分光到檢測裝置,檢測裝置對流量進行判斷,這個時候檢測不會影響業務流量;當檢測裝置檢測到攻擊後,會通過控制系統下發策略,這時候業務流量會經過清洗裝置,經過清洗後再回到源站或者業務伺服器,這個時候清洗會影響到源站。一般性來說,清洗裝置只會過濾攻擊流量,業務正常流量會透傳回到源站。

11.是綠盟的流量清洗裝置不?

答:清洗邏輯,當前用的主要是我們自研的裝置宙斯盾。

12.我最想知道公司機房怎麼接入你們的系統?

答:整個機房接入吧?這個可能具體要看,比如機房外網服務的提供方式,有多少訪問入口等的。如果域名少或者 ip 數少,就有辦法通過牽引搞掂,如果多的話,就是資源耗費的問題。

13.大禹是分散式的嗎,假如攻擊流量超過機房的頻寬,能轉移到其他機房麼?

答:大禹是分散式的,流量會分流到各個 cdn 節點,如果某個節點不可用或者超過頻寬,會自動剔除該節點,並把該節點的業務流量排程到其他大節點去。

14.mpls 二層 三層?

答:騰訊雲體系中,對於轉發,主要是基於 3 層和 7 層。

15. "對於應用層攻擊(cc),我們根據請求規則、互動等識別 " ——這個沒法通用吧,要建立正常業務流量的特徵庫麼?

答:要針對特定的業務設定。這個主要看攻防情況,會設定預設規則,這些會相對簡單較容易漏過,之外還有特殊規則,這些主要是漏過後和客戶一起制定,聯手與攻擊者對抗,這塊相對坎坷。
對業務流量的特徵庫,正在做,但當前只對大禹的幾個高危使用者在試點。

16.請教下,如果騰訊雲上某客戶業務管理員被非法利用,進行非常規操作,機器學習是否可以進行甄別併發出告警?

答:簡單說下思路:異地 ip 和時間登入、操作頻次、操作範圍等可以識別,還可以根據更廣度的操作習慣,但是當前在操作習慣上,更多是 how、when、who 等 5 要素來做。

17.能在清楚點麼是如何判斷的啊 ?就好像餐館來了好多人 我怎麼判斷哪些是消費者哪些是混混 處理策略又是如何清洗的直接過濾麼 會不會對正常流量誤判斷?

答:簡單說,協議包裡面,ttl、seqno 等欄位的合理性,或者是否會對某些返回進行識別。清洗策略是識別惡意後丟棄,如果判斷失誤,是會有誤殺。

18. 阿里雲也在香港有託管機房吧?你們的優勢在哪?

答:按照你自己的核心需求,找到最關鍵的幾個點來,進行評估。

19.騰訊雲安全服務是對客戶開放的,還是需要單獨購買雲安全服務呢?

答:託管在騰訊雲上,會享用基礎安全服務,如果不是託管,可以單獨使用大禹天御和樂固。但是登入防護等則沒有辦法。

20. 這些是公開的防禦系統聽說騰訊內部還有一個特別強大的防禦系統是嗎?

答:說宙斯盾嗎,雲上的大禹和宙斯盾是我們的精華了。