如何在1個小時之內輕鬆構建一個Serverless 實時資料分析平臺

阿新 • • 發佈：2019-01-13

資料分析平臺，特別是實時資料分析，正在被越來越廣泛的應用於各個行業。舉例來說，遊戲公司在釋出新遊戲之後，需要實時定位使用者的留存、增長等情況；快銷公司需要精確地記錄每一筆訂單的情詳情，並結合社交媒體，實時分析促銷活動引起的使用者購買行為與銷量等等。基於這些需求， AWS提供了一整套成熟的解決方案與服務，並且得到了廣泛的應用。

圖1 AWS大資料參考架構示例

上圖中，Amazon Kinesis 是實時的流式分析服務，而Amazon S3是AWS的海量資料儲存服務。利用Kinesis與S3，我們可以十分方便的構建一個實時流式資訊資料的採集與儲存。值得注意的是，作為Serverless計算服務的代表，使用者只需要編寫實現對應的ETL邏輯，Amazon Lambda就可以非常方便地對Kinesis流式資料進行抽取與分析而不需要部署任何伺服器。另外，使用者也可以使用Kinesis Firehose（Kinsis服務之一）實現原始資料的直接注入與收集。

隨著Amazon Athena在AWS re:Invent 2016的重磅釋出，AWS的大資料平臺又增添了重要的一員！Amazon Athena 是一種互動式查詢服務，使用者可以使用標準SQL 分析 Amazon S3 中的資料。因為Athena底層是基於Serverless（無伺服器）架構，使用者不需要運維底層的伺服器，並且查詢處理能力會隨著使用者的資料將進行自適應與擴充套件，實現秒級別的資料查詢與處理。

閒話少說，我們將利用AWS提供的三個重要服務——Amazon Kinesis Firehose,、Lambda和Athena在1個小時之內實現一套實時分析的Serverless資料分析平臺！

準備好了嗎？Let’s rock

1.資料來源。作為測試，我們將對AWS VPC Flow Logs進行分析。您可以使用Kinesis Agent/Flume/Fluentd或者Amazon Kinesis SDK對前端的實時日誌進行分析。Amazon VPC Flow Logs將實時記錄VPC監控的網路埠的流量與通訊日誌，並將日誌釋出於AWS CloudWatch Logs。詳細的配置請參見 https://aws.amazon.com/cn/blogs/aws/vpc-flow-logs-log-and-view-network-traffic-flows/

2.資料ETL。VPC Flow Logs進入CloudWatch Logs之後，可以利用Lambda對實時日誌進行訂閱處理。訂閱之後，Lambda會在CloudWatch Logs更新之後，自動呼叫執行，進行資料ETL。

首先，在控制檯建立一個Lambda函式（利用Python實現）.為了確保Lambda有對應的執行許可權，需要賦予Lambda函式相應的Permission Role.在這個示例中，我們只需要服務Lambda對應的CloudWatch Logs以及Kinesis Firehose的許可權即可。

其次，Lambda 程式碼會對進入的CloudWatch日誌的第一個Base64編碼的轉碼並進行gzip解壓（因為Cloudwatch Logs會對送往Lambda首先進行Base64編碼並進行gzip壓縮）。之後，Lambda會對具體的日誌進行匯聚，以batch的方式傳送給Kinesis Firehose。具體的程式碼如下：

程式碼中，利用環境變數 DELIVER_STREAM_NAME 傳遞Kinesis Firehose Stream，詳見步驟3）。

最後，利用AWS CloudWatch logs的訂閱功能，就可以實時地把日誌釋出到Lambda函式中了。

aws logs put-subscription-filter \

--log-group-name myLogGroup \

--filter-name demo \

--filter-pattern "" \

--destination-arn arn:aws:lambda:us-east-1:123456789123:function:helloworld\

3.建立Kinesis Fireshose實現到S3的資料自動儲存與匯聚。Kinesis Firehose提供了自動對資料進行匯聚，目前支援S3和Redshift, ElastiSearh。這裡，我們利用控制檯，十分簡單地建立瞭如下一個Firehose Stream：

圖2 Kinesis Firehose 配置過程

4.利用Amazon Athena進行資料查詢。因為Athena底層是基於Hive Catalog對S3資料進行管理，上層基於Presto的方式進行SQL查詢。因此我們首先需要使用Hive對S3的VPC Flow Logs進行外表DDL操作。具體程式碼如下:

我們在建立表的過程中，建立了 Year，Month, Day 與Hour的分割槽，是因為我們在實現Firehose的時候自動進行了時間和日期的字首設定。同時，利用分割槽也可以大大提高hive的資料查詢效能。

到這裡，整個Serverless 處理能力自適應的架構已經構建完成，來測試一下Athena的查詢結果吧。 Athena提供了Web Console讓BI使用者可以直接對S3資料湖進行查詢，同時，使用者也可以利用JDBC直接與第三方的BI工具整合實現自動化查詢。查詢結果也可以利用CSV的檔案下載的方式直接分享給其他使用者。

圖3 利用Web Console對Athena進行資料分析

作者介紹：

肖凌

AWS解決方案架構師，負責基於AWS的雲端計算方案架構的諮詢和設計，同時致力於AWS雲服務在國內和全球的應用和推廣，在大規模併發後臺架構、跨境電商應用、社交媒體分享、Hadoop大資料架構以及資料倉庫等方面有著廣泛的設計和實踐經驗。在加入AWS之前曾長期從事移動端嵌入式系統開發，IBM伺服器開發工程師。並負責IBM亞太地區企業級高階儲存產品支援團隊，對基於企業儲存應用的高可用儲存架構和方案有深入的研究。

如何在1個小時之內輕鬆構建一個Serverless 實時資料分析平臺

如何在1個小時之內輕鬆構建一個Serverless 實時資料分析平臺

1個5L的桶和一個3L的水桶怎麽量出4L的水?所帶來的思考

如何用1個小時學完 JSON？

找出1個小時前更新的文件並進行拷貝

1個開發如何撐起一個過億使用者的小程式

統計指定介面指定的時間點1個小時內的呼叫次數

12個球有1個重量不同,給你一個沒法碼的天秤,只能稱3次把它找出來

一道演算法題：12個黑球和1個白球圍成一個圓

輕鬆構建基於 Serverless 架構的彈性高可用音視訊處理系統

一個按鈕提交兩個form表單，分別提交到兩個action裡，第一個form的資料丟失

一小時建立資料分析平臺

DataPipeline丨構建實時資料整合平臺時，在技術選型上的考量點

基於分散式關係型資料庫，實現輕鬆應對百億級資料分析場景解決方案

如何構建批流一體資料融合平臺的一致性語義保證？

4個小時實現一個HTML5音樂播放器

java程序中如何為一個while(true)循環計時,超過一定時間比如10個小時就退出循環？

100個線程同時向一個銀行賬戶中存入1元錢

用1分鐘學會4個PPT高效小技巧，3個小時才能完成的工作5分鐘搞定~

Java:寫2個執行緒，其中一個執行緒列印1-52，另一個執行緒列印A-Z，列印順序應該是12A34B56C...5152Z。

[Hadoop 1] 構建一個單節點叢集

如何在1個小時之內輕鬆構建一個Serverless 實時資料分析平臺

相關推薦