1. 程式人生 > >旅遊研究院大數據挖掘與分析科研平臺建設方案

旅遊研究院大數據挖掘與分析科研平臺建設方案

外部 聚類 ask 升級 非結構化數據 數據集 重點 客戶端 節點和

一. 背景

一.1 數據挖掘和大數據分析行業背景和發展趨勢

移動互聯網、電子商務以及社交媒體的快速發展使得企業需要面臨的數據量成指數增長。根據 IDC 《數字宇宙》(Digital Universe)研究報告顯示,2020 年全球新建和復制的信息量已經超過 40ZB,是2015年的12倍;而中國的數據量則會在2020年超過8ZB,比2015年增長22倍。數據量的飛速增長帶來了大數據技術和服務市場的繁榮發展。IDC亞太區(不含日本)最新關於大數據和分析(BDA)領域的市場研究表明,大數據技術和服務市場規模將會從2012年的5.48億美元增加到2017年的23.8億美元,未來5年的復合增長率達到34.1%。該市場涵蓋了存儲、服務器、網絡、軟件以及服務市場。數據量的增長是一種非線性的增長速度。

據IDC分析報道,最近一年來,亞太區出現了越來越廣泛的大數據和分析領域的應用案例。在中國,從互聯網企業,到電信、金融、政府這樣的傳統行業,都開始采用各種大數據和分析技術,開始了自己的大數據實踐之旅;應用場景也在逐漸拓展,從結構化數據的分析,發展到半結構化、非結構化數據的分析,尤其是社交媒體信息分析受到用戶的更多關註。用戶們開始評估以Hadoop、數據庫一體機以及內存計算技術為代表的大數據相關新型技術。

最新調研結果顯示,提高競爭優勢,降低成本以及吸引新的客戶是中國用戶對大數據項目最期望的三大回報。目前現有的大數據項目主要集中在業務流程優化以及提高客戶滿意度方面的應用。IDC發現很多用戶希望大數據能夠為企業帶來業務創新,並且開始使用高級分析的解決方案以管理復雜的數據環境。過去一年中用戶對社交數據的收集和分析應用的關註度增加明顯。未來,地理位置信息分析將會增長迅速,這也會推動用戶對大數據安全和隱私管理的關註。在亞太區,澳大利亞和新加坡的用戶對大數據的相關投資主要在咨詢服務方面,更關註如何根據新的最佳實踐需求設計和實施方案。中國和印度在大數據領域的硬件投資則非常明顯,更傾向於數據中心相關的基礎架構的投資。

在傳統的數據分析與商業數據挖掘中,人們通常遵循二八原則。也就是任務20%的用戶提供了80%的價值,因此利用優勢資源用戶對於少數用戶的服務。隨著互聯網的發展,越來越多的低價值用戶進入到商業體系中,這部分用戶成為商業企業競爭的目標。比如電商行業,大量顧客都是傳統意義上的低價值客戶,數據表明對於這部分用戶價值的挖掘可以改變二八原則,甚至可達到價值的幾乎均勻分布。並且由於計算技術的發展,對於大數據的分析也成為了可能。

一.2 旅遊行業開展大數據分析及應用的意義

旅遊行業有行業廣、規模大、移動性強的特點,因此更加依賴大數據。當前,旅遊業也在“新常態”下迎來了升級的挑戰和變革的機遇,新常態對於一般的經濟部門是經濟速度放慢、人均GDP增速減小,很多傳統行業在調整結構,但新常態對旅遊行業卻是速度加快的。旅遊大數據的解決之道,在於整合國內多途徑的大數據源,形成旅遊大數據生態,為國內旅遊業提供大數據解決方案,促進旅遊業的轉型升級。

一.3 數據挖掘與大數據分析科研平臺建設的必要性

數據挖掘與大數據分析是以計算機基礎為基礎,以挖掘算法為核心,緊密面向行業應用的一門綜合性學科。其主要技術涉及概率論與數理統計、數據挖掘、算法與數據結構、計算機網絡、並行計算等多個專業方向,因此該學科對於科研平臺具有較高的專業要求。科研平臺不僅要提供基礎的編程環境,還要提供大數據的運算環境以及用於科學研究的實戰大數據案例。這些素材的準備均需完整的科研平臺作為支撐。

目前,在我國高校的專業設置上與數據挖掘與大數據分析相關的學科專業包括:計算機科學與技術、信息管理與信息系統、統計學、經濟、金融、貿易、生物信息、旅遊以及公共衛生等。這些專業的在使用科研平臺時的側重點各不相同,使用人員層次水平也不相同,對算法的使用也不相同,因此,需要建設一個便利、操作簡易、算法全面、可視化的大數據科研平臺是非常有必要的。

二. 數據挖掘與大數據分析科研平臺總體規劃

二.1 科研平臺規劃

科研平臺建設的基本原則是科研為主,同時為教學實驗提供部分計算資源及安全資源,系統在授權範圍內共享科研系統的計算資源,提高教學實驗的真實性。

項目的總體架構如圖1所示。

技術分享圖片

圖1.總體架構圖

系統整體由千兆核心交換機作為核心節點,並以兩個千兆接入交換機作為科研與實驗環境的交換節點。科研環境由我司開發的商業Hadoop集群為基礎,上層集成便於操作的大數據科研應用系統,集成10TB大數據案例集及可拖拽的數據算法和可視化算法。

二.2 科研平臺功能規劃

本科研平臺針對數據挖掘有大數據分析研究內容,兼顧科研與教學的需求,既能滿足科研工作中對大數據分析高性能平臺要求也具有教學實驗平臺簡單易用的特點。

1) 大數據資源規劃

內置商業級數據資源,按常見科研分類規劃數據資源,可以直接用於科學研究,具有數據資源授權管控功能。

2) 大數據分析功能規劃

建設以商業版Hadoop為核心的大數據分析平臺,系統提供MapReduce以及Spark等大數據挖掘功能。系統具有完整的管理調度功能。

3) 硬件資源功能規劃

系統具有24個Intel Xeon E5 CPU計算能力,提供超過40TB的存儲能力以及1T以上的內存,可滿足1000任務共時計算內能,方便擴充。

三. 數據挖掘與大數據分析科研平臺建設方案

三.1 大數據科研平臺設備架構

技術分享圖片

圖3.設備架構

三.1.1 主節點和備份主節點

主節點負責整個分布式大數據平臺的運行。主節點始終在內存中保存整個文件系統的目錄結構,每個目錄有哪些文件,每個文件有哪些分塊及每個分塊保存在哪個計算上,用於處理讀寫請求。同時,主節點還負責將作業分解成子任務,並將這些子任務分配到各個計算節點上。備份主節點在主節點發生故障時承擔主節點的各種任務,使得分布式大數據平臺仍然能夠正常運行。

三.1.2 管理節點

管理節點用於管理整個分布式大數據平臺,可進行節點安裝、配置、服務配置等,提供網頁窗口界面提高了系統配置的可見度,而且降低了集群參數設置的復雜度。

三.1.3 接口節點

終端用戶通過接口節點連接和使用分布式大數據平臺,提交任務並獲得結果,並可以用其他數據分析工具做進一步處理,與外界進行數據交互(如連接關系型數據庫)。

三.1.4 計算節點

分布式大數據平臺包含了多個計算節點。計算節點是系統中真正存儲數據和做數據運算的節點。每個計算節點周期性地和主節點通信,還時不時和客戶端代碼以及其他計算節點通信。計算節點還維護一個開放的socket服務器,讓客戶端代碼和其他計算節點通過它可以讀寫數據,這個服務器還會匯報給主節點。

三.2 大數據科研平臺底層架構

大數據科研平臺低層架構以我司自主研發的商業版Hadoop為基礎架構,包含和大數據分析、數據挖掘、機器學習等功能模塊,並以HDFS以及Hbase作為存儲基礎。

技術分享圖片

圖2. 軟件架構

三.2.1 分布式持久化數據存儲——HDFS

Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件上的分布式文件系統。它和現有的分布式文件系統有很多共同點。但同時,它和其他的分布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取文件系統數據的目的。

三.2.2 分布式實時數據庫——HBase

HBase是一個分布式的、面向列的開源數據庫,該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統(所提供的分布式數據存儲一樣,HBase在Hadoop之上提供了類似於BigTable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系數據庫,它是一個適合於非結構化數據存儲的數據庫。另一個不同的是HBase基於列的而不是基於行的模式。

三.2.3 分布式資源調度管理——YARN

Yarn是Hadoop2.0的MapReduce 框架。YARN分層結構的本質是 ResourceManager。這個實體控制整個集群並管理應用程序向基礎計算資源的分配。ResourceManager 將各個資源部分(計算、內存、帶寬等)精心安排給基礎 NodeManager(YARN 的每節點代理)。ResourceManager 還與 ApplicationMaster 一起分配資源,與 NodeManager 一起啟動和監視它們的基礎應用程序。在此上下文中,ApplicationMaster 承擔了以前的 TaskTracker 的一些角色,ResourceManager 承擔了 JobTracker 的角色。

三.2.4 交互式SQL引擎——Hive

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

三.2.5 內存計算——Spark

Spark是UC Berkeley AMP實驗室所開源的類Hadoop MapReduce的通用的並行計算框架。Spark擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要叠代的MapReduce算法。

三.3 科研平臺的功能

三.3.1 科研項目管理

在科研平臺中,科研計算是以計算項目來保存的,包括了計算項目建立、計算項目維護、計算項目設計、計算項目運行和結果可視化等幾個環節。從技術角度來說,計算項目中也包括了算法組件、算法流程和數據集,一旦設計完後,就可用於計算,後期還可以調整算法和基於新的數據資源進行計算。

計算項目完成後,可以訓練出算法模型,在新的計算項目中使用已經訓練好的模型進行數據的預測,形成一次訓練多次使用的算法實現。

三.3.2 平臺內置數據集

在科研工作中,如何獲取到海量高質量大數據資源是最大的難點。目前在互聯網等渠道是很難找到科研工作所需的數據源,尤其是經過數據清洗和治理後的高質量數據。

數據超市平臺利用以下模式,通過外部的資源,為高校的科研工作提供優質數據資源:

1)通過商務合作的模式,直接與數據所有權擁有者進行靈活的商務溝通,獲得科研的數據使用授權;

2)邀請行業內優質的第三方數據服務提供商入駐數據超市平臺;

3)通過數據采集的方式,經過數據尋源、采集、治理、清洗後,引入具有公開版權的數據資源;

所有引入數據都會經過數據工程師的嚴格審核,保證數據的清潔和質量,可以直接用於數據計算。

如平臺內置的專利數據,包括了國內近2000萬各類商業數據,並且不斷更新,可以直接用於旅遊各方面的科學研究。有別區目前行業提供的數據庫,數據超市直接提供了原始的數據,可以打通其他的行業數據,用於深層次的數據分析和經濟預測。

三.3.3 科研數據上傳

科研老師已有的數據可以上傳到平臺參與數據計算,老師可以在平臺上建立數據表,然後把本地數據文件上傳到數據表中。也可以維護外部的JDBC數據源,平臺會把外部數據自動抽取到平臺中進行計算和預測。

三.3.4 集成算法組件

為了便於科研老師快速進行科研數據的加工、分析和計算,數據超市平臺集成了50多種通用大數據算法組件,包括回歸算法、分類算法、聚類算法、關聯規劃算法、推薦算法、預測評估、數據預處理算法、機器學習等。所有的算法無須重新編程,只需要拖拽繪圖完成即可進行計算,如下圖:

技術分享圖片

算法組件經過配置可以實現強大的自定義計算功能和效果,調整後的模型可以完成老師需要的數據分析和預測。

技術分享圖片

三.3.5 科研平臺可視化功能

提供20余種可視化展示模式,一鍵選擇,一鍵切換,可按使用者需求展示大數據之美,根據需要展示對應的緯度,並可以一鍵生成高質量PNG文件,保存到本地後可用於科研報告和論文等。

技術分享圖片

四. 平臺數據集清單

科研平臺為方便用戶快速開展科學研究、生成科研數據報告,平臺提供了一些通用的數據集,包括各類標準科研數據等。

平臺也內置了數百款可選數據集,分為多個數據包,總量近10TB,並且隨商務和采集工作推進,仍在不斷增加中。

五. 定制數據服務

根據科研老師的需求,數據超市平臺提供數據采集和商務合作等定制數據引入模式,數據引入後,可以直接引入數據超市,由老師來進行使用。

如老師需要旅遊服務評價類數據進行服務情況的分析和預測,可以直接通過數據超市內的數據定制模塊提出數據需求,經數據超市平臺管理員匯總後,可以通過數據超市平臺進行數據的準備,交給老師進行使用。

六. 科研平臺算法清單

平臺集成的算法包括72種,全部來自科研網站,經過了商業機構的驗證,引入平臺後完成了分布式優化,可以高效執行,詳細如下表:
技術分享圖片
技術分享圖片
技術分享圖片
技術分享圖片
在科研平臺中可以查看具體的算法,還包括算法的介紹、輸入、輸出和使用方法和適用場景等信息。

技術分享圖片

旅遊研究院大數據挖掘與分析科研平臺建設方案