1. 程式人生 > >BDTC 2017資料庫:猶他大學、東方國信、螞蟻金服、微軟、人大金倉暢談資料庫發展與實踐...

BDTC 2017資料庫:猶他大學、東方國信、螞蟻金服、微軟、人大金倉暢談資料庫發展與實踐...

【CSDN現場報道】12月7-9日,由中國計算機學會主辦,CCF 大資料專家委員會承辦,中國科學院計算技術研究所、中科天璣資料科技股份有限公司、CSDN協辦的2017中國大資料技術大會(BDTC 2017),在北京新雲南皇冠假日酒店隆重舉行。本次大會以“大資料與智慧為主題,聚焦最純粹的技術乾貨分享,和最接地氣的深度行業案例實踐,匯聚國內外頂尖技術專家,共論最新的大資料技術實踐與發展趨勢。

圖片描述

華東師範大學副校長、資料科學與工程學院院長、教授、博士生導師 周傲英

12月9日的資料庫分論壇,周傲英作為資料庫論壇主席,為整個論壇做了精彩的開篇綜述。他從專業的角度闡述了什麼是資料庫,資料庫的教訓是什麼,資料庫基本理念是什麼,網際網路如何改變資料庫的,為什麼做這個論壇,實踐給我們帶來了什麼啟示,區塊鏈在其中起到了什麼作用,現時代資料庫面臨著哪些發展的機遇。

上午場

建立互動和線上分析系統

圖片描述

猶他大學計算機系副教授

目前擔任ACM TODS和IEEE副編輯的李飛飛,分享了《Towards Building Interactive and Online Analytical Systems》(譯《建立互動和線上分析系統》)的主題分享。

支援大資料互動查詢和分析,是許多資料驅動應用程式的重要需求。但在大資料時代,基於IO優化的外部儲存器模型由於高時延不再有效,新系統(如Spark,Impala)將更依賴於商用叢集的記憶體計算來提供橫向擴充套件的互動式資料分析。在大時空資料的背景下,李飛飛提出的Simba系統,提供了一個叢集上的可擴充套件和高效的記憶體分析。Simba擴充套件了Spark SQL引擎,通過SQL和DataFrame API(例如,空間連線,knn連線,軌跡)支援豐富的查詢和分析語義。通過設計一個有效的查詢優化器,利用其索引支援和查詢優化。

此外,Simba系統還可以提供線上分析功能。通過支援複雜的多路連線查詢和連線上的隨機取樣的線上聚合技術探索準確性。最後,李飛飛展示Simba的下一步擴充套件,包括大資料的時空學習和情感分析。

面向行業大資料需求的資料庫系統新特性

圖片描述

東方國信首席架構師 金正皓

在大資料背景下,各個行業使用者應用場景呈現出以資料為中心、多場景融合的特點,傳統資料庫無法完全支撐,IT系統建設多采用異構混搭架構,難於建設和維護,這對資料庫平臺提出了更多的要求。針對這些行業痛點,東方國信首席架構師金正皓為大會帶來了《面向行業大資料需求的資料庫系統新特性》的主題分享,結合XCloud DB在多個行業中的應用案例,介紹融合場景下資料庫系統的新特性。

隨著大資料技術的發展與企業需求的複雜化,構建統一支撐的企業級一體化大資料平臺正成為未來發展趨勢。企業經營下沉的場景要求企業資料中心的服務能力全面提升,企業為了激發基層單元活力,將經營下沉,構建面向劃小單元的統一運營體系、精準資料服務、移動資訊化平臺、簡易快速的營銷服務能力的IT服務支撐。海量資料物理集中,面臨高額的建設成本和海量資料上傳網路壓力的情況下,跨域分析計算帶來的新機遇。在雲端計算中,通過XCloud DB可開放資料計算能力供租戶內私有資料集市使用,實現跨域的統一元資料管理,跨域統一任務排程,分散式事務管理,網路安全傳輸,資料管理,任務協同等工作。

最後,金正皓認為,東方國信將依託行業需求,和自身的資料庫技術能力,助力企業大資料能力體系提升,為企業提供大資料快速有效的解決方案。

網際網路時代的關係資料庫實踐

圖片描述

螞蟻金服高階研究員 陽振坤

做資料庫是個很苦逼的事情,客戶問,你們的資料庫會不會錯?不會錯。怎麼證明?沒法證明,只能用了才能證明。”使用者的信任度很差,除此之外,更換代價大、風險高、收益小,客戶缺乏更換資料庫的動力。陽振坤針對這些問題,分享了《網際網路時代的關係資料庫實踐》的主題演講。

過去幾十年,關係資料庫系統得到了迅速發展,支撐了金融、政府、通訊、交通以及商業企業等的執行,成為了當今資訊社會舉足輕重的關鍵資訊基礎設施。然而,傳統關係資料庫系統不僅成本非常高昂,還缺乏伸縮能力,在網際網路時代,由於併發量成百上千倍地增加,這些缺陷得到了成百上千倍的放大。

分散式關係資料庫OceanBase是螞蟻金服對傳統關係資料庫的上述缺陷的創新嘗試,不僅在螞蟻金服的包括交易、支付、帳務和會員等在內的核心繫統中全面取代了傳統商業資料庫,支撐了螞蟻金服2017年的雙11,創造了每秒25.6萬筆支付以及每秒處理4200萬條SQL的世界記錄,還開始在外部商業銀行使用。

區塊鏈與共享經濟

圖片描述

微軟亞洲研究院主管研究員 微軟Coco區塊鏈中國負責人 閆鶯

近年來,區塊鏈技術備受關注。特別是2017年,幾乎每個行業都在積極地探索區塊鏈技術,渴望從中挖掘出新的運營模式和商機。“分享經濟”作為當今火熱的商業模式能夠借力區塊鏈技術,達到“信任”和“共享”,進而更迅速的發展嗎?閆鶯通過《區塊鏈與共享經濟》從資料庫的角度:區塊鏈是什麼樣的資料庫?區塊鏈與共享經濟、共享資料庫的隱私保護三方面,和參會者進行了分享。

首先,閆鶯介紹了區塊鏈的概念,它是一個安全可信、共享、分散式的賬本,具備分散式+可信+共享的資料庫,常見場景有金融、政府、醫療、零售等。

如何最大化利用先進的資料庫技術?通過以太坊的智慧合約,不同的場景用不同設計方案。公有鏈、聯盟鏈的技術各有優缺點,不同信任的假設,將會產生不同的實施方案。

聯盟鏈+BaaS方案,這樣的聯盟鏈,依託雲來解決複雜的系統部署,使用者節點有對資料完全控制權。

聯盟資料庫方案,聯盟資料庫充分利用傳統資料庫的優勢,資料中心化管理,使用者共有資料和許可權,可以制定規則與投票。

完全可信,那就是傳統資料庫方案。

圖片描述

去中心化的共享經濟(Airbnb、共享儲存等)後的隱私如何保護?2017年8月紐約釋出的微軟Coco(confidencial、Consortium)區塊鏈基礎平臺,將降低企業級區塊鏈整合和使用的門檻,解決企業商用的需求。Coco Framework的特性如下:

  1. 基礎trust平臺,整合不同的區塊鏈協議(EthereurmHyperledger),來解決他們的隱私和效能
  2. 利用了可信計算技術(TEE),硬體Intel SGX,軟體Windows Virtual Secure Mode (VSM)
  3. 開源

閆鶯總結,區塊鏈是解決信任的資料庫,不同場景下不同實現方式;
區塊鏈可以更好的解決共享經濟的信用和分享;微軟嘗試硬體解決方案,更加完善和高效的解決共享資料庫的隱私保護問題。

網際網路時代的金倉資料庫實踐

圖片描述

人大金倉總裁 任永傑

網際網路給IT系統及支撐其的資料庫系統帶來了巨大的挑戰和全新的需求,包括:

  • 應用場景、資料格式多樣化,單一型別的資料庫產品難以同時滿足所有應用需求;
  • 隨著移動網際網路的普及,終端裝置規模急劇增加,應用負載和資料規模成數量級的增長,遠遠超出傳統資料庫的處理能力;
  • 雲端計算推動IT資源管理走向集約化、按需服務的方式,資料庫必須具備彈性伸縮、自調整的能力以適應雲的管理方式。

人大金倉總裁任永傑通過《網際網路時代的資料庫挑戰與發展、金倉資料庫實踐》的報告,探討了資料庫系統如何應對這些新的需求和挑戰,並紹人大金倉資料庫在網際網路時代的主要實踐。

網際網路應用需求推動資料庫從量變到質變的變化:儲存架構、計算架構在改變,但資料庫的整體層次架構基本不變;One Size Does Not Fit All:計算架構與儲存架構的分離、多樣化與組合。

分析型資料庫KADB的關鍵技術包括:

  • 大規模並行處理:基於資料流分解的並行、動態資料重分佈、分散式關係代數
  • 記憶體列儲存引擎:記憶體列儲存組織、條件過濾:直接遍歷事實表、條件過濾:先遍歷維表、分組聚集

最後,任永傑總結,網際網路的浪潮帶來眾多的應用需求變化,對資料庫技術提出多方面的挑戰,也為國產資料庫廠商實現趕超提供了歷史性的機遇。

下午場

大資料時代分散式資料庫技術的演變和發展

圖片描述

星環科技創始人,董事長 孫元浩

星環科技創始人,董事長孫元浩帶來了主題為《大資料時代分散式資料庫技術的演變和發展》的分享。他表示大資料時代資料處理的需求和特點:1、增量式的、幾乎無限的擴充套件性,2、要求系統總是線上執行,3、靈活可動態改變的資料模型。

之後,他介紹,在大資料場景下,資料庫實現技術經歷的三次變革,包括從:並行關係資料庫到,MPP資料庫,最後,他以星環的Inceptor分散式分析型資料庫為例,介紹瞭如何實現大規模資料的複雜運算和分散式事務,如何優化資料庫並完整通過TPC-DS測試。

最後,對於大資料和容器雲的結合,他也介紹了其核心優勢包括:

1、全容器化 – devops, 部署更方便、更新迭代更方便、多版本共存;2、微服務化 – hadoop每個儲存或計算引擎組成一個微服務,通過組裝多個微服務以及自動處理服務之間的依賴,快速構建服務叢集;3、資源隔離 – 通過容器技術對CPU、記憶體進行隔離,防止多使用者之間的資源搶佔和干擾;4、彈性擴充套件 – 擴容更迅速;5、更通用 – 可以支援tensorflow、mxnet、spark、inceptor等多種不同語言開發的計算引擎;6、無效能損失。

Oracle資料庫——賦能全生態, 智構雲體驗

圖片描述

甲骨文(中國) 軟體系統有限公司 中國區雲平臺數據專家事業部總經理 李輝

甲骨文(中國) 軟體系統有限公司 中國區雲平臺數據專家事業部總經理李輝《Oracle資料庫——賦能全生態, 智構雲體驗》。

他表示,Oracle RTD 的核心優勢有:複合決策機制,基於預測模型(自動)和業務規則(人為控制)的複合推薦機制;2、電商支援,預置可擴充套件的電商推薦模型;3、適應網際網路架構叢集方式部署,為網際網路應用特點設計,適應網際網路架構的非同步呼叫方式,提供毫秒級響應;4、開放性,可以呼叫R指令碼提供外部資料探勘模型支援可以納入SAS等第三方資料探勘工具的運算結果;5、管理分析功能,內建營銷活動管理和營銷分析功能。

最後對於RTD 場景特徵,他總結如下:分類問題,實時決策,”決策-反饋”閉環,每次決策多種選項(Choices)。

PaxosStore : 微信高可用分散式資料庫架構

圖片描述

微信技術架構部後臺開發中心總監 許家滔

微信技術架構部後臺開發中心總監許家滔的演講主題為《PaxosStore : 微信高可用分散式資料庫架構》。他表示,PaxosStore是一個在跨園區資料中心間同步複製,提供靈活的資料模式和訪問介面並支援單表億行,具備快速伸縮能力,低延遲低成本,強一致和高可用的分散式儲存系統。

其主要特點:1、極致的高可用,多主服務,通過無租約的Paxos實現;2、同一容災、擴充套件框架下,支援多種外掛化儲存引擎;3、通過業務場景適配不同的儲存引擎,達到高效能;4、快速伸縮能力,基於反饋的自適應遷移系統。

目前PaxosStore在微信內部廣泛部署、數千臺機器;每天數萬億的讀寫量、峰值1億+/秒;PB級的結構化資料、全球多個數據中心。

接著,他對PaxosStore設計的功能介紹、可用性、可擴充套件性、儲存引擎都詳細作了分享,最後給出了案例。

X-DB: 阿里巴巴新一代自研分散式關係型資料庫

圖片描述

阿里巴巴高階技術專家 黃貴

阿里巴巴高階技術專家黃貴分享的主題為《X-DB: 阿里巴巴新一代自研分散式關係型資料庫》。

對於什麼是X-DB,他表示,X-DB是阿里巴巴自研高效能分散式資料庫,其願景是成為世界最快、成本最低的OLTP資料庫。對於設計理念,他介紹道,主要關注使用者使用效率,全面相容MySQL生態,其次,關注軟硬體Co-Desion,充分發揮硬體效率

另外,X-DB核心指標包括全面相容MySQL生態體系,10倍的MySQL事務處理效能,百萬TPS,MySQL 1/10的儲存成本,集高可用、資料強一致、分散式、資料生命週期管理能力於一體。

在今年的雙11中,X-DB也得到應用。在資料庫彈性排程方面,通過儲存計算分離和容器化技術,讓資料庫也具備了彈性排程的能力,阿里是業界第一個讓資料庫具備彈性排程能力。值得一提的是,X-DB讓資料庫突破地域的限制,可以跨AZ、甚至跨Region部署,在提供高效能的同時保證資料的強一致性。X-DB是業界第一個使用該技術支援雙11如此大規模併發訪問的資料庫。

美團點評資料庫智慧運維探索與實踐

圖片描述

美團點評高階技術專家 趙應鋼

美團點評高階技術專家趙應鋼帶來的分享主題為《美團點評資料庫智慧運維探索與實踐》。他的分享主要包括三個層面:1、資料庫平臺的演變;2、現狀和麵臨的挑戰;3、從自動化到智慧化。

對於資料庫平臺的演變,主要經歷了指令碼化、工具化、產品化、自助化、自動化階段。這其中,傳統的資料庫運維方式已經越來越難於滿足業務方對資料庫的穩定性、可用性、靈活性的要求。隨著資料庫規模急速擴大,各種NewSQL系統上線使用,運維跟不上業務發展的矛盾暴露的更加明顯。具體來說,挑戰首先來自RootCause定位難,其次主要是來自人才和發展困境。因此,突破困境的辦法就是轉型智慧化。對於如何轉型智慧化,他也分享了一些實踐。最後,他也強調,資料庫平臺的運維將長期處於自助化、自動化、智慧化的交疊前進狀態。

滴滴資料庫實踐

圖片描述

滴滴出行資料庫開發團隊負責人 黃欣

滴滴出行資料庫開發團隊負責人黃欣分享的主題為《滴滴資料庫實踐》。

他表示,滴滴發展到今天5年,資料庫真正發展是從2016年中開始的,滴滴比較年輕,發展步驟也比較快,原則就是簡單高效加開源,另外,會做一些深入二次開發,希望通過這樣的方式來實現彎道超車。

接著,黃欣整體分享了一下滴滴現有DB技術的架構和演進。同時,為了更好的解決滴滴的核心業務痛點,滴滴做了哪些事情?主要包括:優化了osc、實現了外接二級索引系統、演進了schemaless系統等。

網際網路時代的資料庫擴充套件能力

圖片描述

華東師範大學資料科學與工程學院教授 周烜華

華東師範大學資料科學與工程學院教授周烜華帶來了主題為《網際網路時代的資料庫擴充套件能力》的分享。他表示負載激增是資料庫系統在網際網路時代所面臨的巨大挑戰,Instagram釋出當天6小時伺服器滿負荷;首日使用者接近4萬。

他通過發問的方式展開自己的論述,比如:資料庫的擴充套件和上層應用的擴充套件是相互獨立的嗎?資料庫可以具備普適擴充套件能力嗎?即面對任意形態的資料和負載;資料庫可以根據資料和負載的形態自動分裂自動擴充套件嗎?他認為,自動調優(Self-Tuning)在資料庫領域有超長的研究歷史和極少的實用成果。

另外,他總結道:NoSQL:便於擴充套件,但表達能力弱、無ACID。SQL:表達能力和ACID,但不便於擴充套件。但是,NoSQL的使用方式更便於程式設計師整合資料庫與應用的擴充套件能力。

對於未來資料庫系統應該長什麼樣?他認為,系統設計的核心是取捨,任何系統都需要在功能、效能、易用性上做取捨。

更多精彩內容,請關注直播專題,
新浪微博@CSDN
觀看大會圖文直播,請掃描二維碼關注CSDN資訊微信公眾號。

圖片描述

圖片描述