開源大資料週刊-第100期
摘要: 資訊 領英開源TonY:構建在Hadoop YARN上的TensorFlow框架領英在 YARN 上構建了一個 TensorFlow 框架 TonY 並將其開源。本文介紹了 TonY 的內部細節、領英實現並用來在 Hadoop 上擴充套件分散式 TensorFlow 的功能以及實驗結果。
資訊
- ofollow,noindex" target="_blank">領英開源TonY:構建在Hadoop YARN上的TensorFlow框架
領英在 YARN 上構建了一個 TensorFlow 框架 TonY 並將其開源。本文介紹了 TonY 的內部細節、領英實現並用來在 Hadoop 上擴充套件分散式 TensorFlow 的功能以及實驗結果。 - Databricks:96%的企業在執行AI專案時面臨著資料相關的問題
Databricks釋出了美國和歐洲大型公司的AI難題的調查結果。只有1/3的人工智慧專案取得了成功,更重要的是企業從概念轉向生產需要六個多月。這些挑戰背後的主要原因是96%的企業面臨著資料相關的問題,如孤島和不一致的資料集。80%的企業引發了重大的組織摩擦,如資料科學家和資料工程師之間缺乏協作。90%的受訪者表示在整個機器學習生命週期中統一資料科學和資料工程的方法將克服AI難題。 - Spark、Flink、CarbonData技術實踐最佳案例解析
作為Spark Structured Streaming最核心的開發人員、Databricks工程師,Tathagata Das(以下簡稱“TD”)在開場演講中介紹了Structured Streaming的基本概念,及其在儲存、自動流化、容錯、效能等方面的特性,在事件時間的處理機制,最後帶來了一些實際應用場景。
技術
- 如何構建一個企業的大資料分析平臺
大資料分析處理平臺就是整合當前主流的各種具有不同側重點的大資料處理分析框架和工具,實現對資料的挖掘和分析,一個大資料分析平臺涉及到的元件眾多,如何將其有機地結合起來,完成海量資料的挖掘是一項複雜的工作。在搭建大資料分析平臺之前,要先明確業務需求場景以及使用者的需求,通過大資料分析平臺,想要得到哪些有價值的資訊,需要接入的資料有哪些,明確基於場景業務需求的大資料平臺要具備的基本的功能,來決定平臺搭建過程中使用的大資料處理工具和框架。 - 30PB資料1年內遷移到Spark,eBay的經驗有何可借鑑之處?
eBay 使用 Teradata 已經有二十年的歷史,這個數倉系統中積累了 60PB 資料和上萬張核心表,他們支撐著 eBay 最核心的商務邏輯和站點功能。從今年開始,eBay 開始將這個龐大的數倉由 Teradata 向 Spark 做遷移,使用 eBay 自己開發的工具,遷移過程中 90% 的工作都可以由自動化完成。與此同時,研究人員通過優化 Spark 框架,節省了一半的記憶體。 - 比拼生態和未來,Spark和Flink哪家強?
在前一篇文章《Spark 比拼 Flink:下一代大資料計算引擎之爭,誰主沉浮?》中,作者對 Spark 和 Flink 的引擎做了對比。但對於使用者來說,引擎並不是考慮資料產品的唯一方面。開發和運維相關的工具和環境、技術支援、社群等等,對能不能在引擎上面做出東西來都很重要,這些構成了一個產品的生態。可以說,引擎決定了功能和效能的極限,而生態能讓這些能力真正發揮出作用。。 - 喜大普奔!TensorFlow終於支援A卡了
近日,Google 宣佈推出適用於 ROCm GPU 的 TensorFlow v1.8,其中包括 Radeon Instinct MI25。對於 AMD 正在進行的深度學習加速工作而言,這是一座重大的里程碑。 ROCm 即 Radeon 開放生態系統 (Radeon Open Ecosystem),是我們在 Linux 上進行 GPU 計算的開源軟體基礎。而 TensorFlow 實現則使用了 MIOpen,這是一個適用於深度學習的高度優化 GPU 例程庫。

用雲棲社群APP,舒服~
【雲棲快訊】誠邀你用自己的技術能力來用心回答每一個問題,通過回答傳承技術知識、經驗、心得,問答專家期待你加入! 詳情請點選