1. 程式人生 > >大資料和雲端計算技術週報(第55期)

大資料和雲端計算技術週報(第55期)

寫在第55期“大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、儲存、網路都涉及,知識點廣、學習難度高。

本期會給大家奉獻上精彩的:HBase、Spark、推薦演算法、ET農業大腦、Hive、快取架構、資料安全、LVS、Nginx、HAProxy、Alluxio、MongoDB。全是乾貨,希望大家喜歡!!!

#大資料和雲端計算技術社群#希望通過堅持定期分享能幫助同學在大資料學習道路上盡一份微博之力。相信長期堅持認真閱讀週報的同學,在技術的道路上一定會日益精進!感謝編輯們的長期堅持!也請同學們繼續打賞,支援社群,支援編輯們持續奉獻高質量知識!

#大資料和雲端計算技術社群#長期招募有興趣參與社群編輯和運營的同學,歡迎掃描文末二維碼聯絡(參與社群工作,收穫知識和進步,還有紅包哦

)。

特別提醒,文末有驚喜!

以下是正文,限於眾編輯水平有限,不保證大家都喜歡。

1HBase

①任何系統都會有各種各樣的問題,有些是系統本身設計問題,有些卻是使用姿勢問題。HBase也一樣,在真實生產線上大家或多或少都會遇到很多問題,有些是HBase還需要完善的,有些是我們確實對它瞭解太少。總結起來,大家遇到的主要問題無非是Full GC異常導致宕機問題、RIT問題、寫吞吐量太低以及讀延遲較大。

https://www.cnblogs.com/yingjie2222/p/6084255.html

640?wx_fmt=jpeg

②本文介紹了Accordion的基本原理,配置,效能增益以及記憶體壓縮演算法的一些細節

https://mp.weixin.qq.com/s/QeVBS3RMUrLLCJJka-hFnA

640?wx_fmt=jpeg

③基於時間線一致的高可用讀(Timeline-consistent High Available Reads),又稱Region replica,為HBase帶來了高可用讀的能力。本文主要介紹region replica這個功能設計的背景,技術細節和使用方法,同時會仔細分析這個功能的優缺點並給出使用建議。

https://mp.weixin.qq.com/s/pEP3F6bwxbfkA-hRLfZDtQ

640?wx_fmt=jpeg

2Spark 

①Spark 作為一個基於記憶體的分散式計算引擎,其記憶體管理模組在整個系統中扮演著非常重要的角色。理解 Spark 記憶體管理的基本原理,有助於更好地開發 Spark 應用程式和進行效能調優。本文旨在梳理出 Spark 記憶體管理的脈絡,拋磚引玉.

https://m.aliyun.com/yunqi/articles/598484

640?wx_fmt=jpeg

②本文主要為作者在搭建使用計算平臺的過程中,對於 Spark 的理解,希望能給讀者一些學習的思路

https://mp.weixin.qq.com/s/lGoQekpLgoJmPEnmWh4tXQ

640?wx_fmt=jpeg

3推薦演算法 

本文分別介紹了推薦系統、知識圖譜、以及知識圖譜在推薦系統中的應用價值。作為推薦演算法的輔助資訊,知識圖譜的引入可以極大地提高推薦系統的精準性、多樣性和可解釋性。

https://mp.weixin.qq.com/s/X-TIUwVje_2JgY3QDkqVpQ

640?wx_fmt=jpeg

4ET農業大腦 

阿里雲釋出ET農業大腦,已經將AI領域擴充套件到農業領域中。傳統的農業也面臨著AI大潮。

https://mp.weixin.qq.com/s/1cWKXLTGEftCQvwPX38OpA

640?wx_fmt=jpeg

5Hive 

 本文介紹了Hive的基本概念、架構、執行機制、與傳統資料庫關係對比、下載安裝與配置以及幾個重要的DDL操作,用簡潔的語言和豐富的圖文形式向讀者介紹了Hive的入門方法。

https://blog.csdn.net/qq_38344394/article/details/80604047

640?wx_fmt=jpeg

6快取架構 

微博日活躍使用者1.6億+,每日訪問量達百億級,面對龐大使用者群的海量訪問,良好的架構且不斷改進的快取體系具有非常重要的支撐作用。

https://mp.weixin.qq.com/s/YxGeisz0L9Ja2dwsiZz01w

640?wx_fmt=jpeg

7資料安全 

本文從精準營銷這一典型大資料應用場景剖析了大資料的資料安全和演算法的應用

https://mp.weixin.qq.com/s/jTv9kWDKcCSGx6eFgZZYTA

640?wx_fmt=jpeg

8LVS、Nginx、HAProxy 

VS、Nginx、HAProxy 是目前使用最廣泛的三種軟體負載均衡軟體。這篇文章詳細接受了這幾種不同的負載均衡的方式。

https://mp.weixin.qq.com/s/bgRmPJRg-n2gpkrzvZgQWA

640?wx_fmt=jpeg

9Alluxio 

Alluxio統一了底層不同儲存系統,並對於深度學習框架提供如同本地資料夾一樣的資料訪問方式。利用Alluxio,資料科學家可以在不折中效能的情況之下,便捷地訪問各種存底層儲系統中的資料。

https://mp.weixin.qq.com/s/xx3pePUreizo0_boILt25g

640?wx_fmt=jpeg

10MongoDB 

MongoDB的BSON儲存格式的特性,BSON儲存結構邏輯;Aggregation統計分析例子;ObjectId物件的結構。

https://www.jianshu.com/p/93781163bef4

640?wx_fmt=jpeg

011開心一刻 

 一哥們跟媳婦離婚了,媳婦給了他一張紙條,上面寫著:

145X154÷D2:1G

……………………………………………

這哥們花費了幾年的時間,才整明白啥意思:

一事無成一無是處的二逼一個。

太TMD深奧了 沒文化真可怕!

640?wx_fmt=jpeg

致謝:

魏巨集斌、薛述強、劉彬、劉超、廖程鵬、董言、呂西金、朱潔、藍隨、黃文輝

640?wx_fmt=png

猜你喜歡

加入技術討論群

《大資料和雲端計算技術》社群群人數已經3000+,歡迎大家加下面助手微信,拉大家進群,自由交流。

640?wx_fmt=jpeg

喜歡QQ群的,可以掃描下面二維碼:

640?wx_fmt=jpeg

歡迎大家通過二維碼打賞支援技術社群(英雄請留名,社群感謝您,打賞次數超過108+):

640?wx_fmt=jpeg