TAO: Facebook'sDistributed Data Store for the Social Graph

阿新 • • 發佈：2019-01-24

作者：劉旭暉 Raymond 轉載請註明出處

== 目標問題 ==

TAO的目標問題是構建一個在Facebook這樣大規模的社交類分散式應用服務中，能夠從海量相關聯的資料中高效的生成精確定製化內容的資料倉庫。其應用場合具有全球性，海量動態變化資料，高併發查詢等特性。

== 核心思想 ==

Facebook的社交網路服務的資料模型是基於物件和物件之間的關聯來構建的。資料主要表現為物件和關聯兩類，物件如使用者，圖片，帖子，評論，一次checkin等等，關聯就是各種物件之間的關係，朋友阿，誰的帖子阿，針對哪個帖子的評論啦等等。所有物件和關聯都有一個ID欄位作為唯一標識。

在這種應用模型下，各種離散的資料之間都有眾多的關聯關係，難以簡單的分類處理，最終的應用展現也千變萬化，因此眾多的工作不是在更新資料時完成，而只能在查詢時再進行處理，所以是一個

read dominate的過程。

Facebook原有的框架靠應用程式分別與MySQL和Memcached伺服器互動來管理和快取資料。問題在於memcached不能有效的利用上這種物件關聯模型的資訊，各個client也不能有效地全域性規劃管理cache，在資料更新後的一致性方面也存在較高的代價。

TAO依舊以MySQL為底層資料庫來儲存資料，資料以ID劃分到眾多的shard上，每個MySQL伺服器負責管理若干個Shard，TAO的快取層中，多臺Cache伺服器組成一個Tier，一個Tier包含了支援所有TAO操作請求所需的資訊。客戶端程式通過類似的Shard演算法與特定的Cache伺服器通訊，由

Cache伺服器完成資料的讀寫請求以及與MySQL資料庫的互動。

== 實現 ==

為了提高併發處理的能力，TAO的快取層實際由兩級的Tier組成（一個Leader和多個Follower），客戶端與就近的Follower Tier通訊，而FollowerTier將寫請求轉發通過Leader Tier完成，讀請求主要由Follower Tier完成，除非有資料Miss不在快取中的，才向Leader Tier傳送請求。

可以看到Followers並不與資料庫互動。為了適應全球化的佈局，減少全域性網路通訊延遲帶來的影響，TAO的資料庫和快取層實際上如上圖所示，又進一步劃分為Master/Slave Region

，每個Region都有上述的兩極Tier，所有的寫操作必須通過Master Region的Leader來完成，再非同步同步給Slave Region的資料庫，讀操作則由Slave Region本地完成，如果本地資料庫沒有及時被更新，則有可能讀取的是過時的資料。

以上Region的劃分是增對每一個Shard，不同的Shard可能由不同的Master負責，由於關聯的更新操作可能涉及多個Shard，為了減少通訊開銷，所有的Master還是傾向於分配在同一個Region內部。

值得注意的是，每個Region都需要有完整的資料，而因為資料量巨大，所以單個Region可能是由多個地域上接近的資料中心組成的。

== 相關研究，專案等 ==

由於快取層的存在，由RMDBS資料庫（這裡的MySQL）保證的ACID方面的指標，在一定程度上被減弱了。當然根據CAP理論，這也是大規模分散式資料庫不可避免的問題，通常都會降低一致性要求。在TAO中，犧牲C不完全是出於滿足AP的要求，很大一部分的原因是為了解決latency的問題，類似於這裡說的：http://dbmsmusings.blogspot.com/2010/04/problems-with-cap-and-yahoos-little.html

其它全球規模的資料庫，如Google的Megastore，Spanner等系統，通過Paxos，GPS，原子時鐘等各種機制保證資料的讀寫一致性。而從上面可以看到TAO在資料一致性方面，採用的是漸進一致性，存在讀取過時資料等各種問題，整體的多層框架也有拼湊的感覺，但總體上來說，一切還是為了最大化海量併發請求下的吞吐率所做的妥協。

TAO: Facebook'sDistributed Data Store for the Social Graph

作者：劉旭暉 Raymond 轉載請註明出處 == 目標問題 == TAO的目標問題是構建一個在Facebook這樣大規模的社交類分散式應用服務中，能夠從海量相關聯的資料中高效的生成精確

TAO: Facebook's Distributed Data Store for the Social Graph論文閱讀筆記

Several fundamental problems 在TAO之前，Facebook用的主要的快取系統就是Memcache，但是像Memcache這一類的lookaside cache（旁路快取系統）存在著一些問題： Inefficient edge

R語言統計入門課程推薦——生物科學中的資料分析Data Analysis for the Life Sciences

Data Analysis for the Life Sciences是哈佛大學PH525x系列課程——生物醫學中的資料分析(PH525x series - Biomedical Data Science )，課程全部採用R語言進行統計分析理論教學與實戰。教材採用Rmarkdo

【NDN IoT】Caching in Named Data Networking for the Wireless Internet of Things

2016年10月28日 22:31:39 魏曉蕾閱讀數：1533 <span class="tags-box artic-tag-box"> <span class="label">

[CareerCup] 10.2 Data Structures for Large Social Network 大型社交網站的資料結構

10.2 How would you design the data structures for a very large social network like Facebook or Linkedln? Describe how you would design an algorithm to sh

How to Use the Facebook Budget Optimization Tool for Improved Results : Social Media Examiner

Wondering how to allocate your budget to reach the most effective Facebook audiences? Facebook's Budget Optimization tool uses an algorithm to automaticall

《Toward an SDN-Enabled Big Data Platform for Social TV Analysis》--2015--Han Hu

man 開關衍生背景虛擬機授權關系獲取實體《面向應用於社會TV分析的應用了SDN的大數據平臺》 Abstract social TV analytics 是什麽，就是說很多TV觀眾在微博、微信和推特等這些地方分享他們的觀感時，然後有人就對這個進行挖掘分析，這

TensorBoard:No dashboards are active for the current data set.解決

在pycharm終端上執行tensorboard --logdir=Intermediate Tutorials/logs後，開啟網頁後出現錯誤借鑑https://blog.csdn.net/qq_26645205/article/details/79424404 如果路徑中有空格，就會

First look: Facebook unveils Portal video calling devices for the home with Alexa

That's the blunt response I got from a colleague moments after I started to tell her about Facebook's Portal and Portal, the new voice-controlled, video-ca

Rewriting Excel for the era of big(ger) data

Rewriting Excel for the era of big(ger) dataThe spreadsheet may very well be the biggest innovation after the personal computer itself. Spreadsheets are us

windows 下 Tensorboard 無法顯示資料（No dashboards are active for the current data set）

問題 No dashboards are active for the current data set 原因及解決通常是由於執行命令時，指向的路徑存在問題，因此這裡建議採用以下

No dashboards are active for the current data set. 解決tensorboard無法啟動和顯示問題（pycharm啟動）

我在學習過程中遇到了tensorboard無法啟動的問題。按照網上的教程，我無法正常啟動tensorboard，全過程沒有報錯，但是開啟tensorboard顯示 No dashboards are active for the current data set. 如下圖： &

Windows下tensorBoard不顯示問題解決辦法：No dashboards are active for the current data set

tensorBoard是TensorFlow的視覺化工具，對理解我們編寫的TensorFlow程式有很大幫助，今天我試運行了一下TensorFlowBoard，出現一下錯誤：以下是可能導致錯誤的原因： 1、確保你寫入的事件資料夾裡面有檔案，即Tenso

[CSS] Showing horizontal scrollbar always for the table

nbsp overflow tab spl spa horizon clas pre idt table { display: block; overflow: scroll; width: 200px; height:95vh;

Render a controller in Twig - Unexpected “render” tag - expecting closing tag for the “block” tag defined

lin ack defined for ont per -i undle control Render a controller in Twig - Unexpected “render” tag - expecting closing tag for the “block

kubeadm init 卡在 Created API client, waiting for the control plane to become ready

mon issues https res 出現 blog ted col journal 執行 kubeadm init 時出現卡在了 [apiclient] Created API client, waiting for the control plane to beco

Choose unique values for the 'webAppRootKey' context-param in your web.xml files!

pear http unique syn all 題解錯誤信息不同的 sync 在Tomcat的server.xml中配置兩個context，出現其中一個不能正常啟動，交換配置順序，另一個又不能正常啟動，即始終只有第二個配置能啟動的情況。如果單獨部署，都沒有問題。報錯大

[luoguP2858] [USACO06FEB]奶牛零食Treats for the Cows（DP）

turn pri class 分享 blank .org splay == pla 傳送門 f[i][j][k] 表示左右兩段取到 i .... j 時，取 k 次的最優解可以優化 k 其實等於 n - j + i 則 f[i][j] = max(f[i +

使用windows server2012時FileZilla客戶端連接時報150 Opening data channel for directory listing of "/" 響應:425 Can't open data connection

nec 響應但是 .cn 簡單 family 問題用戶中間 425 Can‘t open data connection 和讀取目錄列表失敗問題解決這個問題主要是由於使用Passive Mode模式造成的，解決這個問題很簡單： 1、在ftp服務軟件中設置指定端口

3% of users browse with IE9 and 14% of users have a disability. Why do we only cater for the former?

我的網站作品 form 我不 post ability img gpo 想要我想要用一個否定聲明來開始我的文章：對於怎樣創造一個易於用戶體驗的站點，我也不是了解非常多。讓作為一個資深開發人員的我操心的是，我在並沒有獲得太多關於這個主題（指怎樣創造一個

TAO: Facebook'sDistributed Data Store for the Social Graph

相關推薦