[分布式系統學習] 6.824 LEC2 RPC和線程筆記

阿新 • • 發佈：2017-06-16

amp star nbsp 機制並且 als goroutine 操作 page

6.824的課程通常是在課前讓你做一些準備。一般來說是先讀一篇論文，然後請你提一個問題，再請你回答一個問題。然後上課，然後布置Lab。

第二課的準備-Crawler

第二課的準備不是論文，是讓你實現Go Tour裏面的crawler。Go Tour裏面原有的實現是串行的，並且可能爬到相同的url。要求讓你並行並去重。

簡單想法就是，為了實現並行，爬每個url都是用goroutine；為了實現去重，每次開爬就把url放到map中。

不過這裏有個知識點，Crawler函數最後返回成功，所有url都要爬完，所以需要一個機制去等待所有goroutine完成。查了一下可以用sync.WaitGroup。那一個直觀的實現：

// Crawl uses fetcher to recursively crawl
// pages starting with url, to a maximum of depth.
func Crawl(url string, depth int, fetcher Fetcher) {
       var collector Collector;
       collector.fetchedUrl = make(map[string]bool)
       CrawlInt(url, depth, fetcher, &collector)
       collector.Wait()
 
}

type Collector struct {
       sync.Mutex
       sync.WaitGroup
       fetchedUrl map[string]bool
}

func CrawlInt(url string, depth int, fetcher Fetcher, collector *Collector) {
       if depth <= 0 {
              return
       }
       collector.Lock()
       if _, ok := collector.fetchedUrl[url]; ok {
              //visited,
 
              collector.Unlock()
              return
       }
       collector.fetchedUrl[url] = true
       collector.Unlock()
       body, urls, err := fetcher.Fetch(url)
       if err != nil {
              fmt.Println(err)
              return
       }
       collector.Add(len(urls))
       fmt.Printf("found: %s %q\n", url, body)
       for _, u := range urls {
              go func (u string) {
                     CrawlInt(u, depth-1, fetcher, collector)
                     collector.Done()
              }(u)
       }
       return
}

不過看到了答案，覺得答案很簡潔，不僅沒有用到WaitGroup，甚至連一個Lock都沒有使用。

//
// Concurrent crawler with channels
//

func dofetch(url1 string, ch chan []string, fetcher Fetcher) {
	body, urls, err := fetcher.Fetch(url1)
	if err != nil {
		fmt.Println(err)
		ch <- []string{}
	} else {
		fmt.Printf("found: %s %q\n", url1, body)
		ch <- urls
	}
}

func master(ch chan []string, fetcher Fetcher) {
	n := 1
	fetched := make(map[string]bool)
	for urls := range ch {
		for _, u := range urls {
			if _, ok := fetched[u]; ok == false {
				fetched[u] = true
				n += 1
				go dofetch(u, ch, fetcher)
			}
		}
		n -= 1
		if n == 0 {
			break
		}
	}
}

func CrawlConcurrentChannel(url string, fetcher Fetcher) {
	ch := make(chan []string)
	go func() {
		ch <- []string{url}
	}()
	master(ch, fetcher)
}

Crawler函數是那個CrawlConcurrentChannel。ch裏面放的是每次fetch返回的頁面數組。為什麽不用到Lock呢？因為fetched map的判斷和加入都在主線程中。

ch裏面的urls當然可能重復，但是在主線程中已經判斷過了不會重復fetch。

而通過n來判斷是否所有頁面都被爬取了。所以有n==sizeof (ch) == sizeof (fetched)。這裏的sizeof指的是所有放入的，不是某一時刻的。

Go 的RPC

我們在前面一個Lab裏面已經遇到過了。覺得有點像Soap的方式，不過完全沒有Soap那麽復雜，需要定義wsdl。

至少發送一次 vs 至多發送一次

至少發送一次：RPC lib 等待返回，如果超時，再發。這樣多嘗試幾次，始終沒有返回，就報錯。

這樣能解決問題麽？如果是發送的克扣余額會出現什麽問題？

所以“至少發送一次”對於只讀操作，和可重入操作是有效的。比如我們上一個Lab中的Map和Reduce，都是可重入的。

至多發送一次：問題在於如何檢測重復請求。

client可以發送一個唯一的ID（XID）用於驗證重復。服務器做如下處理。

server:
    if seen[xid]:
      r = old[xid]
    else
      r = handler()
      old[xid] = r
      seen[xid] = true

這裏要處理的問題是：

1. client怎麽保證XID唯一？現在UUID可以做到，另外也可以通過ip地址加上序列號來做hash值。

2. 服務器要在某時刻清理調之前的請求，否則每個請求都放到seen map裏面，那要爆掉了。client可以在每條RPC中都包含一個”已經收到#<X的回復“的信息，這樣，服務器就可以拋棄它們。

3. 服務器正在處理某個request，但是新的request已經進來了，服務器不想做第二次，那麽他可以設置一個”pending“flag，讓新的request等待或者忽略。

Go語言的RPC策略是”至多發送一次“。

[分布式系統學習] 6.824 LEC2 RPC和線程筆記

amp star nbsp 機制並且 als goroutine 操作 page 6.824的課程通常是在課前讓你做一些準備。一般來說是先讀一篇論文，然後請你提一個問題，再請你回答一個問題。然後上課，然後布置Lab。第二課的準備-Crawler 第二課的準備不是論文

[分散式系統學習] 6.824 LEC2 RPC和執行緒筆記

6.824的課程通常是在課前讓你做一些準備。一般來說是先讀一篇論文，然後請你提一個問題，再請你回答一個問題。然後上課，然後佈置Lab。第二課的準備-Crawler 第二課的準備不是論文，是讓你實現Go Tour裡面的crawler。Go Tour裡面原有的實現是序列的，並且可能爬到相同的url。要求讓你

分布式系統學習筆記（一）

常見算法特征最大普通部分 AR 復制完美 1.分布式架構的發展歷史　　1.1 1946 年情人節(2.14) , 世界上第一臺電子數字計算機誕生在美國賓夕法尼亞大學大學，它的名字是：ENIAC; 這臺計算機占地 170 平米、重達 30 噸，每秒可進行 5

分布式系統(微服務架構)的一致性和冪等性問題相關概念解析

數據復制 ref cap 發送答案一次重復值聯系現實目錄前言 1. 分布式系統的數據一致性 1.1 分布式存儲系統中的一致性問題 1.2 微服務應用的分布式一致性問題 1.3 對於一致性的正確理解 2.分布式一致性模型 3. 追求強一致性的約束——CAP定

JDFS:一款分布式文件管理實用程序第一篇(線程池、epoll、上傳、下載)

cpu nload tree 程序 fun 是的發的 fop let 一前言　　截止目前，筆者在博客園上面已經發表了3篇關於網絡下載的文章，這三篇博客實現了基於socket的http多線程遠程斷點下載實用程序。筆者打算在此基礎上開發出一款分布式文件管理實用程序，截止目

帶著問題學習分布式系統

所在數據中心 sch 可能原理性能結構化使用 key 　　很長一段時間，對分布式系統都比較感興趣，也聽說過、了解過其中一些相關的知識點，但都比較零碎。一直想系統的學習一下，但是一拖再拖，寫下本文，也是希望能督促自己。寫在前面　　聽過很多道理，卻依然過

帶著問題學習分布式系統之數據分片

訪問方式 papers 個人明顯節點數 ant 此舉身份驗證 hash函數　　在前文中，提出了分布式系統（尤其是分布式存儲系統）需要解決的兩個最主要的問題，即數據分片和數據冗余，下面這個圖片（來源）形象生動的解釋了其概念和區別：　　　　其中數據即A、B屬於數

適合雲計算開發者的企業級互聯網分布式系統應用架構學習

目標均衡 http 支持 uid course 概覽 .com 異步處理課程介紹本課程主要講解當前網絡環境下互聯網應用架構設計，課程針對阿裏雲平臺所提供的分步式系統架構支持來分層說明如何搭建一個高可用的應用架構。講師介紹：石立勇，阿裏雲生態體系首席架構師，致力於阿

保證分布式系統數據一致性的6種方案

簡介 for 轉換成庫存江湖 sina ack 解決需要編者按：本文由「高可用架構後花園」群討論整理而成。有人的地方，就有江湖有江湖的地方，就有紛爭問題的起源在電商等業務中，系統一般由多個獨立的服務組成，如何解決分布式調用時候數據的一致性？具體業務場景如

分布式學習最佳實踐：從分布式系統的特征開始（附思維導圖）

擴展問題 sca ref 調度這也集中技術 park 　　　我的探索歷程　　這一部分，與分布式不大相關，記錄的是我是如何在分布式學習這條道路上摸索的，不感興趣的讀者請直接跳到下一章。　　過去的一年，我在分布式學習這條道路上苦苦徘徊，始終沒有找到一個好的學

[轉]什麽是分布式系統，如何學習分布式系統

簡單配置文件延遲去中心化入門應該 body base 技術分享什麽是分布式系統分布式系統挑戰分布式系統特性與衡量標準組件、理論、協議用一個請求串起來一個簡化的架構圖概念與實現總結 references

什麽是分布式系統，如何學習分布式系統

zook 並發運營 app oop 錯誤都是衡量標準 god 目錄什麽是分布式系統分布式系統挑戰分布式系統特性與衡量標準組件、理論、協議用一個請求串起來一個簡化的架構圖概念與實現總結 references 正文　　雖然本人在前面也

分布式系統唯一ID生成方案匯總

gen 傳輸數據 lee sleep gui 有效很難 sha 調整系統唯一ID是我們在設計一個系統的時候常常會遇見的問題，也常常為這個問題而糾結。生成ID的方法有很多，適應不同的場景、需求以及性能要求。所以有些比較復雜的系統會有多個ID生成的策略。下面就介紹一些常見的

Net分布式系統之六：微服務之API網關

pan 業務邏輯 nginx clas 系統 gin 性能 blog services 　　本人建立了個人技術、工作經驗的分享微信號，計劃後續公眾號同步更新分享，比在此更多具體。歡迎有興趣的同學一起加入相互學習。基於上篇微服務架構分享，今天分享其中一個重要的基礎組件&ldq

JEESZ分布式系統環境安裝

rest服務 spring redis dubbo+zookeeper springmvc+mybatis java分布式架構 1.環境準備 1.開發工具： Eclipse IDE（建議使用高一點的版本） 2.JDK版本：JDK1.7 3.項目管理： Maven3.1.1

分布式系統的那些事兒（三） - 系統與系統之間的調用

數據格式轉換處理分布互調圖片處理動作人性並且系統與系統之間的調用通俗來講，分為本地同一臺服務器上的服務相互調用與遠程服務調用，這個都可以稱之為RPC通信。淺白點講，客戶訪問服務器A，此時服務器要完成某個動作必須訪問服務器B，服務器A與B互相通信，相互調用，

分布式系統穩定性模式

包沖突日誌 rep 減少機房並且 trace 調用接口做到本篇文章主要介紹了"分布式系統穩定性模式"，主要涉及到分布式系統穩定性模式方面的內容，對於分布式系統穩定性模式感興趣的同學可以參考一下。對集群大訪問量的應用很有針對性的一些註意點。 1.隔離。發

分布式系統的那些事兒（三） - MQ時代的通信

任務會有服務端分布 ive 結果團隊並不會短信之前在講RPC通信的各種好處，特別好用，但是RPC並不是萬能的，也並不是適用於各種場景的，因為他是同步的；現如今很多場景下的調用都是異步的，系統A調用B後，並不需要知道B的結果，而且對B的結果無所謂，甚至你B掛了都

分布式系統選舉算法剖析

技術 prop 發生其他語言客戶端 end 總結處理 1.概述　　我們在了解分布式選舉算法之前，我們需要這樣一種算法產生的背景。在一個分布式系統中，因為各種意外的因素，有的服務器可能會崩潰或變得不可靠，它就不能和其他服務器達成一致狀態。因而這樣就需要一種Cons

CentOS環境利用mariadb(mysql)數據庫使用golang實現分布式系統的Leader選舉

資源 net 安裝git mina sha 新的軟件 not null 模擬一、準備工作 1.下載安裝vmware，步驟省略。 2.下載CentOS系統ios包：http://isoredirect.centos.org/centos/7/isos/x86_64/Cen

[分布式系統學習] 6.824 LEC2 RPC和線程 筆記

第二課的準備-Crawler

Go 的RPC

至少發送一次 vs 至多發送一次

相關推薦

[分布式系統學習] 6.824 LEC2 RPC和線程筆記