1. 程式人生 > >並發編程之多進程理論

並發編程之多進程理論

區分 .cn windows 回調函數 女朋友 異步io 開啟 大型機 應用

一,什麽是進程

  進程:正在進行的一個過程或者說是一個任務,而負責執行任務則是CPU

  那麽一個扣扣能否稱為一個進程?

  所以說進程指的是一個正在進程或者說一個任務,是一個抽象的概念,扣扣是死的,也就是說程序是死的,只是一個文件的執行。

  

二,進程與程序的區別

  程序僅僅只是一堆代碼而已,而進程指的是程序的運行過程。

舉例:

想象一位有一手好廚藝的廚師正在為他的女兒烘制生日蛋糕。

他有做生日蛋糕的食譜,

廚房裏有所需的原料:面粉、雞蛋、韭菜,蒜泥等。

在這個比喻中:

做蛋糕的食譜就是程序(即用適當形式描述的算法)

廚師就是處理器(cpu)

而做蛋糕的各種原料就是輸入數據。

進程就是廚師閱讀食譜、取來各種原料以及烘制蛋糕等一系列動作的總和。

現在假設廚師的兒子哭著跑了進來,說:Hey, Dad, my head got stung by a bee.

廚師想了想,處理兒子蟄傷的任務比給女兒做蛋糕的任務更重要,於是

廚師就記錄下他照著食譜做到哪兒了(保存進程的當前狀態),然後拿出一本急救手冊,
按照其中的指示處理蟄傷。這裏,我們看到處理機從一個進程(做蛋糕)切換到另一個
高優先級的進程(實施醫療救治),每個進程擁有各自的程序
(食譜和急救手冊)。當蜜蜂蟄傷處理完之後,這位廚師又回來做蛋糕,從他
離開時的那一步繼續做下去。

需要強調的是:同一個程序執行兩次,那也是兩個進程,比如打開暴風影音,
雖然都是同一個軟件,但是一個可以播放nba,一個可以播放cba

  

三,並發與並行

無論是並行還是並發,在用戶看來都是‘同時‘運行的,不管是進程還是線程,都只是一個任務而已,真是幹活的是cpu,cpu來做這些任務,而一個cpu同一時刻只能執行一個任務

一 並發:是偽並行,即看起來是同時運行。單個cpu+多道技術就可以實現並發

舉例(單核+多道,實現多個進程的並發執行):

james在一個時間段內有很多任務要做:python備課的任務,寫書的任務,
交女朋友的任務,王者榮耀上分的任務,

但james同一時刻只能做一個任務(cpu同一時間只能幹一個活),如何才能玩出多個任務並發執行的效果?

james備一會課,再去跟wade的女朋友聊聊天,再去打一會王者榮耀....這就保證了每個任務都在進行中

二,並行:同時運行,只有具備多個CPU才能實現並行

單核下,可以利用多道技術,多個核,每個核也都可以利用多道技術(多道技術是針對單核而言的)

有四個核,六個任務,這樣同一時間有四個任務被執行,假設分別被分配給了cpu1,cpu2,cpu3,cpu4,

一旦任務1遇到I/O就被迫中斷執行,此時任務5就拿到cpu1的時間片去執行,這就是單核下的多道技術

而一旦任務1的I/O結束了,操作系統會重新調用它(需知進程的調度、分配給哪個cpu運行,由操作系統說了算)

可能被分 配給四個cpu中的任意一個去執行

技術分享圖片

  所有現代計算機經常會在同一時間做很多件事,一個用戶的PC(無論是單cpu還是多cpu),都可以同時運行多個任務(一個任務可以理解為一個進程)。

    啟動一個進程來殺毒(360軟件)

    啟動一個進程來看電影(暴風影音)

    啟動一個進程來聊天(騰訊QQ)

  所有的這些進程都需被管理,於是一個支持多進程的多道程序系統是至關重要的

  多道技術概念回顧:內存中同時存入多道(多個)程序,cpu從一個進程快速切換到另外一個,使每個進程各自運行幾十或幾百毫秒,這樣,雖然在某一個瞬間,一個cpu只能執行一個任務,但在1秒內,cpu卻可以運行多個進程,這就給人產生了並行的錯覺,即偽並發,以此來區分多處理器操作系統的真正硬件並行(多個cpu共享同一個物理內存)

四,同步\異步and阻塞\非阻塞

同步:執行一個操作之後,等待結果,然後才繼續執行後續的操作

所謂同步,就是在發出一個功能調用時,在沒有得到結果之前,該調用就不會返回。
按照這個定義,其實絕大多數函數都是同步調用。但是一般而言,我們在說同步、異
步的時候,特指那些需要其他部件協作或者需要一定時間完成的任務。

舉例:
1. multiprocessing.Pool下的apply 
#發起同步調用後,就在原地等著任務結束,根本不考慮任務是在計算還是在io阻塞,
總之就是一股腦地等任務結束
2. concurrent.futures.ProcessPoolExecutor().submit(func,).result()
3. concurrent.futures.ThreadPoolExecutor().submit(func,).result()

  

異步:執行一個操作,可以去執行其他的操作,然後等待通知再回來執行剛才沒執行完的操作

異步的概念和同步相對。當一個異步功能調用發出後,調用者不能立刻得到結果。當該異
步功能完成後,通過狀態、通知或回調來通知調用者。如果異步功能用狀態來通知,那麽
調用者就需要每隔一定時間檢查一次,效率就很低(有些初學多線程編程的人,總喜歡用
一個循環去檢查某個變量的值,這其實是一 種很嚴重的錯誤)。如果是使用通知的方式,
效率則很高,因為異步功能幾乎不需要做額外的操作。至於回調函數,其實和通知沒太多區別。

舉例:
1. multiprocessing.Pool().apply_async() 
#發起異步調用後,並不會等待任務結束才返回,相反,會立即獲取一個臨時結果(並不
是最終的結果,可能是封裝好的一個對象)。
2. concurrent.futures.ProcessPoolExecutor(3).submit(func,)
3. concurrent.futures.ThreadPoolExecutor(3).submit(func,)

  

阻塞:進程給CPU傳達一個任務之後,一直等待CPU處理完成,然後才執行後面的操作

阻塞調用是指調用結果返回之前,當前線程會被掛起(如遇到io操作)。函數只有在得到
結果之後才會將阻塞的線程激活。有人也許會把阻塞調用和同步調用等同起來,實際上他
是不同的。對於同步調用來說,很多時候當前線程還是激活的,只是從邏輯上當前函數沒
有返回而已。

舉例:
1. 同步調用:apply一個累計1億次的任務,該調用會一直等待,直到任務返回結果為止,
但並未阻塞住(即便是被搶走cpu的執行權限,那也是處於就緒態);
2. 阻塞調用:當socket工作在阻塞模式的時候,如果沒有數據的情況下調用recv函數,
則當前線程就會被掛起,直到有數據為止。

  

非阻塞:進程給CPU傳達任務後,繼續處理後續的操作,隔段時間再來咨詢之前的操作是否完成,這樣的過程其實也叫輪詢。

非阻塞和阻塞的概念相對應,指在不能立刻得到結果之前也會立刻返回,同時該函數不會阻塞當前線程。

小結

  阻塞,非阻塞,多路IO復用都是同步IO,異步必定是非阻塞的,所以不存在異步阻塞和異步非阻塞的說法,真正的異步IO需要CPU的深度參與,換句話說,只有用戶線程在操作IO的時候根本不去考慮IO的執行,全部都交給CPU去完成,而自己只等待一個完成信號的時候,才是真正的異步IO,所以,拉一個子線程去輪詢(非阻塞),去死循環,或者使用select,poll,epoll,都不是異步。

1. 同步與異步針對的是函數/任務的調用方式:同步就是當一個進程發起一個函數
(任務)調用的時候,一直等到函數(任務)完成,而進程繼續處於激活狀態。而
異步情況下是當一個進程發起一個函數(任務)調用的時候,不會等函數返回,而
是繼續往下執行當,函數返回的時候通過狀態、通知、事件等方式通知進程任務完成。

2. 阻塞與非阻塞針對的是進程或線程:阻塞是當請求不能滿足的時候就將進程掛起,
而非阻塞則不會阻塞當前進程

技術分享圖片

此處參考:http://www.cnblogs.com/Anker/p/5965654.html

總結

1,異步就是異步

  網上有許多IO模型的相關文章,主要涉及四個概念,同步,異步,阻塞和非阻塞,有些文章將這四個進行兩兩組合,於是有了異步阻塞,和異步非阻塞,可以很明確的說,這非常牽強,無論是Unix網絡編程一書中提到的IO模型,還是POSIX標準,都沒有提到這兩個概念,異步就是異步,只有同步時才有阻塞和非阻塞。

2,阻塞和非阻塞

  我們說阻塞和非阻塞時,要區分場合範圍,比如Linux中說的非阻塞IO和Java中NIO1.0和非阻塞IO不是相同的概念,從最根本上來說,阻塞就是進程被休息了,CPU處理其他進程了,非阻塞可以理解為:將大得整篇時間的阻塞分成N多的小的阻塞,所以進程不斷地有機會被CPU光顧,理論上可以做點其他事情,但是LINUX非阻塞IO要比阻塞好,單CPU會很大幾率因socket沒數據而空轉,雖然這個進程是爽了,但是從整個機器來說,浪費更大了

3,異步

  異步可以說是IO最理想的模型:CPU的原則是:有必要的時候才會參與,既不浪費也不怠慢。

五,進程的創建

  但凡是硬件,都需要有操作系統去管理,只要有操作系統,就有進程的概念,就需要有創建進程的方式,一些操作系統只為一個應用程序設計,比如微波爐中的控制器,一旦啟動微波爐,所有的進程都已經存在。

  而對於通用系統(跑很多應用程序),需要有系統運行過程中創建或撤銷進程的能力,主要分為4種形式創建新的進程

  1. 系統初始化(查看進程linux中用ps命令,windows中用任務管理器,前臺進程負責與用戶交互,後臺運行的進程與用戶無關,運行在後臺並且只在需要時才喚醒的進程,稱為守護進程,如電子郵件、web頁面、新聞、打印)

  2. 一個進程在運行過程中開啟了子進程(如nginx開啟多進程,os.fork,subprocess.Popen等)

  3. 用戶的交互式請求,而創建一個新進程(如用戶雙擊暴風影音)

  4. 一個批處理作業的初始化(只在大型機的批處理系統中應用)

無論哪一種,新進程的創建都是由一個已經存在的進程執行了一個用於創建進程的系統調用而創建的:

  1. 在UNIX中該系統調用是:fork,fork會創建一個與父進程一模一樣的副本,二者有相同的存儲映像、同樣的環境字符串和同樣的打開文件(在shell解釋器進程中,執行一個命令就會創建一個子進程)

  2. 在windows中該系統調用是:CreateProcess,CreateProcess既處理進程的創建,也負責把正確的程序裝入新進程。

關於創建的子進程,UNIX和windows

1.相同的是:進程創建後,父進程和子進程有各自不同的地址空間(多道技術要求物理層面實現進程之間內存的隔離),任何一個進程的在其地址空間中的修改都不會影響到另外一個進程。

2.不同的是:在UNIX中,子進程的初始地址空間是父進程的一個副本,提示:子進程和父進程是可以有只讀的共享內存區的。但是對於windows系統來說,從一開始父進程與子進程的地址空間就是不同的。

六,進程的終止

正常退出(自願,如用戶點擊交互式頁面的叉號,或程序執行完畢調用發起系統調用正常退出,
在linux中用exit,在windows中用ExitProcess)

出錯退出(自願,python a.py中a.py不存在)

嚴重錯誤(非自願,執行非法指令,如引用不存在的內存,1/0等,可以捕捉異常,try...except...)

被其他進程殺死(非自願,如kill -9)

  

七,進程的層次結構

無論UNIX還是windows,進程只有一個父進程,不同的是:

  1. 在UNIX中所有的進程,都是以init進程為根,組成樹形結構。父子進程共同組成一個進程組,這樣,當從鍵盤發出一個信號時,該信號被送給當前與鍵盤相關的進程組中的所有成員。

  2. 在windows中,沒有進程層次的概念,所有的進程都是地位相同的,唯一類似於進程層次的暗示,是在創建進程時,父進程得到一個特別的令牌(稱為句柄),該句柄可以用來控制子進程,但是父進程有權把該句柄傳給其他子進程,這樣就沒有層次了。

八,進程的狀態

tail -f access.log |grep ‘404‘

  執行程序tail,開啟一個子進程,執行程序grep,開啟另外一個子進程,兩個進程之間基於管道‘|‘通訊,將tail的結果作為grep的輸入。

進程grep在等待輸入(即I/O)時的狀態稱為阻塞,此時grep命令都無法運行

其實在兩種情況下會導致一個進程在邏輯上不能運行,

  1. 進程掛起是自身原因,遇到I/O阻塞,便要讓出CPU讓其他進程去執行,這樣保證CPU一直在工作

  2. 與進程無關,是操作系統層面,可能會因為一個進程占用時間過多,或者優先級等原因,而調用其他的進程去使用CPU。

因而一個進程由三種狀態

技術分享圖片

九,進程並發的實現

  進程並發的實現在於,硬件中斷一個正在運行的進程,把此時進程運行的所有狀態保存下來,為此,操作系統維護一張表格,即進程表(process table),每個進程占用一個進程表項(這些表項也稱為進程控制塊)

技術分享圖片

  該表存放了進程狀態的重要信息:程序計數器、堆棧指針、內存分配狀況、所有打開文件的狀態、帳號和調度信息,以及其他在進程由運行態轉為就緒態或阻塞態時,必須保存的信息,從而保證該進程在再次啟動時,就像從未被中斷過一樣。

十,生產者消費者模型介紹

1,為什麽要使用生產者消費者模型

    生產者指的是生產數據的任務,消費者指的是處理數據的任務,在並發編程中,如
果生產者處理速度很快,而消費者處理速度很慢,那麽生產者就必須等待消費者處理
完,才能繼續生產數據。同樣的道理,如果消費者的處理能力大於生產者,那麽消費
者就必須等待生產者。為了解決這個問題於是引入了生產者和消費者模式。

  

2,什麽是生產者消費者模型

    生產者消費者模式是通過一個容器來解決生產者和消費者的強耦合問題。生產者和
消費者彼此之間不直接通訊,而通過阻塞隊列來進行通訊,所以生產者生產完數據之
後不用等待消費者處理,直接扔給阻塞隊列,消費者不找生產者要數據,而是直接從
阻塞隊列裏取,阻塞隊列就相當於一個緩沖區,平衡了生產者和消費者的處理能力。

    這個阻塞隊列就是用來給生產者和消費者解耦的

  

3,生產者消費者模型實現

  基於隊列來實現一個生產者消費者模型

from multiprocessing import Process,Queue
import time,random,os

def consumer(q,name):
    while True:
        res=q.get()
        time.sleep(random.randint(1,3))
        print(‘\033[43m%s 吃 %s\033[0m‘ %(name,res))

def producer(q,name,food):
    for i in range(3):
        time.sleep(random.randint(1,3))
        res=‘%s%s‘ %(food,i)
        q.put(res)
        print(‘\033[45m%s 生產了 %s\033[0m‘ %(name,res))

if __name__ == ‘__main__‘:
    q=Queue()
    #生產者們:即廚師們
    p1=Process(target=producer,args=(q,‘cook‘,‘包子‘))

    #消費者們:即吃貨們
    c1=Process(target=consumer,args=(q,‘consumer‘))

    #開始
    p1.start()
    c1.start()
    print(‘主‘)

  執行結果:

主
cook生產了 包子0
cook 生產了 包子1
consumer吃 包子0
consumer 吃 包子1
cook 生產了 包子2
consumer 吃 包子2

  此時的問題是主進程永遠不會結束,原因是:生產者p在生產完後就結束了,但是消費者c在取空了q之後,則一直處於死循環中且卡在q.get()這一步。

  解決方式無非是讓生產者在生產完畢後,往隊列中再發一個結束信號,這樣消費者在接收到結束信號後就可以break出死循環

from multiprocessing import Process,Queue
import time,random,os
def consumer(q,name):
    while True:
        res=q.get()
        if res is None:break
        time.sleep(random.randint(1,3))
        print(‘\033[43m%s 吃 %s\033[0m‘ %(name,res))

def producer(q,name,food):
    for i in range(3):
        time.sleep(random.randint(1,3))
        res=‘%s%s‘ %(food,i)
        q.put(res)
        print(‘\033[45m%s 生產了 %s\033[0m‘ %(name,res))

if __name__ == ‘__main__‘:
    q=Queue()
    #生產者們:即廚師們
    p1=Process(target=producer,args=(q,‘cook‘,‘包子‘))

    #消費者們:即吃貨們
    c1=Process(target=consumer,args=(q,‘consumer‘))

    #開始
    p1.start()
    c1.start()

    p1.join()
    q.put(None)
    print(‘主‘)

  但上述解決方式,在有多個生產者和多個消費者時,我們則需要用一個很low的方式去解決,有幾個消費者就需要發送幾次結束信號:相當low,例如

from multiprocessing import Process,Queue
import time,random,os
def consumer(q,name):
    while True:
        res=q.get()
        if res is None:break
        time.sleep(random.randint(1,3))
        print(‘\033[43m%s 吃 %s\033[0m‘ %(name,res))

def producer(q,name,food):
    for i in range(3):
        time.sleep(random.randint(1,3))
        res=‘%s%s‘ %(food,i)
        q.put(res)
        print(‘\033[45m%s 生產了 %s\033[0m‘ %(name,res))

if __name__ == ‘__main__‘:
    q=Queue()
    #生產者們:即廚師們
    p1=Process(target=producer,args=(q,‘cook1‘,‘包子‘))
    p2=Process(target=producer,args=(q,‘cook2‘,‘骨頭‘))
    p3=Process(target=producer,args=(q,‘cook3‘,‘泔水‘))

    #消費者們:即吃貨們
    c1=Process(target=consumer,args=(q,‘consumer1‘))
    c2=Process(target=consumer,args=(q,‘consumer2‘))

    #開始
    p1.start()
    p2.start()
    p3.start()
    c1.start()
    c2.start()

    p1.join()
    p2.join()
    p3.join()
    q.put(None)
    q.put(None)
    q.put(None)
    print(‘主‘)

  

其實我們的思路無非是發送結束信號而已,有另外一種隊列提供了這種機制

JoinableQueue([maxsize])

    這就像是一個Queue對象,但隊列允許項目的使用者通知生成者項目已經被成功處理。
通知進程是使用共享的信號和條件變量來實現的。

參數介紹

maxsize是隊列中允許最大項數,省略則無大小限制。

方法介紹

    JoinableQueue的實例p除了與Queue對象相同的方法之外還具有:

    q.task_done():使用者使用此方法發出信號,表示q.get()的返回項目已經被處理。
如果調用此方法的次數大於從隊列中刪除項目的數量,將引發ValueError異常

    q.join():生產者調用此方法進行阻塞,直到隊列中所有的項目均被處理。阻塞將持
續到隊列中的每個項目均調用q.task_done()方法為止

基於JoinableQueue實現生產者消費者模型

from multiprocessing import Process,JoinableQueue
import time,random,os
def consumer(q,name):
    while True:
        res=q.get()
        time.sleep(random.randint(1,3))
        print(‘\033[43m%s 吃 %s\033[0m‘ %(name,res))
        q.task_done() #發送信號給q.join(),說明已經從隊列中取走一個數據並處理完畢了

def producer(q,name,food):
    for i in range(3):
        time.sleep(random.randint(1,3))
        res=‘%s%s‘ %(food,i)
        q.put(res)
        print(‘\033[45m%s 生產了 %s\033[0m‘ %(name,res))
    q.join() #等到消費者把自己放入隊列中的所有的數據都取走之後,生產者才結束

if __name__ == ‘__main__‘:
    q=JoinableQueue() #使用JoinableQueue()

    #生產者們:即廚師們
    p1=Process(target=producer,args=(q,‘cook1‘,‘包子‘))
    p2=Process(target=producer,args=(q,‘cook2‘,‘骨頭‘))
    p3=Process(target=producer,args=(q,‘cook3‘,‘泔水‘))

    #消費者們:即吃貨們
    c1=Process(target=consumer,args=(q,‘consumer1‘))
    c2=Process(target=consumer,args=(q,‘consumer2‘))
    c1.daemon=True
    c2.daemon=True

    #開始
    p1.start()
    p2.start()
    p3.start()
    c1.start()
    c2.start()

    p1.join()
    p2.join()
    p3.join()
    #1、主進程等生產者p1、p2、p3結束
    #2、而p1、p2、p3是在消費者把所有數據都取幹凈之後才會結束
    #3、所以一旦p1、p2、p3結束了,證明消費者也沒必要存在了,應該隨著主進程一塊死掉,因而需要將生產者們設置成守護進程
    print(‘主‘)

  

4,生產者消費者模型總結

4.1,程序中有兩類角色

    一類負責生產數據(生產者)
    
    一類負責處理數據(消費者)

  

4.2,引入生產者消費者模型為了解決的問題是

    平衡生產者與消費者之間的速度差
    
    程序解開耦合

  

4.3,如何實現生產者消費者模型

生產者<--->隊列<--->消費者

  

並發編程之多進程理論