1. 程式人生 > >python學習-day30 粘包問題

python學習-day30 粘包問題

day30

粘包問題

1、什麼是粘包:

  粘包是指基於TCP協議傳輸資料時,一次傳輸的資料與接受的資料不匹配的情況,粘包問題分為兩種,一種是由傳送端引起的,一種是由接受方引起的。例如:使用socket實現一個遠端控制cmd的命令程式,輸入一個執行命令(如dir)得到的資訊與在終端輸入該命令得到的結果不同(通常提現為不全(資料過大,接受有限,未全部取走)或者不匹配(上一個命令沒有拿完剩下的資料資訊))

# -----基於TCP協議編寫的實現cmd命令的程式(會發生粘包)--
--------服務端--------from socket import *
import subprocess
​
ip_port
=('127.0.0.1',8080) BUFFSIZE=1024 ​ tcp_socket_server=socket(AF_INET,SOCK_STREAM) tcp_socket_server.bind(ip_port) tcp_socket_server.listen(5) ​ while True: conn,addr=tcp_socket_server.accept() print('客戶端',addr) ​ while True: cmd=conn.recv(BUFFSIZE) if len(cmd) == 0:break ​ res
=subprocess.Popen(cmd.decode('utf-8'),shell=True, stdout=subprocess.PIPE, stdin=subprocess.PIPE, stderr=subprocess.PIPE) ​ stderr=act_res.stderr.read() stdout=act_res.stdout.read() conn.send(stderr) conn.send(stdout
-----------------客戶端------------ import socket BUFFSIZE=1024 ip_port=('127.0.0.1',8080) ​ s=socket.socket(socket.AF_INET,socket.SOCK_STREAM) res=s.connect_ex(ip_port) ​ while True: msg=input('>>: ').strip() if len(msg) == 0:continue if msg == 'quit':break ​ s.send(msg.encode('utf-8')) act_res=s.recv(BUFFSIZE) ​ print(act_res.decode('utf-8'),end='') # -----基於UDP協議編寫的實現cmd命令的程式(不會發生粘包)-- --------服務端--------from socket import * import subprocess ​ ip_port=('127.0.0.1',9003) buffsize=1024 ​ udp_server=socket(AF_INET,SOCK_DGRAM) udp_server.bind(ip_port) ​ while True: #收訊息 cmd,addr=udp_server.recvfrom(buffsize) print('使用者命令----->',cmd) ​ #邏輯處理 res=subprocess.Popen(cmd.decode('utf8'),shell=True,stderr=subprocess.PIPE, stdin=subprocess.PIPE,stdout=subprocess.PIPE) stderr=res.stderr.read() stdout=res.stdout.read() ​ #發訊息 udp_server.sendto(stderr,addr) udp_server.sendto(stdout,addr) udp_server.close() ​ -----------------客戶端------------ from socket import * ip_port=('127.0.0.1',9003) bufsize=1024 ​ udp_client=socket(AF_INET,SOCK_DGRAM) ​ ​ while True: msg=input('>>: ').strip() udp_client.sendto(msg.encode('utf-8'),ip_port) ​ data,addr=udp_client.recvfrom(bufsize) print(data.decode('utf-8'),end='')

 

  注:只有TCP有粘包現象,UDP永遠不會粘包。

2、為何TCP會產生粘包現象

  傳送端傳送資料的大小與接受端接受資料的大小是可以由程式設計師隨意設定的(傳送端可以是一K一K地傳送資料,而接收端的應用程式可以兩K兩K地提走資料,當然也有可能一次提走3K或6K資料,或者一次只提走幾個位元組的資料),也就是說,應用程式所看到的資料是一個整體,或說是一個流(stream),應用程式無法得知一個訊息對應由多少個位元組,因此TCP協議是面向流的協議,這也是容易出現粘包問題的原因。

  而UDP是面向訊息的協議,每個UDP段都是一條訊息(以包的形式存在系統緩衝區),應用程式必須以訊息為單位提取資料,不能一次提取任意位元組的資料,這一點和TCP是很不同的。怎樣定義訊息呢?可以認為對方一次性write/send的資料為一個訊息,需要明白的是當對方send一條資訊的時候,無論底層怎樣分段分片,TCP協議層會把構成整條訊息的資料段排序完成後才呈現在核心緩衝區。

例如基於tcp的套接字客戶端往服務端上傳檔案,傳送時檔案內容是按照一段一段的位元組流傳送的,在接收方看了,根本不知道該檔案的位元組流從何處開始,在何處結束。

  所謂粘包問題主要還是因為接收方不知道訊息之間的界限,不知道一次性提取多少位元組的資料所造成的。

  此外,傳送方引起的粘包是由TCP協議本身造成的,TCP為提高傳輸效率,傳送方往往要收集到足夠多的資料後才傳送一個TCP段。若連續幾次需要send的資料都很少,通常TCP會根據優化演算法把這些資料合成一個TCP段後一次傳送出去,這樣接收方就收到了粘包資料。

  1. TCP(transport control protocol,傳輸控制協議)是面向連線的,面向流的,提供高可靠性服務。收發兩端(客戶端和伺服器端)都要有一一成對的socket,因此,傳送端為了將多個發往接收端的包,更有效的發到對方,使用了優化方法(Nagle演算法),將多次間隔較小且資料量小的資料,合併成一個大的資料塊,然後進行封包。這樣,接收端,就難於分辨出來了,必須提供科學的拆包機制。 即面向流的通訊是無訊息保護邊界的。

  2. UDP(user datagram protocol,使用者資料報協議)是無連線的,面向訊息的,提供高效率服務。不會使用塊的合併優化演算法,, 由於UDP支援的是一對多的模式,所以接收端的skbuff(套接字緩衝區)採用了鏈式結構來記錄每一個到達的UDP包,在每個UDP包中就有了訊息頭(訊息來源地址,埠等資訊),這樣,對於接收端來說,就容易進行區分處理了。 即面向訊息的通訊是有訊息保護邊界的。

  3. tcp是基於資料流的,於是收發的訊息不能為空,這就需要在客戶端和服務端都新增空訊息的處理機制,防止程式卡住,而udp是基於資料報的,即便是你輸入的是空內容(直接回車),那也不是空訊息,udp協議會幫你封裝上訊息頭。

udp的recvfrom是阻塞的,一個recvfrom(x)必須對唯一一個sendinto(y),收完了x個位元組的資料就算完成,若是y>x資料就丟失,這意味著udp根本不會粘包,但是會丟資料,不可靠。

tcp的協議資料不會丟,沒有收完包,下次接收,會繼續上次繼續接收,己端總是在收到ack時才會清除緩衝區內容。資料是可靠的,但是會粘包。

3、發生粘包的兩種情況:

  a、傳送端需要等緩衝區滿才傳送出去,造成粘包(傳送資料時間間隔很短,資料了很小,會合到一起,產生粘包)

--------服務端-------
from socket import *
ip_port=('127.0.0.1',8080)
​
tcp_socket_server=socket(AF_INET,SOCK_STREAM)
tcp_socket_server.bind(ip_port)
tcp_socket_server.listen(5)
​
conn,addr=tcp_socket_server.accept()
​
data1=conn.recv(10)
data2=conn.recv(10)
​
print('----->',data1.decode('utf-8'))
print('----->',data2.decode('utf-8'))
conn.close()
​
------客戶端------
import socket
BUFSIZE=1024
ip_port=('127.0.0.1',8080)
​
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
res=s.connect_ex(ip_port)
​
s.send('hello'.encode('utf-8'))
s.send('feng'.encode('utf-8'))

 

  b、接收方不及時接收緩衝區的包,造成多個包接收(客戶端傳送了一段資料,服務端只收了一小部分,服務端下次再收的時候還是從緩衝區拿上次遺留的資料,產生粘包)

---------服務端--------
from socket import *
ip_port=('127.0.0.1',8080)
​
tcp_socket_server=socket(AF_INET,SOCK_STREAM)
tcp_socket_server.bind(ip_port)
tcp_socket_server.listen(5)
​
conn,addr=tcp_socket_server.accept()
​
data1=conn.recv(2) #一次沒有收完整
data2=conn.recv(10)#下次收的時候,會先取舊的資料,然後取新的
print('----->',data1.decode('utf-8'))
print('----->',data2.decode('utf-8'))
​
conn.close()
​
----------客戶端------
import socket
BUFSIZE=1024
ip_port=('127.0.0.1',8080)
​
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
res=s.connect_ex(ip_port)
​
s.send('hello feng'.encode('utf-8'))

 

4、解決粘包問題的方案:

  問題的根源在於,接收端不知道傳送端將要傳送的位元組流的長度,所以解決粘包的方法就是圍繞,如何讓傳送端在傳送資料前,把自己將要傳送的位元組流總大小讓接收端知曉,然後接收端來一個死迴圈接收完所有資料。

  a、可以通過匯入time模組讓程式在發完一段資料後睡眠一段時間,讓另一端接受玩後在傳送下一段資料,這種方法嚴重影響程式的執行速度,因此不建議使用。

  b、為位元組流加上自定義固定長度報頭(用struct模組來pack個定長的報頭),報頭中包含位元組流長度,然後一次send到對端,對端在接收時,先從快取中取出定長的報頭,然後再取真實資料

  程式碼編寫思路:

  我們可以把報頭做成字典,字典裡包含將要傳送的真實資料的詳細資訊,然後json序列化,然後用struct將序列化後的資料長度打包成4個位元組(4個位元組已夠用)

  傳送時:

    1、先發送報頭長度;

    2、再編碼報頭內容然後傳送;

    3、最後發真實內容 。

  接收時:

    1、先收取報頭長度,用struct取出來;

    2、根據取出的長度收取報頭內容,然後解碼,反序列化;

    3、從反序列化的結果中取出待取資料的詳細資訊,然後去取真實的資料內容。

##------------服務端---------
import socket,struct,json
import subprocess
phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
phone.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1) #就是它,在bind前加
​
phone.bind(('127.0.0.1',8080))
​
phone.listen(5)
​
while True:
    conn,addr=phone.accept()
    while True:
        cmd=conn.recv(1024)
        if not cmd:break
        print('cmd: %s' %cmd)
​
        res=subprocess.Popen(cmd.decode('utf-8'),
                             shell=True,
                             stdout=subprocess.PIPE,
                             stderr=subprocess.PIPE)
        err=res.stderr.read()
        print(err)
        if err:
            back_msg=err
        else:
            back_msg=res.stdout.read()
​
        conn.send(struct.pack('i',len(back_msg))) #先發back_msg的長度
        conn.sendall(back_msg) #在發真實的內容
​
    conn.close()
    
##-------------客戶端-----------    
import socket,time,struct
​
s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
res=s.connect_ex(('127.0.0.1',8080))
​
while True:
    msg=input('>>: ').strip()
    if len(msg) == 0:continue
    if msg == 'quit':break
​
    s.send(msg.encode('utf-8'))
​
    l=s.recv(4)
    x=struct.unpack('i',l)[0]
    print(type(x),x)
    # print(struct.unpack('I',l))
    r_s=0
    data=b''
    while r_s < x:
        r_d=s.recv(1024)
        data+=r_d
        r_s+=len(r_d)
​
    # print(data.decode('utf-8'))
    print(data.decode('gbk')) #windows預設gbk編碼