python中TCP協議中的粘包問題

TCP/IP Python · 發表 2019-03-21 20:34:00

摘要： TCP協議中的粘包問題 1.粘包現象基於TCP實現一個簡易遠端cmd功能 #服務端 import socket import subprocess sever = socket.socket() sever.bind(('127.0.0.1', 3...

TCP協議中的粘包問題

1.粘包現象

基於TCP實現一個簡易遠端cmd功能

#服務端
import socket
import subprocess
sever = socket.socket()
sever.bind(('127.0.0.1', 33521))
sever.listen()
while True:
client, address = sever.accept()
while True:
try:
cmd = client.recv(1024).decode('utf-8')
p1 = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr= subprocess.PIPE)
data = p1.stdout.read()
err_data = p1.stderr.read()
client.send(data)
client.send(err_data)
except ConnectionResetError:
print('connect broken')
client.close()
break
sever.close()



#客戶端
import socket
client = socket.socket()
client.connect(('127.0.0.1', 33521))
while True:
cmd = input('請輸入指令(Q\q退出)>>:').strip().lower()
if cmd == 'q':
break
client.send(cmd.encode('utf-8'))
data = client.recv(1024)
print(data.decode('gbk'))
client.close()

上述是基於TCP協議的遠端cmd簡單功能，在執行時會發生粘包。

2、什麼是粘包？

只有TCP會發生粘包現象，UDP協議永遠不會發生粘包；

TCP：（transport control protocol，傳輸控制協議）流式協議。在socket中TCP協議是按照位元組數進行資料的收發，資料的傳送方發出的資料往往接收方不知道資料到底長度是多長，而TCP協議由於本身為了提高傳輸的效率，傳送方往往需要收集到足夠的資料才會進行傳送。使用了優化方法（Nagle演算法），將多次間隔較小且資料量小的資料，合併成一個大的資料塊，然後進行封包。這樣，接收端，就難於分辨出來了，必須提供科學的拆包機制。即面向流的通訊是無訊息保護邊界的。

UDP：（user datagram protocol，使用者資料報協議）資料報協議。在socket中udp協議收發資料是以資料報為單位，服務端和客戶端收發資料是以一個單位，所以不會使用塊的合併優化演算法，, 由於UDP支援的是一對多的模式，所以接收端的skbuff(套接字緩衝區）採用了鏈式結構來記錄每一個到達的UDP包，在每個UDP包中就有了訊息頭（訊息來源地址，埠等資訊），這樣，對於接收端來說，就容易進行區分處理了。 即面向訊息的通訊是有訊息保護邊界的。

TCP協議不會丟失資料，UDP協議會丟失資料。

udp的recvfrom是阻塞的，一個recvfrom(x)必須對唯一一個sendinto(y),收完了x個位元組的資料就算完成,若是y>x資料就丟失，這意味著udp根本不會粘包，但是會丟資料，不可靠。

tcp的協議資料不會丟，沒有收完包，下次接收，會繼續上次繼續接收，己端總是在收到ack時才會清除緩衝區內容。資料是可靠的，但是會粘包。

3、什麼情況下會發生粘包？

1.由於TCP協議的優化演算法，當單個數據包較小的時候， 會等到緩衝區滿 才會發生資料包前後資料疊加在一起的情況。然後取的時候就分不清了到底是哪段資料，這是第一種粘包。

2.當傳送的單個數據包較大 超過緩衝區 時，收資料方一次就只能取一部分的資料，下次再收資料方再收資料將會延續上次為接收資料。這是第二種粘包。

粘包的本質問題就是接收方不知道傳送資料方一次到底傳送了多少資料，解決問題的方向也是從控制資料長度著手，也就是如何設定緩衝區的問題

4、如何解決粘包問題？

解決問題思路：上述已經明確粘包的產生是因為接收資料時不知道資料的具體長度。所以我們應該先發送一段資料表明我們傳送的資料長度，那麼就不會產生資料沒有傳送或者沒有收取完全的情況。

1.struct 模組（結構體）

struct模組的功能可以將python中的資料型別轉換成C語言中的結構體（bytes型別）

import struct
s = 123456789
res = struct.pack('i', s)
print(res)

res2 = struct.unpack('i', res)
print(res2)
print(res2[0])

2.粘包的解決方案基本版

既然我們拿到了一個可以固定長度的辦法，那麼應用struct模組，可以固定長度了。

為位元組流加上自定義固定長度報頭，報頭中包含位元組流長度，然後一次send到對端，對端在接收時，先從快取中取出定長的報頭，然後再取真實資料

#伺服器端
import socket
import subprocess
import struct
sever = socket.socket()
sever.bind(('127.0.0.1', 33520))
sever.listen()
while True:
client, address = sever.accept()
while True:
try:
cmd = client.recv(1024).decode('utf-8')
#利用子程序模組啟動程式
p = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
#管道輸出的資訊有正確和錯誤的
data = p.stdout.read()
err_data = p.stderr.read()
#先將資料的長度傳送給客戶端
length = len(data)+len(err_data)
#利用struct模組將資料的長度資訊轉化成固定的位元組
len_data = struct.pack('i', length)
#以下將資訊傳輸給客戶端
#1.資料的長度
client.send(len_data)
#2.正確的資料
client.send(data)
#2.錯誤管道的資料
client.send(err_data)
except Exception as e:
client.close()
print('連線中斷。。。。')
break


#客戶端
import socket
import struct

client = socket.socket()
client.connect(('127.0.0.1', 33520))
while True:
cmd = input('請輸入指令>>:').strip().encode('utf-8')
client.send(cmd)
#1.先接收傳過來資料的長度是多少，我們通過struct模組固定了位元組長度為4
length = client.recv(4)
#將struct的位元組再轉回去整型數字
len_data = struct.unpack('i', length)
print(len_data)
len_data = len_data[0]
print('資料長度為%s:' % len_data)

all_data = b''
recv_size = 0
#2.接收真實的資料
#迴圈接收直到接收到資料的長度等於資料的真實長度（總長度）
while recv_size < len_data:
data = client.recv(1024)
recv_size += len(data)
all_data += data

print('接收長度%s' % recv_size)
print(all_data.decode('gbk'))

伺服器端：
1.在伺服器端先收到命令，開啟子程序，然後計算返回的資料的長度
2.先利用struct模組將資料長度轉成固定4個位元組傳給客戶端
3.再向客戶端傳送真實的資料。
客戶端（兩次接收）：
1.第一次只接受4個位元組，因為長度資料就是4個位元組。這樣防止了資料粘包。解碼得到長度資料
2.第二次迴圈接收真實資料，拼接真實資料完成解碼讀取資料。

很顯然，如果僅僅只是這樣肯定無法滿足在實際生產中一些需求。那麼該怎麼修改？

我們可以把報頭做成字典，字典裡包含將要傳送的真實資料的詳細資訊，然後json序列化，然後用struck將序列化後的資料長度打包成4個位元組（4個位元組足夠用了）

我們可以將自定義的報頭設定成這種這種格式。

傳送時：

1先發報頭長度

2再編碼報頭內容然後傳送

3最後發真實內容

接收時：

1先收報頭長度，用struct取出來

2根據取出的長度收取報頭內容，然後解碼，反序列化

3從反序列化的結果中取出待取資料的詳細資訊，然後去取真實的資料內容

#伺服器端
import socket
import subprocess
import datetime
import json
import struct
sever = socket.socket()
sever.bind(('127.0.0.1', 33520))
sever.listen()
while True:
client, address = sever.accept()
while True:
try:
cmd = client.recv(1024).decode('utf-8')
#啟動子程序
p = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
#得到子程序執行的資料
data = p.stdout.read()#子程序執行正確的輸出管道資料，資料讀出來後是位元組
err_data = p.stderr.read() #子程序執行錯誤的輸出管道資料
#計算資料的總長度
length = len(data) + len(err_data)
print('資料總長度：%s' % length)

#先需要傳送報頭資訊，以下為建立報頭資訊（至第一次傳送）


#需要新增時間資訊
time_info = datetime.datetime.now()
#設定一個字典將一些額外的資訊和長度資訊放進去然後json序列化，報頭字典
masthead = {}
#將時間資料放入報頭字典中
masthead['time'] = str(time_info)#時間格式不能被json序列化，所以將其轉化為字串形式
masthead['length'] = length

#將報頭字典json序列化
json_masthead = json.dumps(masthead)#得到json格式的報頭
# 將json格式的報頭編碼成位元組形式
masthead_data = json_masthead.encode('utf-8')
#利用struct將報頭編碼的位元組的長度轉成固定的位元組(4個位元組）
masthead_length = struct.pack('i', len(masthead_data))


#1.傳送報頭的長度（第一次傳送）
client.send(masthead_length)
#2.傳送報頭資訊(第二次傳送）
client.send(masthead_data)
#3.傳送真實資料（第三次傳送）
client.send(data)
client.send(err_data)
except ConnectionResetError:
print('客戶端斷開連線。。。')
client.close()
break



#客戶端
import socket
import struct
import json
client = socket.socket()
client.connect(('127.0.0.1', 33520))
while True:
cmd = input('請輸入cmd指令(Q\q退出)>>:').strip()
if cmd == 'q':
break

#傳送CMD指令至伺服器
client.send(cmd.encode('utf-8'))


#1.第一次接收，接收報頭資訊的長度，由於struct模組固定長度為4位元組，括號內直接填4
len_masthead = client.recv(4)
#利用struct反解報頭長度，由於是元組形式，取值得到整型數字masthead_length
masthead_length = struct.unpack('i', len_masthead)[0]


#2.第二次接收，接收報頭資訊，接收長度為報頭長度masthead_length 被編碼成位元組形式的json格式的字典,
# 解字元編碼得到json格式的字典masthead_data
masthead_data = client.recv(masthead_length).decode('utf-8')
#得到報頭字典masthead
masthead = json.loads(masthead_data)
print('執行時間%s' % masthead['time'])
#通過報頭字典得到資料長度
data_length = masthead['length']

#3.第三次接收，接收真實資料，真實資料長度為data_length
# data = client.recv(data_length)#有可能真實資料長度太大會撐爆記憶體。
#所以迴圈讀取資料
all_data = b''
length = 0
#迴圈直到長度大於等於資料長度
while length < data_length:
data = client.recv(1024)
length += len(data)
all_data += data
print('資料的總長度：%s' % data_length)

#我的電腦是Windows系統，所以用gbk解碼系統發出的資訊
print(all_data.decode('gbk'))

總結：

1.TCP協議中，會產生粘包現象。粘包現象產生本質就是讀取資料長度未知。

2.解決粘包現象本質就是處理讀取資料長度。

3.報頭的作用就是解決資料傳輸過程中資料長度怎麼計算傳達和傳輸其他額外資訊的。

python中TCP協議中的粘包問題

您可能也會喜歡…