1. 程式人生 > >S7700交換機組網部分終端上不了網故障排查

S7700交換機組網部分終端上不了網故障排查

s7700 交換機 來回路徑不一致

本案例是多年之前遇到的一個真實故障處理過程,之後回想整個過程覺得比較有意思,因此將故障排查記錄下來,現在將其分享出來,在其中隱藏了部分敏感信息。由於當時主要是做華為的服務,客戶報的故障為S7700交換機的問題,因此本故障排查之初即在於S7700交換機。往往客戶報的故障只是一個現象,而該現象又往往具有不確定性,因此我們需要認真的去分析網絡環境,以及數據流走向,抓往一個故障點,突破一個故障面的問題。
一、問題描述

            兩臺S7700交換機配置VRRP,所有的流量主要走S3700、主S7700交換機、主H3C路由器上行至省分行,組網情況如下:

技術分享圖片
故障現象:部分終端訪問省分行的服務器特別慢,而同網段的其他終端訪問又正常。

備註:客戶反饋的故障是某客戶端有的時候訪問某些服務慢,有的時候又正常,現象比較模糊。
二、處理過程
對此問題的分析,選擇了幾個特定的地址進行測試,選擇的地址如下:
測試服務器地址:11.X.17.1
測試客戶端IP地址分別為11.X.161.104(異常)以及11.X.161.106(正常)。
兩臺測試用的客戶端連接在S3700,網關位於S7700交換機,服務器位於上級單位。
1.首先抓取了兩臺S7700以及S3700交換機的配置分析,配置正確;
2.在兩臺客戶機上tracert 11.X.17.1服務器地址,路徑一致;
3.在兩臺客戶機上ping 11.X.17.1服務器地址,均可以正常的ping通,有時11.X.161.104的延時會明顯大於11.X.161.106;
4.在兩臺客戶機同時通過http訪問11.X.17.1服務器,11.X.161.104無法打開網頁,11.X.161.106正常;
5.將備S7700交換機關機,故障現象消除,兩臺客戶端均可以通過http正常訪問服務器;
6.將兩臺客戶的IP地址對調,發現故障跟隨IP地址走。
由於VRRP的主在主S7700交換機,流量上行走主鏈路到達服務器,通過上面的測試猜測報文在回包的時候被丟到了備S7700交換機。
7.在主S7700交換機以及備S7700交換機的上行接口同時抓包,發現如下的現象:
a. 主S7700交換機G3/0/12接口同時抓取到了兩臺客戶端ping服務器、http訪問服務器的報文;
b. 備S7700交換機G3/0/12接口只抓到客戶端的icmp reply報文,無任何請求報文, 並且出現大量的TCP重傳,備交換機的抓包截圖如下:
技術分享圖片
由此可以明確數據上行的時候全部走的主鏈路、數據包回程的時候部分流量走到了備交換機,交換機本身只做數據包的轉發。通過分析網絡結構,懷疑出現此現象的原因在H3C路由器及其以上的鏈路、上級機構路由器回程路由存在問題。繼續做如下測試:
8.將備H3C路由器關機,網絡正常;
9.將備H3C路由器上行鏈路斷開,只保留主H3C路由器上行鏈路,故障恢復;
10.將主H3C路由器上行鏈路斷開,只保留備H3C路由器上行鏈路,故障復現;
同時現場了解到的情況,備H3C路由器上行接口帶寬為2M線路,客戶的網絡結構為主備,而不是負載,因此理論上講備線路上不應該有回程報文,同時即使回程報文進行了負載,那麽當數據全部走備線路回應的時候應該也是正常的,而實際上只有備線路仍然存在故障。綜合上面的測試得出如下的結論:
1.華為交換機S7700只根據上下行設備轉發過來的數據進行轉發,在該網絡環境中工作正常;
2.上級單位的設備在處理報文的回程轉發時存在異常,需要協調上級單位進行排查;
3.備H3C路由器的上行線路存在問題需要進一步排查。
三、根因

1.省分行的下聯路由器到市分行的路由選路存在問題;

2.聯通的線路存在問題。
四、解決方案

1.在省分行調整選路;

2.聯通的線路帶寬不夠,增加帶寬。
五、建議與總結
對於這類網絡涉及面較大的問題建議理清故障現象,從一個故障現象找到突破口;從一個突破口再擴展到整網的排查。

S7700交換機組網部分終端上不了網故障排查