1. 程式人生 > >物聯網海量裝置心跳註冊,脫網清除——多執行緒高併發互斥鎖落地

物聯網海量裝置心跳註冊,脫網清除——多執行緒高併發互斥鎖落地

物聯網海量裝置心跳註冊,脫網清除——多執行緒高併發互斥鎖落地

目錄

  • 物聯網海量裝置心跳註冊,脫網清除——多執行緒高併發互斥鎖落地
  • 1.應用背景
  • 2.整體框架
    • 2.1.心跳註冊框架
      • 2.1.1.海量裝置
      • 2.1.2.心跳上報Handler流程
    • 2.2.脫網清理框架
      • 2.2.1.啟用字典表清理脫網裝置方法
      • 2.2.2.脫網清理流程圖
  • 3.多執行緒與高併發說明
    • 3.1.多執行緒說明
    • 3.2.高併發說明
  • 4.多執行緒高併發造成的異常現象
    • 4.1.空引用
    • 4.2.字典表裡元素賦值不成功
    • 4.3.統計裝置總數不正確
  • 5.分析異常原因
    • 5.1.造成空引用的原因
    • 5.2.裝置IP賦值不成功原因
    • 5.3.統計裝置總數不正確原因
  • 6.解決思路
  • 7.程式碼實現
  • 8.小結

1.應用背景

在物聯網應用場景中,需要維護很多個裝置的連線,比如基於TCP socket通訊的長連線,目的是為了獲取裝置採集的資訊,反向控制裝置的數字開關或者模擬量。我們把這些TCP長連線都放入了基於執行緒安全的ConcurrentDictionary啟用字典表中,IP地址作為key,裝置箱領域模型作為value。我們需要把啟用裝置箱的字典表維護好,需要將超時沒有心跳的裝置,我們可以稱之為脫網裝置,給清理出啟用字典表,寫入到脫網告警字典表中去。當脫網裝置下次再有心跳時,可以再次移入到啟用字典表中,從而再產生恢復告警,進行一系列其他動作。

2.整體框架

2.1.心跳註冊框架

2.1.1.海量裝置

因為要模擬海量裝置的TCP場景,我們利用模擬器生成了12000臺模擬裝置。8臺真實裝置。

2.1.2.心跳上報Handler流程

詳細心跳上報流程詳見上述框架圖

  • 第一次建立TCP長連線,並且上報心跳報文;
  • socket快取會先處理TCP中存在的粘包,具體方法可參見此篇博文 TCP粘包處理現象及其解決方案——基於NewLife.Net網路庫的管道式幀長粘包處理方法
  • 然後會觸發OnReceive中的e事件,從而傳入粘包處理後的message;
  • 判斷包有效性,因為這方面比較簡單,根據不同協議寫一個類來處理即可,這裡不再展開;
  • 包有效載荷的CRC判斷,具體實現可參見此篇博文 基於Modbus三種CRC16校驗方法的效能對比;
  • 包型別解析(這裡特指解析出心跳包);
  • 心跳包解析,具體可參見這兩篇博文。深入淺出C#結構體——封裝乙太網心跳包的結構為例, 類與結構體效能對比測試——以封裝網路心跳包為例
  • 最終將裝置新增啟用字典表(第一次心跳)或者在啟用字典表重新整理心跳時間(非第一次心跳)。

突然發現我可以寫一個物聯網的採集系統的系列了,組織一個目錄。希望自己堅持下去吧。

2.2.脫網清理框架

2.2.1.啟用字典表清理脫網裝置方法

原理很簡單,遍歷字典表中超過設定的檢測週期,篩選到一個字典的IEnumerable中去,然後在啟用字典表中刪除對應超時key(這裡就是指IP地址)即可。當然這裡的_internal週期可以*N,多個週期,自行在配置檔案中設定即可,配置檔案如下:

 "ipboxNumStaticInternal": 12
    public static void DeleteDeadBoxFromActiveBox(in _internal)
    {
        {
            var outTime = DateTime.Now.AddSeconds(-_internal);
            var iboxTimeOutList = iboxActiveDictionary.Where(q => (outTime > q.Value.UpdateTime));//.Select(x=> iboxActiveDictionary[x.Key]) ;
            foreach (var item in iboxTimeOutList)
            {
                iboxActiveDictionary.Remove(item.Key);
            }               
        }
    }

2.2.2.脫網清理流程圖

這裡主要開啟了一個系統定時器,主動會去呼叫清理脫網裝置方法,呼叫時間間隔即ipboxNumStaticInternal。程式碼如下:

    public void systemTimerStart()
    {
        var interval = ReadTheInternalFromSetting();
        _systemTimer = new Timer(state =>
        {               
            IBoxActiveDicManager.DeleteDeadBoxFromActiveBo(_internal);
            Console.WriteLine("{1},啟用裝置數量:{0}\n",IBoxActiveDicManager.iboxActiveDictionary.Count,DateTime.Now);
        }, null, interval, interval);
        Console.WriteLine("PemsCom採集系統時鐘已經開啟");
        LoggerHelper.Info("PemsCom採集系統時鐘已經開啟");
    }

    /// <summary>
    /// 配置檔案讀入時間間隔方法
    /// </summary>
    /// <returns></returns>
    private int ReadTheInternalFromSetting()
    {
        _internal = int.Parse(Appsettings.app(new string[] {"ipboxNumStaticInternal" }));
        Console.WriteLine("PemsCom採集系統時鐘配置引數已經讀");
        LoggerHelper.Info("PemsCom採集系統時鐘配置引數已經讀");
        return Convert.ToInt32(TimeSpan.FromSecond(_internal).TotalMilliseconds);
    }

3.多執行緒與高併發說明

3.1.多執行緒說明

這裡會有很多的執行緒讓CPU來輪片執行,比如:

  • 12008個Receive事件觸發執行緒;
  • 定時清除脫網裝置執行緒;
  • 主執行緒,監控命令列輸入,並執行對應的命令;

舉個實際的例子,以圖為證

12008臺裝置,每秒處理接受網路包的峰峰值是9218個包,就是在某一秒,CPU共輪片執行了9218個執行緒。比如是雙核4執行緒的,則9218/4=2304.5。即CPU在1秒輪片執行了2305次。即0.43毫秒就輪片執行一次。

3.2.高併發說明

其實3.1已經解釋了高併發。在某一秒,需要處理的接收事件有接近1萬件。而這一時刻的執行順序是無序的,9218裡的這麼多執行緒,我們不知道哪個先執行,哪個後執行。如果不認為地加一些邏輯控制,比如我們今天要介紹的互斥鎖,就會出現一些異常現象。

4.多執行緒高併發造成的異常現象

這裡只描述現象,原因會在下面5.分析異常原因 做具體描述。

4.1.空引用

異常所在的位置:心跳處理類如下。

    public class HeartHandler
    {
        static string _deviceIndex = Appsettings.app(new string[] { "DeviceIndex" });
        private static IBoxActive iboxActive;
        public static void Register(TcpHeartPacket heartPacket,int sessId)
        {
            UInt32 IP;
            UInt64 mac;
            if (_deviceIndex == "IP")
            {
         
                IP =(UInt32)BitConverter.ToUInt32(heartPacket.IP, 0);
                if (IBoxActiveDicManager.GetBoxActive(IP, out iboxActive) != true)
                {       
                    IBoxActiveDicManager.iboxActiveDictionary.TryAdd(IP, iboxActive);
                    iboxActive.SessID = sessId;
                }
               
            }
            else
            {
                 mac = (UInt64)BitConverter.ToUInt64(heartPacket.Mac, 0);
                if (IBoxActiveDicManager.GetBoxActive(mac, out iboxActive) != true)
                {
                    IBoxActiveDicManager.iboxActiveDictionary.TryAdd(mac, iboxActive);
                    iboxActive.SessID = sessId;
                }
            }

            //引用型別,智慧指標,使用方便
            iboxActive.UpdateTime = DateTime.Now;

           
        }
    }

4.2.字典表裡元素賦值不成功

        /// <summary>
        /// 查詢啟用裝置箱字典中是否有存在上報的裝置箱,
        /// 存在返回true,不存在返回false,並且新建好裝置箱模型
        /// </summary>
        /// <param name="mac"></param>
        /// <param name="iboxActive"></param>
        /// <returns></returns>
        public static bool GetBoxActive(UInt32 IP, out IBoxActive iboxActive)
        {
 
            if (iboxActiveDictionary.TryGetValue(IP, outiboxActive))
            {
                return true;
            }
            
            iboxActive = new IBoxActive();
           
            iboxActive.IP = IP;

            if (iboxActive.IP != IP)
            {
                LoggerHelper.Error(string.Format("例項化賦值不成功.iboxActive.IP:{0};IP{1}", iboxActive.IP, IP));
            }

            return false;
        }

有沒有感覺很奇怪,上一句都賦值了,下一句對比就不相等。但是在多執行緒大併發裡就是有這種可能,下面會詳細分析。

4.3.統計裝置總數不正確

因為12008臺大併發時很容易出錯,所以改成了1000臺。如下統計資料會有出錯情況,這同樣也是因為多執行緒高併發引起的錯誤。

5.分析異常原因

5.1.造成空引用的原因

其實第4的三點原因都是同一個原因造成,所以在5.1會詳細闡述,5.2,,5.3只做簡單闡述。這裡敲下黑板,分析多執行緒高併發的異常問題,程式執行的特點就是見縫就插,就像個老司機一樣,概括起來就是執行緒與執行緒之間的無序性。比如我們裝置心跳執行緒正在更新裝置心跳時間的時候。脫網清理執行緒就把該裝置給清理掉了。如此一來,時間沒法賦值給空物件(已被脫網執行緒給清理)。因此只能報空引用異常,對沒錯,就是這麼簡單,耗費了我很長時間去debug跟思考這個異常。

5.2.裝置IP賦值不成功原因

同樣,在建立了裝置例項之後,IP賦值完成,剛好脫網清除裝置執行緒執行清除了裝置,當對比的時候,引用原來的地址,字典的原來地址已經存了其他裝置箱的IP,所以IP地址不相等。

5.3.統計裝置總數不正確原因

原因其實是5.2造成的,沒法成功註冊,當然數量就不對啦。

6.解決思路

就是當我在建立啟用裝置例項(第一次心跳註冊)或者更新心跳時間的時候(非第一次註冊),不要讓無序的脫網清除執行緒執行。敲黑板:就是保證心跳處理註冊過程的原子性。對,其實這裡很像關係型資料庫的事務,原子性。原子性就是對抗程式無序造成異常的有力武器。我們可以在註冊心跳處理方法上加個互斥鎖,讓編譯器跟執行時去安排更加合理的執行順序。

7.程式碼實現

程式碼很簡單。

    //定義一把鎖
    public static Mutex activeIpboxDicMutex = new Mutex();
    //裝置箱註冊加鎖。異常全部消除
    IBoxActiveDicManager.activeIpboxDicMWaitOne();
    HeartHandler.Register(tcpHeartPacsessionId);
    IBoxActiveDicManager.activeIpboxDicMReleaseMutex();

這裡插入一下事務的使用,也是很類似的,把我們的主業務加中中間,類比方便大家理解記憶。就像夾心餅乾(瞎扯)。

            unitOfWork.BeginTransaction();

            // Adds new device
            unitOfWork.DeviceRepository.Add(device);

            // Commit transaction
            unitOfWork.Commit();

當然也可以給裝置箱脫網清除執行緒加鎖。

     IBoxActiveDicManager.activeIpboxDicMutex.WaitOne();
     IBoxActiveDicManager.DeleteDeadBoxFromActiveBox(_internal);
     IBoxActiveDicManager.activeIpboxDicMutex.ReleaseMutex();

考慮到脫網清除執行緒會損耗部分效能,我也測試了去掉該鎖的情況,也不會有第4的3個異常,至此問題全部解決。

8.小結

  • 模擬裝置數量小測不出這個問題,如此看出海量裝置的重要性,因為現實情況肯定會出現以上三個問題,而且都是很嚴重很致命的問題。好的測試方法可以把問題扼殺在搖籃中;

  • 多執行緒高併發時容易出現這樣那樣的異常,要懷著敬畏之心去思考,去解決問題;


版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。

本文連結:https://www.cnblogs.com/JerryMouseLi/p/12709048.h