1. 程式人生 > >記一次AD域共享訪問錯誤(There are Currently No Logon Servers Available)的解決過程

記一次AD域共享訪問錯誤(There are Currently No Logon Servers Available)的解決過程

內容摘要:本文描述了一次典型的域問題故障處理過程,現記錄如下以供同僚們參考

背景

起因

公司內有兩個獨立的域分別為:domA.contoso.com domB.contoso.com
現有檔案伺服器filesvr.domB.contoso.com提供檔案服務,因為業務需要,domA域內使用者計算機需要訪問這臺filesvr
按照常規思路,即需要在兩個域之間建立信任

失敗狀態

在檢視兩個域的信任關係時,狀態顯示一切正常。在domA的域信任配置頁中,外向信任和內部信任都有domB;在domB的域信任配置頁亦同。
然後按照一般的黑匣子處理方法,將兩邊信任去掉,再重建信任,亦並未出現錯誤。
但無論如何,domA不能訪問domB內的任何客戶機上的檔案共享服務,但domB訪問domA的卻一切正常


共享服務出錯提示

解決思路

Google(搜尋引擎)

協議分析

域認證流程

PS:聰明的讀者可能會發現,本來分析到這裡應該告一段落,因為肯定是某臺域控不能訪問,或者名稱解析服務掛掉——而事實的確如此。但為什麼還會有更多的分析工作,因為這兩個域是從windows 2000一直升級到windows 2008而來的,中間經歷了數個維護人員,在我檢視的時候裡面有大量以前遺留下來的域控資訊,以及數個DNS區域同步失敗錯誤。而到我手上時,已經被告知重啟過其中三臺域控。所以我一時間並不能確定是哪臺域控 or DNS問題。

抓包分析

這是在filesvr上抓的包,可以看到,當本機通過SMB接收到客戶端認證資訊(NTLMSSP_AUTH)後,會呼叫DRPC(MS-NRPC)聯絡域控:
PCAP


訪問端傳送了三次認證請求到被訪問端,而被訪問端則三次都聯絡同一臺域控:172.30.128.100。
事實上該域有3臺域控,3個DNS伺服器,而且都通過DHCP分配給了客戶端。但從抓包及客戶機網路資訊來看,workstation只會聯絡主DNS所在那臺域控

解決

檢視172.30.128.100,的確域服務掛了,但並不清楚原因,重啟後正常。

結論

  1. 如果不影響生產,解決問題的最快速有效辦法就是重啟——將所有能重啟的都重啟了,也許問題就解決了。
  2. 大多數突發問題本質上都是年久積疾,但中國現狀如此,大家都懂的。
  3. 一般會認為多臺域控多個保障,但通過這次案例可以發現事實並不完全如此。如果只是某部分服務掛了,排查起來反而更困難。
  4. 底層分析能更好地理解系統工作原理以及問題產生原因,但同時也需要花費一定時間和學習成本(本案例花了整整一天工作時),如果公司本身並不注重IT技術,還不如想想怎麼編藉口。