1. 程式人生 > >【高效能】Lustre分散式儲存檔案系統介紹和故障分析

【高效能】Lustre分散式儲存檔案系統介紹和故障分析

Lustre是應用廣泛的linux開源分散式儲存檔案系統,其容量可輕易擴容到PB級別,在HPC、雲上有相應的使用。


Lustre由元資料伺服器MDS、資料儲存伺服器OSS組成。MDS伺服器負責管理OSS伺服器上的資料,並處理來自客戶端的資料請求。每個OSS伺服器的本地儲存器,比如硬碟,被劃分為多個raid陣列,每個陣列被虛擬為OST資料鏈路;一個oss伺服器包含多個熱備盤用於備份本地資料,熱備盤並不儲存某塊硬碟的資料備份,而是使用全域性資料推算的方法,儲存oss伺服器上的資料的數字特徵,這使得任意一塊硬碟發生故障,oss伺服器可通過熱備盤記錄的資料恢復出本地所有的資料。Oss伺服器的資料儲存方式有條帶和非條帶方式,條帶方式會將一份檔案完整地儲存在任意oss上,非條帶方式則會打散檔案並存到任意oss上;前者有助於資料恢復,後者有利於加快資料傳輸速度。

linux客戶端使用lustre,需要安裝相應的lustre客戶端軟體,並遠端掛載MDS伺服器上提供的lustre路徑。為了指定lustre服務使用的網路驅動器,需要設定/etc/modprobe.d/lustre.conf檔案的內容為:options lnetnetworks=tcp(你的網路驅動器)。啟動lustre需要載入lnet和lustre模組,設mds伺服器地址為192.168.2.1,啟動程式碼如下:

modprobe lnet

modprobe lustre#有版本不需要

lctl network up

linux客戶端遇到無法掛載lustre的情況,依次檢查:

1、  網路是否啟用是否能ping通mds伺服器

2、  是否載入和啟用lnet和lustre服務

3、  檢查/etc/modprobe.d/lustre.conf檔案是否設定了正確的網路驅動器

4、  某些版本lustre可能會使用/etc/modprobe.d/lustre1w之類的奇怪檔案作為lustre設定,檢查這些檔案

5、  Mds伺服器是否宕機

6、  條帶儲存型的lustre系統的oss伺服器發生故障,可能有一部分客戶端能夠連線,一部分客戶端配置正確卻不能連線。可以在管理節點上使用StorMan軟體逐個檢查oss伺服器是否宕機

7、  使用lfs df命令檢視ost是否存在故障

大部分無法掛載的情況,檢查並更新配置,重啟客戶端,重啟宕機的伺服器,一般都能解決。如果oss伺服器出現故障硬碟(硬碟燈常亮),需要及時更換新硬碟,lustre會自動在新硬碟上重建資料;如果壞硬碟數量超過熱備盤,一般很難恢復所有資料。如果無法啟動oss伺服器,考慮記憶體、硬碟或者raid卡發生故障,這時候需要聯絡廠商售後更換故障零部件。

相關推薦

高效能Lustre分散式儲存檔案系統介紹故障分析

Lustre是應用廣泛的linux開源分散式儲存檔案系統,其容量可輕易擴容到PB級別,在HPC、雲上有相應的使用。 Lustre由元資料伺服器MDS、資料儲存伺服器OSS組成。MDS伺服器負責管理OSS伺服器上的資料,並處理來自客戶端的資料請求。每個OSS伺服器的本地儲存

原創基於分散式儲存的開源系統在實時資料庫海量歷史資料儲存專案上的預研

1.  要關注的問題 2.  解決問題的傳統方法 3.  傳統方法的優化以及優化過程中問題 4.  Hadoop是什麼?Hadoop中的HDFS、MapReduce與HBase。 5  利用HBase如何解決要關注的問題 1.  要關注的問題 青島高

作業系統第十章檔案系統介面

檔案系統由兩個不同部分組成: 一組檔案:檔案用於儲存相關資料 目錄結構:目錄用於組織系統內檔案並提供檔案相關資訊 10.1檔案概念 檔案是記錄在外存上的相關資訊的具有名稱的集合。 從使用者角度而言,檔案是邏輯外存的最小分配單元,即除非資料在

整理視訊中IBP幀的介紹判定方法

  B幀(B frame) 基本概念   B幀法是雙向預測的幀間壓縮演算法。當把一幀壓縮成B幀時,它根據相鄰的前一幀、本幀以及後一幀資料的不同點來壓縮本幀,也即僅記錄本幀與前後幀的差值。只有採用B幀壓縮才能達到200:1的高壓縮。 B幀的模式   B 幀在 MPEG-4 中有四種參考模式,如果是同時參考前

雲原生資料庫mysql對共享儲存分散式檔案系統的介面需求分析原創

1. 引言   雲原生資料庫跟分散式mpp資料庫是有差異的,雖然兩者都是計算與儲存分離,但是在資源的佔用上有所不同。雲原生資料庫是shard everything架構,其依賴的儲存資源、記憶體資源、事務資源在雲中都是共享、彈性伸縮的。由分散式檔案系統提供按需分配、租戶隔離的塊儲存,由分散式記憶體池提供buff

HadoopHDFS分散式檔案系統

HDFS分散式檔案系統 HDFS基本知識 前言 目標 侷限性 HDFS相關概念 塊(Block) HDFS架構 名稱節點(NameNode) 資料

FastdfsFastdfs分散式檔案系統的安裝部署使用,以及fastdfs連線池connectionpool編寫使用

環境:centos 7.X 預編譯安裝元件 yum install gcc gcc-c++ automake pcre pcre-devel zlip zlib-devel openssl openssl-devel libevent-dev git -y 以上安裝完,後續的各

FastdfsFastdfs分散式檔案系統的安裝部署使用,結合nginx訪問圖片,fastdfs連線池connectionpool編寫使用,文末有github連結

環境:centos 7.X 預編譯安裝元件 yum install gcc gcc-c++ automake pcre pcre-devel zlip zlib-devel openssl openssl-devel libevent-dev git -y   以上安裝

FastDFSFastDFS 分散式檔案系統的安裝與使用,看這一篇就夠了!!

## 寫在前面 > 有不少小夥伴在實際工作中,對於如何儲存檔案(圖片、視訊、音訊等)沒有一個很好的解決思路。都明白不能將檔案儲存在單臺伺服器的磁碟上,也知道需要將檔案進行副本備份。如果自己手動寫檔案的副本機制,那就太麻煩了,這會涉及冗餘副本機制、伺服器的排程、副本檢測、伺服器節點檢測、檔案副本存放策略

LinuxCentOS Linux 7.4系統上傳檔案失敗:sftp put: failed to upload d:/0data/test.txt Failure

CentOS Linux 7.4系統上傳檔案失敗 場景: 使用SecureCRT軟體下sftp長傳一個幾十M的檔案上傳失敗,報錯如下:sftp put: failed to upload d:/0data/test.txt Failure 解決: 一開始以為是CRT軟體的問題,但使用Xs

unix學習檔案系統資訊檔案許可權

檔案系統資訊和檔案許可權 cpuinfo cpu的資訊 總核數 = 物理CPU個數 X 每顆物理CPU的核數 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超執行緒數 檢視物理CPU個數 cat /proc/cpuinfo|

分散式系統漫談_分散式事務一致性:阿里方案

其實對於生產環境的分散式事務一致,各大網際網路公司都是自己實現的解決方案,總結起來無非是非同步、補償、實時查詢、定期校對幾種模式,大部分場景都是使用到訊息中介軟體。下面介紹下阿里對分散式事務一致

分散式系統漫談_分散式系統帶來的問題

上文中我們簡單描繪了一個系統從單體應用向分散式叢集應用轉變的過程,通過轉變可以讓系統擁有更強大的併發訪問支援,但是同時使用分散式部署也會帶來一些單體不存在的問題,本文就這些問題整理討論一下。

ROSNo.2 ROS入門-ROS檔案系統介紹

ROS檔案系統介紹 本教程主要介紹ROS檔案系統,包括命令工具`roscd`、`rosls`、`rospack`的使用。 **適用人群:**初學者 0.1預備工作 本教程中我們將會用到`ros-tuto

Androidpull解析xml檔案+將資料儲存為xml格式,並儲存在記憶體裡

在解析中,常用到的還有一種解析就是pull去解析xml格式的檔案。事實上android內部也是這樣做的。今天這個demo是來自傳智播客,可能技術已經被翻新了。 但是基礎原理還是那樣,希望基礎學習者,能夠理解,並實際寫一寫。 首先在src目錄下匯入我們將要解析的xml檔案:

深度學習3keras:儲存keras學習好的深度神經網路模型引數為二進位制txt檔案

http://blog.csdn.net/linmingan/article/details/50906141 由於工程需要,儲存為hdf5的keras權值在c/c++中的讀取比較不方便。因此將keras中的權值剝離出來,並儲存為二進位制檔案或者txt檔案。在進行程式碼的編

FatFS檔案系統介紹及使用例程

FatFS檔案系統包含了檔案 ff.h         :檔案系統實現標頭檔案,定義有檔案系統所需的資料結構 diskio.h  :底層驅動標頭檔案,就一些狀態巨集的定義和底層驅動函式的申明 integer.h:僅實現資料型別重定義,增加系統的可移植性 ffcon

讀書精華分享分散式實時處理系統 原理、架構與實現》盧譽聲著/2016年

【分享說明】: 我會花很多時間或淺或深的研讀一本書,然後總結一些提煉出來的精華,用簡短的語言,讓其他人能夠用很少的時間大致知道這本書能帶給自己的價值,如果適用自己,鼓勵買一本正本實體書細讀

轉載大牛很通俗地介紹《信號與系統

推廣 mil 原始的 智能控制 最好 有時 如果 數學 根據 轉載地址:http://emuch.net/bbs/viewthread.php?tid=4009368&fpage=1 第一課 什麽是卷積 卷積有什麽用 什麽是傅利葉變換 什麽是拉普拉斯變換 引子

重要號外啦,演示系統發布啦

search comm earch 智能 com http 時間不一致 線程 代碼 最近一直比較忙,很多東西都咩有認證整理,今晚將所有項目整理了做了一個演示系統,可以方便自己找也方便大家查看整體布局如下圖:演示系統的地址:http://www.54php.cn/demo 下