1. 程式人生 > >全網最詳細的Ceph14.2.5叢集部署及配置檔案詳解,快來看看吧! -- <2>

全網最詳細的Ceph14.2.5叢集部署及配置檔案詳解,快來看看吧! -- <2>

部署Ceph叢集

Ceph版本選擇

Ceph版本來源介紹

Ceph 社群最新版本是 14,而 Ceph 12 是市面用的最廣的穩定版本。
第一個 Ceph 版本是 0.1 ,要回溯到 2008 年 1 月。多年來,版本號方案一直沒變,直到 2015 年 4 月 0.94.1 ( Hammer 的第一個修正版)釋出後,為了避免 0.99 (以及 0.100 或 1.00 ?),制定了新策略。

x.0.z - 開發版(給早期測試者和勇士們)

x.1.z - 候選版(用於測試叢集、高手們)

x.2.z - 穩定、修正版(給使用者們)

x 將從 9 算起,它代表 Infernalis ( I 是第九個字母),這樣第九個釋出週期的第一個開發版就是 9.0.0 ;後續的開發版依次是 9.0.1 、 9.0.2 等等。

| 版本名稱 | 版本號 | 釋出時間 |
| ------ | ------ | ------ |
| Argonaut | 0.48版本(LTS) |   2012年6月3日 |
| Bobtail | 0.56版本(LTS) |  2013年5月7日 |
| Cuttlefish | 0.61版本 |  2013年1月1日 |
| Dumpling | 0.67版本(LTS) |  2013年8月14日 |
| Emperor | 0.72版本 |     2013年11月9 |
| Firefly | 0.80版本(LTS) |  2014年5月 |
| Giant | Giant |  October 2014 - April 2015 |
| Hammer | Hammer |  April 2015 - November 2016|
| Infernalis | Infernalis |  November 2015 - June 2016 |
| Jewel | 10.2.9 |  2016年4月 |
| Kraken | 11.2.1 |  2017年10月 |
| Luminous |12.2.12 |  2017年10月 |
| mimic | 13.2.7 |  2018年5月 |
| nautilus | 14.2.5 |  2019年2月 |

Luminous新版本特性

  • Bluestore
    • ceph-osd的新後端儲存BlueStore已經穩定,是新建立的OSD的預設設定。
      BlueStore通過直接管理物理HDD或SSD而不使用諸如XFS的中間檔案系統,來管理每個OSD儲存的資料,這提供了更大的效能和功能。
    • BlueStore支援Ceph儲存的所有的完整的資料和元資料校驗。
    • BlueStore內嵌支援使用zlib,snappy或LZ4進行壓縮。(Ceph還支援zstd進行RGW壓縮,但由於效能原因,不為BlueStore推薦使用zstd)
  • 叢集的總體可擴充套件性有所提高。我們已經成功測試了多達10,000個OSD的叢集。
  • ceph-mgr
    • ceph-mgr是一個新的後臺程序,這是任何Ceph部署的必須部分。雖然當ceph-mgr停止時,IO可以繼續,但是度量不會重新整理,並且某些與度量相關的請求(例如,ceph df)可能會被阻止。我們建議您多部署ceph-mgr的幾個例項來實現可靠性。
    • ceph-mgr守護程序daemon包括基於REST的API管理。注:API仍然是實驗性質的,目前有一些限制,但未來會成為API管理的基礎。
    • ceph-mgr還包括一個Prometheus外掛。
    • ceph-mgr現在有一個Zabbix外掛。使用zabbix_sender,它可以將叢集故障事件傳送到Zabbix Server主機。這樣可以方便地監視Ceph群集的狀態,並在發生故障時傳送通知。

安裝前準備

  1. 安裝要求
  • 最少三臺Centos7系統虛擬機器用於部署Ceph叢集。硬體配置:2C4G,另外每臺機器最少掛載三塊硬碟(每塊盤5G)

    cephnode01 192.168.25.224  
    cephnode02 192.168.25.227  
    cephnode03 192.168.25.228  
  • 內網yum源伺服器,硬體配置2C4G

    cephyumresource01 192.168.25.224
  1. 環境準備(在Ceph三臺機器上操作)
(1)關閉防火牆:
systemctl stop firewalld
systemctl disable firewalld
(2)關閉selinux:
sed -i 's/enforcing/disabled/' /etc/selinux/config
setenforce 0
(3)關閉NetworkManager
systemctl disable NetworkManager && systemctl stop NetworkManager
(4)新增主機名與IP對應關係:
vim /etc/hosts
192.168.25.224 cephnode01
192.168.25.227 cephnode02
192.168.25.228 cephnode03
(5)設定主機名:
hostnamectl set-hostname cephnode01
hostnamectl set-hostname cephnode02
hostnamectl set-hostname cephnode03
(6)同步網路時間和修改時區
systemctl restart chronyd.service && systemctl enable chronyd.service
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
(7)設定檔案描述符
echo "ulimit -SHn 102400" >> /etc/rc.local
cat >> /etc/security/limits.conf << EOF
* soft nofile 65535
* hard nofile 65535
EOF
(8)核心引數優化
cat >> /etc/sysctl.conf << EOF
kernel.pid_max = 4194303
vm.swappiness = 0 
EOF
sysctl -p
(9)在cephnode01上配置免密登入到cephnode02、cephnode03
ssh-copy-id root@cephnode02
ssh-copy-id root@cephnode03
(10)read_ahead,通過資料預讀並且記載到隨機訪問記憶體方式提高磁碟讀操作
echo "8192" > /sys/block/sda/queue/read_ahead_kb
(11) I/O Scheduler,SSD要用noop,SATA/SAS使用deadline
echo "deadline" >/sys/block/sd[x]/queue/scheduler
echo "noop" >/sys/block/sd[x]/queue/scheduler

安裝內網yum源

1、安裝httpd、createrepo和epel源

yum install httpd createrepo epel-release -y

2、編輯yum原始檔

[root@cephyumresource01 ~]# cat << EOF | tee /etc/yum.repos.d/ceph.repo 
[Ceph]
name=Ceph packages for $basearch
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/\$basearch
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
priority=1

[Ceph-noarch]
name=Ceph noarch packages
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/noarch
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
priority=1

[ceph-source]
name=Ceph source packages
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
EOF

3、下載Ceph安裝包

yum --downloadonly --downloaddir=/var/www/html/ceph/rpm-nautilus/el7/x86_64/ install ceph ceph-radosgw 

4、下載Ceph依賴檔案

wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-14.2.4-0.el7.src.rpm 
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-deploy-2.0.1-0.src.rpm
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-deploy-2.0.1-0.noarch.rpm
 wget  -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-grafana-dashboards-14.2.4-0.el7.noarch.rpm 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-dashboard-14.2.4-0.el7.noarch.rpm
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-diskprediction-cloud-14.2.4-0.el7.noarch.rpm
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-diskprediction-local-14.2.4-0.el7.noarch.rpm
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-rook-14.2.4-0.el7.noarch.rpm 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/  mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-ssh-14.2.4-0.el7.noarch.rpm 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-release-1-1.el7.noarch.rpm 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/   mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-release-1-1.el7.src.rpm 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/   mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-medic-1.0.4-16.g60cf7e9.el7.src.rpm
 wget  -P /var/www/html/ceph/rpm-nautilus/el7/noarch/  mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/repomd.xml 
 wget  -P /var/www/html/ceph/rpm-nautilus/el7/noarch/  mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/repomd.xml
 wget  -P /var/www/html/ceph/rpm-nautilus/el7/noarch/  mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/a4bf0ee38cd4e64fae2d2c493e5b5eeeab6cf758beb7af4eec0bc4046b595faf-filelists.sqlite
 wget  -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/  mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/a4bf0ee38cd4e64fae2d2c493e5b5eeeab6cf758beb7af4eec0bc4046b595faf-filelists.sqlite.bz2
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/183278bb826f5b8853656a306258643384a1547c497dd8b601ed6af73907bb22-other.sqlite.bz2 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/52bf459e39c76b2ea2cff2c5340ac1d7b5e17a105270f5f01b454d5a058adbd2-filelists.sqlite.bz2
 wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/4f3141aec1132a9187ff5d1b4a017685e2f83a761880884d451a288fcedb154e-primary.sqlite.bz2
 wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/  mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/0c554884aa5600b1311cd8f616aa40d036c1dfc0922e36bcce7fd84e297c5357-other.sqlite.bz2 
 wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/597468b64cddfc386937869f88c2930c8e5fda3dd54977c052bab068d7438fcb-primary.sqlite.bz2

5、更新yum源

createrepo --update  /var/www/html/ceph/rpm-nautilus

安裝Ceph叢集

1、編輯內網yum源,將yum源同步到其它節點並提前做好yum makecache

# vim /etc/yum.repos.d/ceph.repo 
[Ceph]
name=Ceph packages for $basearch
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/$basearch
gpgcheck=0
priority=1

[Ceph-noarch]
name=Ceph noarch packages
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/noarch
gpgcheck=0
priority=1

[ceph-source]
name=Ceph source packages
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/srpms
gpgcheck=0
priority=1

2、安裝ceph-deploy(確認ceph-deploy版本是否為2.0.1)

# yum list|grep ceph-deploy
# yum install -y ceph-deploy

3、建立一個my-cluster目錄,所有命令在此目錄下進行(檔案位置和名字可以隨意)

# mkdir /my-cluster
# cd /my-cluster

4、建立一個Ceph叢集

# ceph-deploy new cephnode01 cephnode02 cephnode03 

執行命令報錯:ImportError: No module named pkg_resources

這個問題通常是由於升級到python2.7後執行pip產生的,解決方案是重新在python2.7環境中安裝pip,步驟如下

1.安裝distribute

wget https://pypi.python.org/packages/source/d/distribute/distribute-0.7.3.zip --no-check-certificate
unzip distribute-0.7.3.zip
cd distribute-0.7.3
python setup.py install

2.安裝setuptool
https://pypi.python.org/pypi/setuptools 下載最新版

wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-12.0.3.tar.gz#md5=f07e4b0f4c1c9368fcd980d888b29a65
tar -zxvf setuptools-12.0.3.tar.gz
cd setuptools-12.0.3
python setup.py install

3.安裝pip
easy_install pip

4.如果安裝pip過程中報ImportError: No module named extern異常

https://pypi.python.org/pypi/extern 下載最新extern安裝後再次嘗試即可

解決問題之後重新執行:ceph-deploy new cephnode01 cephnode02 cephnode03

5、安裝Ceph軟體(每個節點執行)

# yum -y install epel-release &&  yum install -y ceph

6、生成monitor檢測叢集所使用的的祕鑰

# ceph-deploy mon create-initial

7、安裝Ceph CLI,方便執行一些管理命令

# ceph-deploy admin cephnode01 cephnode02 cephnode03

8、配置mgr,用於管理叢集

# ceph-deploy mgr create cephnode01 cephnode02 cephnode03

9、部署rgw

# yum install -y ceph-radosgw
# ceph-deploy rgw create cephnode01

10、部署MDS(CephFS)

# ceph-deploy mds create cephnode01 cephnode02 cephnode03 

11、新增osd

ceph-deploy osd create --data /dev/sdb cephnode01
ceph-deploy osd create --data /dev/sdc cephnode01
ceph-deploy osd create --data /dev/sdd cephnode01
ceph-deploy osd create --data /dev/sdb cephnode02
ceph-deploy osd create --data /dev/sdc cephnode02
ceph-deploy osd create --data /dev/sdd cephnode02
ceph-deploy osd create --data /dev/sdb cephnode03
ceph-deploy osd create --data /dev/sdc cephnode03
ceph-deploy osd create --data /dev/sdd cephnode03

ceph.conf

1、該配置檔案採用init檔案語法,#和;為註釋,ceph叢集在啟動的時候會按照順序載入所有的conf配置檔案。 配置檔案分為以下幾大塊配置。

global:全域性配置。
osd:osd專用配置,可以使用osd.N,來表示某一個OSD專用配置,N為osd的編號,如0、2、1等。
mon:mon專用配置,也可以使用mon.A來為某一個monitor節點做專用配置,其中A為該節點的名稱,ceph-monitor-2、ceph-monitor-1等。使用命令 ceph mon dump可以獲取節點的名稱。
client:客戶端專用配置。

2、配置檔案可以從多個地方進行順序載入,如果衝突將使用最新載入的配置,其載入順序為。

$CEPH_CONF環境變數
-c 指定的位置
/etc/ceph/ceph.conf
~/.ceph/ceph.conf
./ceph.conf

3、配置檔案還可以使用一些元變數應用到配置檔案,如。

$cluster:當前叢集名。
$type:當前服務型別。
$id:程序的識別符號。
$host:守護程序所在的主機名。
$name:值為$type.$id。

4、ceph.conf詳細引數

[global]#全域性設定
fsid = xxxxxxxxxxxxxxx                           #叢集標識ID 
mon host = 10.0.1.1,10.0.1.2,10.0.1.3            #monitor IP 地址
auth cluster required = cephx                    #叢集認證
auth service required = cephx                           #服務認證
auth client required = cephx                            #客戶端認證
osd pool default size = 3                               #最小副本數 預設是3
osd pool default min size = 1                           #PG 處於 degraded 狀態不影響其 IO 能力,min_size是一個PG能接受IO的最小副本數
public network = 10.0.1.0/24                            #公共網路(monitorIP段) 
cluster network = 10.0.2.0/24                           #叢集網路
max open files = 131072                                 #預設0#如果設定了該選項,Ceph會設定系統的max open fds
mon initial members = node1, node2, node3               #初始monitor (由建立monitor命令而定)
##############################################################
[mon]
mon data = /var/lib/ceph/mon/ceph-$id
mon clock drift allowed = 1                             #預設值0.05#monitor間的clock drift
mon osd min down reporters = 13                         #預設值1#向monitor報告down的最小OSD數
mon osd down out interval = 600      #預設值300      #標記一個OSD狀態為down和out之前ceph等待的秒數
##############################################################
[osd]
osd data = /var/lib/ceph/osd/ceph-$id
osd mkfs type = xfs                                     #格式化系統型別
osd max write size = 512 #預設值90                       #OSD一次可寫入的最大值(MB)
osd client message size cap = 2147483648 #預設值100      #客戶端允許在記憶體中的最大資料(bytes)
osd deep scrub stride = 131072 #預設值524288         #在Deep Scrub時候允許讀取的位元組數(bytes)
osd op threads = 16 #預設值2                         #併發檔案系統運算元
osd disk threads = 4 #預設值1                        #OSD密集型操作例如恢復和Scrubbing時的執行緒
osd map cache size = 1024 #預設值500                 #保留OSD Map的快取(MB)
osd map cache bl size = 128 #預設值50                #OSD程序在記憶體中的OSD Map快取(MB)
osd mount options xfs = "rw,noexec,nodev,noatime,nodiratime,nobarrier" #預設值rw,noatime,inode64  #Ceph OSD xfs Mount選項
osd recovery op priority = 2 #預設值10               #恢復操作優先順序,取值1-63,值越高佔用資源越高
osd recovery max active = 10 #預設值15               #同一時間內活躍的恢復請求數 
osd max backfills = 4  #預設值10                     #一個OSD允許的最大backfills數
osd min pg log entries = 30000 #預設值3000           #修建PGLog是保留的最大PGLog數
osd max pg log entries = 100000 #預設值10000         #修建PGLog是保留的最大PGLog數
osd mon heartbeat interval = 40 #預設值30            #OSD ping一個monitor的時間間隔(預設30s)
ms dispatch throttle bytes = 1048576000 #預設值 104857600 #等待派遣的最大訊息數
objecter inflight ops = 819200 #預設值1024           #客戶端流控,允許的最大未傳送io請求數,超過閥值會堵塞應用io,為0表示不受限
osd op log threshold = 50 #預設值5                   #一次顯示多少操作的log
osd crush chooseleaf type = 0 #預設值為1             #CRUSH規則用到chooseleaf時的bucket的型別
##############################################################
[client]
rbd cache = true #預設值 true      #RBD快取
rbd cache size = 335544320 #預設值33554432           #RBD快取大小(bytes)
rbd cache max dirty = 134217728 #預設值25165824      #快取為write-back時允許的最大dirty位元組數(bytes),如果為0,使用write-through
rbd cache max dirty age = 30 #預設值1                #在被重新整理到儲存盤前dirty資料存在快取的時間(seconds)
rbd cache writethrough until flush = false #預設值true  #該選項是為了相容linux-2.6.32之前的virtio驅動,避免因為不傳送flush請求,資料不回寫
              #設定該引數後,librbd會以writethrough的方式執行io,直到收到第一個flush請求,才切換為writeback方式。
rbd cache max dirty object = 2 #預設值0              #最大的Object物件數,預設為0,表示通過rbd cache size計算得到,librbd預設以4MB為單位對磁碟Image進行邏輯切分
      #每個chunk物件抽象為一個Object;librbd中以Object為單位來管理快取,增大該值可以提升效能
rbd cache target dirty = 235544320 #預設值16777216    #開始執行回寫過程的髒資料大小,不能超過 rbd_cache_max_dirty