目錄

1、Ceph簡介

  Ceph提供了物件、塊、和檔案儲存功能,同時在擴充套件性上又可支援數以千計的客戶端訪問到PB級EB級甚至更多的資料。它不但適應非結構化資料,並且客戶端可以同時使用當前及傳統的物件介面進行資料存取,被稱為是儲存的未來!

2、Ceph的特點

  • 高可用:Ceph中的資料副本數量可以由管理員自行定義,並可以通過CRUSH演算法指定副本的物理儲存位置以分隔故障域, 可以忍受多種故障場景並自動嘗試並行修復。同時支援強一致副本,而副本又能夠垮主機、機架、機房、資料中心存放。所以安全可靠。儲存節點可以自管理、自動修復。無單點故障,有很強的容錯性;
  • 高擴充套件性:Ceph不同於swift,客戶端所有的讀寫操作都要經過代理節點。一旦叢集併發量增大時,代理節點很容易成為單點瓶頸。Ceph本身並沒有主控節點,擴充套件起來比較容易,並且理論上,它的效能會隨著磁碟數量的增加而線性增長;
  • 特性豐富:Ceph支援三種呼叫介面:物件儲存,塊儲存,檔案系統掛載。三種方式可以一同使用。Ceph統一儲存,雖然Ceph底層是一個分散式檔案系統,但由於在上層開發了支援物件和塊的介面;
  • 統一的儲存:能同時提供物件儲存、檔案儲存和塊儲存;
  • CRUSH演算法:Ceph摒棄了傳統的集中式儲存元資料定址的方案,轉而使用CRUSH演算法完成資料的定址操作。CRUSH在一致性雜湊基礎上很好的考慮了容災域的隔離,能夠實現各類負載的副本放置規則,例如跨機房、機架感知等。Ceph會將CRUSH規則集分配給儲存池。當Ceph客戶端儲存或檢索儲存池中的資料時,Ceph會自動識別CRUSH規則集、以及儲存和檢索資料這一規則中的頂級bucket。當Ceph處理CRUSH規則時,它會識別出包含某個PG的主OSD,這樣就可以使客戶端直接與主OSD進行連線進行資料的讀寫。

3、Ceph的缺點

  • 需要比較強的技術能力和運維能力
  • 資料一致性問題。對於ORACLE RAC這一類對資料一致性要求比較高的應用場景,分散式儲存的效能可能就稍弱了,因為分散式的結構,資料同步是一個大問題,雖然現在技術一致在進步,但是也不如傳統儲存裝置資料儲存方式可靠。
  • 穩定性問題,分散式儲存非常依賴網路環境和頻寬,如果網路發生抖動或者故障,都可能會影響分散式儲存系統執行。例如,一旦發生IP衝突,那麼整體分散式儲存可能都無法訪問。傳統儲存一般使用專用SAN或IP網路,穩定性方面,更可靠一些。

4、架構與元件

官網地址是:https://docs.ceph.com/en/nautilus/architecture/

4.1、元件介紹

  • Ceph的底層是RADOS,RADOS本身也是分散式儲存系統,CEPH所有的儲存功能都是基於RADOS實現。RADOS採用C++開發,所提供的原生Librados API包括C和C++兩種。Ceph的上層應用呼叫本機上的librados API,再由後者通過socket與RADOS叢集中的其他節點通訊並完成各種操作。
  • RADOS向外界暴露了呼叫介面,即LibRADOS,應用程式只需要呼叫LibRADOS的介面,就可以操縱Ceph了。這其中,RADOS GW用於物件儲存,RBD用於塊儲存,它們都屬於LibRADOS;CephFS是核心態程式,向外界提供了POSIX介面,使用者可以通過客戶端直接掛載使用。
  • RADOS GateWay、RBD其作用是在librados庫的基礎上提供抽象層次更高、更便於應用或客戶端使用的上層介面。其中,RADOS GW是一個提供與Amazon S3和Swift相容的RESTful API的gateway,以供相應的物件儲存應用開發使用。RBD則提供了一個標準的塊裝置介面,常用於在虛擬化的場景下為虛擬機器建立volume。目前,Red Hat已經將RBD驅動整合在KVM/QEMU中,以提高虛擬機器訪問效能。這兩種方式目前在雲端計算中應用的比較多。
  • CEPHFS則提供了POSIX介面,使用者可直接通過客戶端掛載使用。它是核心態的程式,所以無需呼叫使用者空間的librados庫。它通過核心中的net模組來與Rados進行互動。
  • RBD塊裝置。對外提供塊儲存。可以像磁碟一樣被對映、格式化已經掛載到伺服器上。支援snapshot

4.2、儲存過程

  • 無論使用哪種儲存方式(物件、塊、掛載),儲存的資料都會被切分成物件(Objects)。Objects size大小可以由管理員調整,通常為2M或4M。每個物件都會有一個唯一的OID,由ino與ono生成,雖然這些名詞看上去很複雜,其實相當簡單。ino即是檔案的File ID,用於在全域性唯一標示每一個檔案,而ono則是分片的編號。比如:一個檔案FileID為A,它被切成了兩個物件,一個物件編號0,另一個編號1,那麼這兩個檔案的oid則為A0與A1。Oid的好處是可以唯一標示每個不同的物件,並且儲存了物件與檔案的從屬關係。由於ceph的所有資料都虛擬成了整齊劃一的物件,所以在讀寫時效率都會比較高。 但是物件並不會直接儲存進OSD中,因為物件的size很小,在一個大規模的叢集中可能有幾百到幾千萬個物件。這麼多物件光是遍歷定址,速度都是很緩慢的;並且如果將物件直接通過某種固定對映的雜湊演算法對映到osd上,當這個osd損壞時,物件無法自動遷移至其他osd上面(因為對映函式不允許)。為了解決這些問題,ceph引入了歸置組的概念,即PG
  • PG是一個邏輯概念,我們linux系統中可以直接看到物件,但是無法直接看到PG。它在資料定址時類似於資料庫中的索引:每個物件都會固定對映進一個PG中,所以當我們要尋找一個物件時,只需要先找到物件所屬的PG,然後遍歷這個PG就可以了,無需遍歷所有物件。而且在資料遷移時,也是以PG作為基本單位進行遷移,ceph不會直接操作物件。 物件時如何對映進PG的?還記得OID麼?首先使用靜態hash函式對OID做hash取出特徵碼,用特徵碼與PG的數量去模,得到的序號則是PGID。由於這種設計方式,PG的數量多寡直接決定了資料分佈的均勻性,所以合理設定的PG數量可以很好的提升CEPH叢集的效能並使資料均勻分佈
  • 最後PG會根據管理員設定的副本數量進行復制,然後通過crush演算法儲存到不同的OSD節點上(其實是把PG中的所有物件儲存到節點上),第一個osd節點即為主節點,其餘均為從節點。

5、部署

本次使用的虛擬機器部署(Ubuntu18.04)Ceph版本為目前最新的P版本

規劃的主機如下

5.1 設定主機名、配置時間同步

172.31.1.100  ceph-deploy.example.local ceph-deploy #部署節點
172.31.1.101 ceph-mon1.example.local ceph-mon1
172.31.1.102 ceph-mon2.example.local ceph-mon2
172.31.1.103 ceph-mon3.example.local ceph-mon3
172.31.1.104 ceph-mgr1.example.local ceph-mgr1
172.31.1.105 ceph-mgr2.example.local ceph-mgr2
172.31.1.106 ceph-node1.example.local ceph-node1
172.31.1.107 ceph-node2.example.local ceph-node2
172.31.1.108 ceph-node3.example.local ceph-node3
echo "*/5 *  *  *  * /usr/sbin/ntpdate ntp.aliyun.com &> /dev/null" | crontab

5.2 配置新增清華源

#allnode sudo wget -q -O- 'https://mirrors.tuna.tsinghua.edu.cn/ceph/keys/release.asc' | sudo apt-key add -
#allnode sudo echo "deb https://mirrors.tuna.tsinghua.edu.cn/ceph/debian-pacific bionic main" >> /etc/apt/sources.list

5.3 初始化ceph使用者

#deploy-node groupadd  -r -g 2023 magedu  && useradd -r -m  -s /bin/bash  -u 2023 -g 2023 magedu && echo magedu:123456 | chpasswd
#all-node groupadd -r -g 2021 ceph && useradd -r -m -s /bin/bash -u 2021 -g 2021 ceph && echo ceph:123456 | chpasswd
#deploy-node echo "magedu ALL=(ALL) NOPASSWD: ALL" >> /etc/sudoers

5.4 設定免密登入

root@ceph-deploy:~# su - magedu
magedu@ceph-deploy:~$ ssh-keygen
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]
magedu@ceph-deploy:~$ ssh-copy-id [email protected]

5.5 校驗源是否生效

root@ceph-deploy:~# apt-cache madison ceph-deploy  #檢視新增的清華源是否生效,如果出現報錯無法識別清華源需執行以下操作
sudo gpg --keyserver keyserver.ubuntu.com --recv E84AC2C0460F3994
sudo gpg --export --armor E84AC2C0460F3994 | sudo apt-key add -
sudo apt-get update
root@ceph-deploy:~# sudo apt install ceph-deploy
root@ceph-deploy:~# su - magedu
magedu@ceph-deploy:~$ mkdir ceph-cluster
magedu@ceph-deploy:~$ cd ceph-cluster/
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy --help

5.6 初始化ceph的配置檔案

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy new --cluster-network 172.31.1.0/24 --public-network 192.168.43.0/24 ceph-mon1

5.7 選擇性安裝ceph-common

#allnode  apt install -y ceph-common
# apt install ceph-mon #在mon節點安裝,使用root或者具備sudo許可權的普通使用者
# apt install ceph-mgr #在mgr節點安裝

5.8 初始化ceph-node節點

在新增 osd 之前,對node節點安裝基本環境: (以下倆條2選一執行)

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy install --no-adjust-repos --nogpgcheck ceph-node1 ceph-node2 #這留一個ceph-node3一會新增
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy install --release pacific ceph-node1 #擦除磁碟之前通過 deploy 節點對 node 節點執行安裝 ceph 基本執行環境

5.9 對mon節點進行初始化:

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy mon create-initial

5.10 分發admin的金鑰

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy admin ceph-mon1 ceph-node1 ceph-node2
#allnode chown -R ceph.ceph /etc/ceph/*

5.11 配置mgr節點

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy mgr create ceph-mgr1

5.12 推動證書給部署節點

magedu@ceph-deploy:~/ceph-cluster$ apt install ceph-common
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy admin ceph-deploy #推送證書 給自己
root@ceph-deploy:~# chown -R magedu.magedu /etc/ceph/*
magedu@ceph-deploy:~/ceph-cluster$ ceph -s #這裡就能看到叢集狀態了

5.13 列出 ceph node 節點磁碟

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy disk list ceph-node1

5.14 擦除磁碟:

ceph-deploy  disk zap ceph-node1  /dev/sdb
ceph-deploy disk zap ceph-node1 /dev/sdc
ceph-deploy disk zap ceph-node2 /dev/sdb
ceph-deploy disk zap ceph-node2 /dev/sdc
# 以下未執行初始化過的就不能執行磁碟格式化
ceph-deploy disk zap ceph-node3 /dev/sdb
ceph-deploy disk zap ceph-node3 /dev/sdc

5.15 新增主機的磁碟osd:

osd的id從0開始順序使用 0-1
ceph-deploy osd create ceph-node1 --data /dev/sdb
ceph-deploy osd create ceph-node1 --data /dev/sdc 2-3
ceph-deploy osd create ceph-node2 --data /dev/sdb
ceph-deploy osd create ceph-node2 --data /dev/sdc 4-5
ceph-deploy osd create ceph-node3 --data /dev/sdb
ceph-deploy osd create ceph-node3 --data /dev/sdc
magedu@ceph-deploy:~/ceph-cluster$ ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 0.03918 root default
-3 0.01959 host ceph-node1
0 hdd 0.00980 osd.0 up 1.00000 1.00000
1 hdd 0.00980 osd.1 up 1.00000 1.00000
-5 0.01959 host ceph-node2
2 hdd 0.00980 osd.2 up 1.00000 1.00000
3 hdd 0.00980 osd.3 up 1.00000 1.00000

5.16 禁用非安全模式通訊

magedu@ceph-deploy:~/ceph-cluster$ ceph config set mon auth_allow_insecure_global_id_reclaim false
magedu@ceph-deploy:~/ceph-cluster$ ceph -s
cluster:
id: cce50457-e522-4841-9986-a09beefb2d65
health: HEALTH_OK services:
mon: 1 daemons, quorum ceph-mon1 (age 30m)
mgr: ceph-mgr1(active, since 20m)
osd: 4 osds: 4 up (since 4m), 4 in (since 4m); 1 remapped pgs data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 20 MiB used, 40 GiB / 40 GiB avail
pgs: 1 active+clean magedu@ceph-deploy:~/ceph-cluster$ ceph health
HEALTH_OK

5.17 mon伺服器的高可用:

mon_node apt install ceph-mon
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy mon add ceph-mon2
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy mon add ceph-mon3
magedu@ceph-deploy:~/ceph-cluster$ ceph quorum_status --format json-pretty

5.18 mgr伺服器的高可用:

mon_node apt install ceph-mgr
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy mgr create ceph-mgr2
magedu@ceph-deploy:~/ceph-cluster$ ceph -s
cluster:
id: cce50457-e522-4841-9986-a09beefb2d65
health: HEALTH_WARN
clock skew detected on mon.ceph-mon2, mon.ceph-mon3 services:
mon: 3 daemons, quorum ceph-mon1,ceph-mon2,ceph-mon3 (age 11m)
mgr: ceph-mgr1(active, since 35m), standbys: ceph-mgr2
osd: 4 osds: 4 up (since 18m), 4 in (since 18m); 1 remapped pgs data:
pools: 1 pools, 1 pgs
objects: 0 objects, 0 B
usage: 20 MiB used, 40 GiB / 40 GiB avail
pgs: 1 active+clean

5.19 osd新增

magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy install --no-adjust-repos --nogpgcheck ceph-node1 ceph-node3
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy disk zap ceph-node3 /dev/sdb
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy disk zap ceph-node3 /dev/sdc
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy osd create ceph-node3 --data /dev/sdb
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy osd create ceph-node3 --data /dev/sdc

5.20 模擬osd下線

magedu@ceph-deploy:~/ceph-cluster$ ceph osd df
ID CLASS WEIGHT REWEIGHT SIZE RAW USE DATA OMAP META AVAIL %USE VAR PGS STATUS
0 hdd 0.00980 1.00000 10 GiB 5.4 MiB 296 KiB 0 B 5.1 MiB 10 GiB 0.05 1.01 1 up
1 hdd 0.00980 1.00000 10 GiB 5.4 MiB 296 KiB 0 B 5.1 MiB 10 GiB 0.05 1.01 0 up
2 hdd 0.00980 1.00000 10 GiB 5.4 MiB 296 KiB 0 B 5.1 MiB 10 GiB 0.05 1.00 0 up
3 hdd 0.00980 1.00000 10 GiB 5.4 MiB 296 KiB 0 B 5.1 MiB 10 GiB 0.05 1.00 1 up
4 hdd 0.00980 1.00000 10 GiB 5.3 MiB 296 KiB 0 B 5 MiB 10 GiB 0.05 0.99 0 up
5 hdd 0.00980 1.00000 10 GiB 5.2 MiB 296 KiB 0 B 4.9 MiB 10 GiB 0.05 0.98 1 up
TOTAL 60 GiB 32 MiB 1.7 MiB 0 B 30 MiB 60 GiB 0.05
MIN/MAX VAR: 0.98/1.01 STDDEV: 0
1. 停用裝置:ceph osd out {osd-num}
magedu@ceph-deploy:~/ceph-cluster$ ceph osd out 0
marked out osd.0.
2. 停止程序:sudo systemctl stop ceph-osd@{osd-num}
root@ceph-node1:~# systemctl stop ceph-osd@0
root@ceph-node1:~# systemctl status -l ceph-osd@0
[email protected] - Ceph object storage daemon osd.0
Loaded: loaded (/lib/systemd/system/[email protected]; indirect; vendor preset: enabled)
Active: inactive (dead) since Sun 2021-08-15 19:07:15 CST; 9s ago
Process: 24575 ExecStart=/usr/bin/ceph-osd -f --cluster ${CLUSTER} --id 0 --setuser ceph --setgroup ceph (code=exited, status=0/SUCCESS)
Main PID: 24575 (code=exited, status=0/SUCCESS)
3. 移除裝置:ceph osd purge {id} --yes-i-really-mean-it
magedu@ceph-deploy:~/ceph-cluster$ ceph osd purge 0 --yes-i-really-mean-it
purged osd.0
4. 驗證是否執行成功
magedu@ceph-deploy:~/ceph-cluster$ ceph osd df
ID CLASS WEIGHT REWEIGHT SIZE RAW USE DATA OMAP META AVAIL %USE VAR PGS STATUS
1 hdd 0.00980 1.00000 10 GiB 5.5 MiB 328 KiB 0 B 5.2 MiB 10 GiB 0.05 1.02 1 up
2 hdd 0.00980 1.00000 10 GiB 5.5 MiB 328 KiB 0 B 5.1 MiB 10 GiB 0.05 1.00 0 up
3 hdd 0.00980 1.00000 10 GiB 5.5 MiB 328 KiB 0 B 5.1 MiB 10 GiB 0.05 1.00 1 up
4 hdd 0.00980 1.00000 10 GiB 5.4 MiB 328 KiB 0 B 5.1 MiB 10 GiB 0.05 0.99 0 up
5 hdd 0.00980 1.00000 10 GiB 5.3 MiB 328 KiB 0 B 5 MiB 10 GiB 0.05 0.98 1 up
TOTAL 50 GiB 27 MiB 1.6 MiB 0 B 26 MiB 50 GiB 0.05
MIN/MAX VAR: 0.98/1.02 STDDEV: 0

5.21 模擬osd 上線

擦除磁碟
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy disk zap ceph-node1 /dev/sdd
新增osd
magedu@ceph-deploy:~/ceph-cluster$ ceph-deploy osd create ceph-node1 --data /dev/sdd
建立rdb
magedu@ceph-deploy:~/ceph-cluster$ ceph osd pool create myrbd1 64 64 #建立儲存池,指定 pg 和 pgp 的數量,pgp 是對存在 於 pg 的資料進行組合儲存,pgp 通常等於 pg 的值
magedu@ceph-deploy:~/ceph-cluster$ ceph osd pool application enable myrbd1 rbd #對儲存池啟用 RBD 功能
magedu@ceph-deploy:~/ceph-cluster$ rbd pool init -p myrbd1 #通過 RBD 命令對儲存池初始化
magedu@ceph-deploy:~/ceph-cluster$ rbd pool stats myrbd1
Total Images: 0
Total Snapshots: 0
Provisioned Size: 0 B
建立並驗證img
magedu@ceph-deploy:~/ceph-cluster$ rbd create myimg1 --size 5G --pool myrbd1
magedu@ceph-deploy:~/ceph-cluster$ rbd create myimg2 --size 3G --pool myrbd1 --image-format 2 --image-feature layering
magedu@ceph-deploy:~/ceph-cluster$ rbd ls --pool myrbd1 #列出指定的 pool 中所有的 img myimg1 myimg2
myimg1
myimg2
magedu@ceph-deploy:~/ceph-cluster$ rbd pool stats myrbd1 #檢視對應池的狀態
Total Images: 2
Total Snapshots: 0
Provisioned Size: 8 GiB
magedu@ceph-deploy:~/ceph-cluster$ rbd --image myimg1 --pool myrbd1 info #檢視指定 rdb 的資訊
rbd image 'myimg1':
size 5 GiB in 1280 objects
order 22 (4 MiB objects)
snapshot_count: 0
id: 152dda69d7fb
block_name_prefix: rbd_data.152dda69d7fb
format: 2
features: layering, exclusive-lock, object-map, fast-diff, deep-flatten #由於我OS的kernel只支援layering,其他都不支援,所以需要把部分不支援的特性disable掉
op_features:
flags:
create_timestamp: Sun Aug 15 20:43:04 2021
access_timestamp: Sun Aug 15 20:43:04 2021
modify_timestamp: Sun Aug 15 20:43:04 2021

5.22 客戶端使用塊儲存

[root@ceph-client ceph]# rbd -p myrbd1 map myimg2 #這個只有layering所以可以直接掛載成功
/dev/rbd0
[root@ceph-client ceph]# rbd -p myrdb1 map myimg1 #這個需要關閉除了layering的其他特性
* 方式1
magedu@ceph-deploy:~/ceph-cluster$ rbd --image myimg1 --pool myrbd1 feature disable exclusive-lock object-map fast-diff deep-flatten
magedu@ceph-deploy:~/ceph-cluster$ rbd --image myimg1 --pool myrbd1 info
* 方式2
修改Ceph配置檔案/etc/ceph/ceph.conf,在global section下,增加
rbd_default_features = 1
#再建立rdb映象。
rbd create ceph-client1-rbd1 --size 10240
[root@ceph-client ~]# lsblk #mkfs.xfs /dev/rdb0
#mkdir /data
#mount /dev/rdb0 /data/
#cp /etc/passwd /data
#ll /data
[root@ceph-client data]# dd if=/dev/zero of=/data/ceph-test-file bs=1MB count=300
[root@ceph-client ~]# ll -h /data/ceph-test-file 驗證資料
[root@ceph-node2 ~]# ceph df

5.23 取消對映塊裝置

root@ceph-mon1:~# umount /mnt/ceph-vol1#取消掛載
root@ceph-mon1:~# rbd unmap /dev/rbd/myrbd1/myimg2#取消對映
root@ceph-mon1:~# rbd showmapped #檢視是否取消成功,如沒有任何輸出則表示取消對映成功

5.24 刪除塊裝置,執行以下命令

magedu@ceph-deploy:~/ceph-cluster$ rbd ls --pool myrbd1
magedu@ceph-deploy:~/ceph-cluster$ rbd --pool myrbd1 rm myimg1
magedu@ceph-deploy:~/ceph-cluster$ rbd --pool myrbd1 rm myimg2 #需要所以節點都解除安裝才能刪除
Removing image: 100% complete...done.
magedu@ceph-deploy:~/ceph-cluster$ rbd ls --pool myrbd1