一. 背景介紹

當集團的MySQL資料庫例項數達到2000+、MHA叢集規模數百個時,對MHA的及時、高效管理是DBA必須面對的一個挑戰。MHA 叢集 節點資訊 和 執行狀態 是管理的基礎。本篇幅主要介紹如何通過Python實現收集MHA 叢集 節點資訊 和 執行狀態的功能。這些資訊將是CMDB資訊的重要組成部分。

MHA叢集數百個,MHA Manager 節點 十幾個,一個MHA Manager 節點管理著50-60個叢集。 我們希望開發的程式,只在著十幾個MHA Manager  部署執行,就可以收集到所需的 MHA Server 節點資訊、VIP 資訊、執行狀態資訊及其他資訊,並且將收集到的資料儲存到MySQL 資料庫中。

二.實現邏輯

2.1 程式呼叫的MHA工具程式或檔案

工具程式或檔案  功能 
 mha_appxxx.cnf 配置檔案

1.從這個檔案中 提取 Server 資訊(Server IP);

2.提取 FailOver Script 和 Online Change Script的檔案。

 appxxx_master_ip_failover 指令碼檔案  提取定義的VIP,和其他處收集到的VIP,進行橫向比較,防止配置出錯。
 appxxx_master_ip_online_change 指令碼檔案  提取定義的VIP,橫向比較防止配置出錯。
 masterha_check_repl 工具程式

1.檢查MySQL複製狀況;

2.解析當前主節點IP;

3.解析 slave 節點IP;

4.解析出VIP。

masterha_check_status

檢測當前MHA執行狀態(執行OK還是stop)。

為便於理解,我們貼上 mha_appxxx.cnf 的內容。

[server default]
manager_workdir=/var/log/masterha/app1.log //設定manager的工作目錄
manager_log=/var/log/masterha/app1/manager.log //設定manager的日誌
master_binlog_dir=/data/mysql //設定master 儲存binlog的位置,以便MHA可以找到master的日誌,我這裡的也就是mysql的資料目錄
master_ip_failover_script= /usr/local/bin/appxxx_master_ip_failover //設定自動failover時候的切換指令碼
master_ip_online_change_script= /usr/local/bin/appxxx_master_ip_online_change //設定手動切換時候的切換指令碼
password=使用者密碼 //設定mysql中root使用者的密碼,這個密碼是前文中建立監控使用者的那個密碼
user=root 設定監控使用者root
ping_interval=1 //設定監控主庫,傳送ping包的時間間隔,預設是3秒,嘗試三次沒有迴應的時候自動進行railover
remote_workdir=/tmp //設定遠端mysql在發生切換時binlog的儲存位置
repl_password=使用者密碼 //設定複製使用者的密碼
repl_user=repl //設定複製環境中的複製使用者名稱
report_script=/usr/local/send_report //設定發生切換後傳送的報警的指令碼
shutdown_script="" //設定故障發生後關閉故障主機指令碼(該指令碼的主要作用是關閉主機放在發生腦裂,這裡沒有使用)
ssh_user=root //設定ssh的登入使用者名稱 [server1]
hostname=110.110.110.50
port=3306 [server2]
hostname=110.110.110.60
port=3306
candidate_master=1 //設定為候選master,如果設定該引數以後,發生主從切換以後將會將此從庫提升為主庫,即使這個主庫不是叢集中事件最新的slave
check_repl_delay=0 //預設情況下如果一個slave落後master 100M的relay logs的話,MHA將不會選擇該slave作為一個新的master,因為對於這個slave的恢復需要花費很長時間,通過設定check_repl_delay=0,MHA觸發切換在選擇一個新的master的時候將會忽略複製延時,這個引數對於設定了candidate_master=1的主機非常有用,因為這個候選主在切換的過程中一定是新的master [server3]
hostname=110.110.110.70
port=3306

2.程式簡單的流程圖

因是簡單流程圖,其中判斷及異常未在圖中標明。

三.主要程式碼實現

3.1.建立儲存收集資訊的表

表命名為mysqldb_mha_info,其create 指令碼如下:

create table `mysqldb_mha_info` (
`id` int(11) NOT NULL AUTO_INCREMENT,
mha_manager_ip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA管理節點所在叢集的IP',
mha_name varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA的名字,類似於副本集',
mha_file_name varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA .cnf 配置檔名字',
mha_name_path varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA .cnf 配置檔案路徑和名字',
`cnf_server1_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置檔案中的節點1',
`cnf_server2_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置檔案中的節點2',
`cnf_server3_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA cnf 配置檔案中的節點3',
failover_script varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA failover scripts的檔案',
failover_script_vip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA failover scripts 中定義的VIP',
online_script varchar(250) NOT NULL DEFAULT '' COMMENT 'MHA online change scripts的檔案',
online_script_vip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA online change scripts 中定義的VIP',
script_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA scripts VIP 檢查結果',
masterha_status varchar(10) NOT NULL DEFAULT '' COMMENT 'MHA 檢查是否開啟,來自於 masterha_check_status 檢查結果',
master_serverip varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 檢查是否開啟,來自於 masterha_check_status 檢查結果',
`current_master_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前主節點,來自check_repl',
`mha_current_vip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前VIP ,來自check_repl',
`slave1_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前從節點1,來自check_repl',
`slave2_ip` varchar(50) NOT NULL DEFAULT '' COMMENT 'MHA 當前從節點2 ,來自check_repl',
mha_cnf_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA check conf/cnf 檢查結果',
check_repl_remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA check repl檢查結果',
remark varchar(1500) NOT NULL DEFAULT '' COMMENT 'MHA 檢查結果',
`creator` varchar(50) NOT NULL DEFAULT '',
`create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
`operator` varchar(50) NOT NULL DEFAULT '',
`modify_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4

2. 連線DB的模組

模組命名為db_conn.py,在此模組中,使用 mysql-connector替代了MySQLdb。安裝更加簡便。

#!/usr/bin/python3
# -*- coding: UTF-8 -*- ##import MySQLdb 安裝模組麻煩
import mysql.connector
db = mysql.connector.connect(user='nideuid', password='nidepwd',host='nideseverip',database='DBname',port=XXXX)

3.功能實現模組

檔案為collect_mysqldbmha_info.py,其程式碼如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*- import os
import io
import re
import ConfigParser
import socket import db_conn
mysqldb = db_conn.db
cursor = mysqldb.cursor() ## 第1部分 獲取本機IP
try:
s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)
s.connect(('8.8.8.8',80))
mha_manager_ip=s.getsockname()[0]
print('mha manager 所在主機的IP如下:')
print(mha_manager_ip)
finally:
s.close()
### ##第2部分: 迴圈遍歷mha cnf 所在的資料夾,取出 cnf 進行判斷和檢查
Path='/date/funcation/python/mha_conf'
#fout=open('輸出檔名','w')
for Name in os.listdir(Path) :
Pathname= os.path.join(Path,Name)
## print(Pathname)
## print(Name)
mha_name = Name.replace(".cnf", "").replace(".conf", "") ###為MHA叢集啟個名字
##print(mha_name)
##注意此處為r,不能為w,否則報錯:IOError: File not open for reading
with open(Pathname,'r') as f:
filecontent=f.read()
#print(filecontent)
remark = ''
####調整為ConfigParser,注意python2 和 python 的模組名字是不一樣的.ConfigParser與configparser
config =ConfigParser.ConfigParser()
try:
config.read(Pathname)
server_item = config.sections()
##print(server_item)
### start 獲取 MHA 切換時的scripts 檔名字
mha_failover_script = ''
mha_online_change_script =''
mha_cnf_remark =''
if 'server default' in server_item:
mha_failover_script = config.get('server default','master_ip_failover_script')
###
mha_failover_script=mha_failover_script.replace(" --ssh_user=root", "")
##print(mha_failover_script)
else:
mha_cnf_remark = mha_cnf_remark + 'mha_failover_script 未配置;'
if 'server default' in server_item:
mha_online_change_script = config.get('server default','master_ip_online_change_script')
##print(mha_online_change_script)
else:
mha_cnf_remark = mha_cnf_remark + 'mha_online_change_script 未配置;'
###1.1 end 獲取結束
##1.2 start 獲取MHA配置檔案中的節點資訊
server1_host = '' ##MHA cnf 配置檔案中的節點1
server2_host = '' ##MHA cnf 配置檔案中的節點2
server3_host = '' ##MHA cnf 配置檔案中的節點3
if 'server1' in server_item:
server1_host = config.get('server1','hostname')
print(server1_host)
else:
server1_host = ''
mha_cnf_remark = mha_cnf_remark + 'Server1未配置;'
print(server1_host)
if 'server2' in server_item:
server2_host = config.get('server2','hostname')
print(server2_host)
else:
server2_host = ''
mha_cnf_remark = mha_cnf_remark + 'Server2未配置;'
print(server2_host)
if 'server3' in server_item:
server3_host = config.get('server3','hostname')
print(server3_host)
##else:
##server3_host = ''
##mha_cnf_remark = mha_cnf_remark + 'Server3未配置;'
##print(server3_host)
##1.2 獲取server節點資訊結束
print(mha_cnf_remark)
except Exception as e:
print(e) #####第3部分 start 從 mha scripts 中提取 配置的VIP
mha_remark = ''
mha_failover_my_vip = ''
mha_failover_flush_vip = ''
mha_onlinechange_my_vip = ''
mha_onlinechange_flush_vip =''
if len(mha_failover_script) <> 0 and len(mha_online_change_script) <> 0 :
##3.1 先來處置 failover_script,解析其中的VIP
with open(mha_failover_script,'r') as f:
failscript_lines=f.readlines()
for failscript_line in failscript_lines:
failscript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", failscript_line)
if failscript_ip:
if 'my $vip =' in failscript_line:
mha_failover_my_vip = failscript_ip[0]
print('解析出mha_failover_my_vip:')
print(mha_failover_my_vip)
if 'my $ssh_flush_vip' in failscript_line:
mha_failover_flush_vip = failscript_ip[0]
print('解析出mha_failover_flush_vip:')
print(mha_failover_flush_vip) ##檔案讀取完畢,對讀取結果進行判斷,判斷兩種情況
## 一種是否未定義
if mha_failover_my_vip =='':
mha_remark = mha_remark + 'MHA failover 未提取到VIP的設定,請檢查;'
## 另外一種,,定義了,但是值不相等
if mha_failover_my_vip <> mha_failover_flush_vip:
mha_remark = mha_remark + 'MHA failover scripts檔案中設定的兩處VIP不一致,請檢查;' ## 3.2 處理online change scripts ,解析提取其中的VIP資訊
with open(mha_online_change_script,'r') as f:
onlinescript_lines=f.readlines()
for onlinescript_line in onlinescript_lines:
onlinescript_ip=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", onlinescript_line)
if onlinescript_ip:
if 'my $vip =' in onlinescript_line:
mha_onlinechange_my_vip = onlinescript_ip[0]
print('解析出mha_onlinechange_my_vip:')
print(mha_onlinechange_my_vip)
if 'my $ssh_flush_vip' in onlinescript_line:
mha_onlinechange_flush_vip = onlinescript_ip[0]
print('解析出mha_onlinechange_flush_vip:')
print(mha_onlinechange_flush_vip)
#### online change 檔案讀完了,判斷定義的VIP是否符合要求
if mha_onlinechange_my_vip =='':
mha_remark = mha_remark + 'MHA online change scripts未提取到VIP的設定,請檢查;'
if mha_onlinechange_my_vip <> mha_onlinechange_flush_vip:
mha_remark = mha_remark + 'MHA online change scripts檔案中設定的兩處VIP不一致,請檢查;' #### 兩個檔案都讀取了,判斷兩個檔案中定義的VIP是否一致
if mha_onlinechange_my_vip <> mha_failover_my_vip:
mha_remark = mha_remark + 'MHA online change script 和 failover script 中的VIP不一致,請檢查。' else:
mha_remark = mha_remark + 'MHA init 的配置檔案未正確定義切換的scripts,請檢查。'
#print('MHA init 的配置檔案未正確定義 切換的scripts,請檢查。')
print(mha_remark)
#####第2部分 end 從 mha scripts 中提取 配置的VIP #### 第4部分,從masterha_check_status執行結果中判斷mha程序狀態
## 從 執行masterha_check_status結果中解析出的 masterha_status 和 master_serverip 的資料
masterha_status =''
master_serverip =''
## 從 執行masterha_check_repl結果中解析出的 current_master 、current_slave1、current_slave2 和 mha_current_vip 的資料
current_master = ''
current_slave1 = ''
current_slave2 = ''
mha_current_vip =''
##判斷下檔案是否是MHA的配置檔案,判斷方式就是檔案中 必須有 server default\server1的sections
if 'server default' in server_item and 'server1' in server_item :
##cmd_mha_status ='/usr/local/bin/masterha_check_status --conf=/etc/mha/opszabbix.cnf'
cmd_mha_status ='/usr/local/bin/masterha_check_status --conf='+Pathname
try:
mha_status=os.popen(cmd_mha_status)
mha_status_result = mha_status.read()
print(mha_status_result) ##返回樣式為 XXXX (pid:------) is running(0:PING_OK), master:XXX.XXX.XXX.XXX
### 判斷狀態是否為執行中
if 'running(0:PING_OK)' in mha_status_result:
masterha_status='Running'
##抓取MHA的Master 節點
##master_serverip = mha_status_result[mha_status_result.rfind('master:'):]
master_serverip = mha_status_result.split('master:')[1]
print(master_serverip)
print('MHA啟動執行正常')
elif 'stopped(2:NOT_RUNNING)' in mha_status_result:
masterha_status='stopped'
print('MHA未啟動!!!')
finally:
if mha_status:
mha_status.close()
#### 第5部分,從masterha_check_repl的執行結果中,判斷解析 主、從節點、VIP節點
## 判斷 副本集 的狀況
cmd_repl_status ='/usr/local/bin/masterha_check_repl --conf='+Pathname
try:
##### 新增 2> error 引數,不需要打印出除錯資訊。
cmd_repl_status_result = cmd_repl_status + ' 2> checkrepl.log'
repl_status=os.popen(cmd_repl_status_result)
repl_status_result = repl_status.read()
##print(repl_status_result)
if 'MySQL Replication Health is OK' in repl_status_result:
print('MHA叢集的主從正常')
###獲取ServerIP
#######除錯資訊是輸出到2號流中的,所以一定 新增 2>&1,否則抓取不到節點資訊,只能抓到一個VIP。
cmd_repl_status_info = cmd_repl_status + ' 2>&1'
with os.popen(cmd_repl_status_info,'r') as repl_status_check2:
#repl_status_lines=repl_status_check2.readlines()
repl_status_lines=repl_status_check2.readlines()
##print(len(repl_status_lines)) ####打印出list的元素個數
for repl_status_line in repl_status_lines:
##print('################## start ###########################')
##print(str(repl_status_line).replace("\n", "").replace("\t", ""))
##repl_status_line ='Current Alive Master: 10.200.58.63(10.200.58.63:55988)'
serverip_result=re.findall(r"\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b", repl_status_line)
if serverip_result:
if 'Current Alive Master:' in repl_status_line:
current_master = serverip_result[0]
print('已解析到主節點IP')
print(current_master)
elif 'Checking replication health on' in repl_status_line and current_slave1 == '': ###有可能有2個從節點,此處為第1個從節點
current_slave1 = serverip_result[0]
print('已解析到從節點1')
print(current_slave1)
elif 'Checking replication health on' in repl_status_line and current_slave1 <> '': ###有可能有2個從節點,此處為第2個從節點
current_slave2 = serverip_result[0]
print('已解析到從節點2')
print(current_slave2)
elif 'Checking replication health on' in repl_status_line and current_slave1 <> '': ###有可能有2個從節點,此處為第2個從節點
print('叢集有3個或更多的從節點,請確認。')
if 'down==/sbin/ifconfig ' in repl_status_line:
mha_current_vip = serverip_result[0]
print('已解析到MHA叢集的VIP')
print(mha_current_vip) ##print('包含serverip')
##print(serverip_result)
#else:
#print('不包含ServerIP')
##else:
##print(repl_status_line)
##print('################## end ###########################')
####獲取IP部分結束
else:
print('MHA叢集的主從異常,請及時檢查') finally:
if repl_status:
repl_status.close() else:
remark = Pathname + '...... 不是MHA的配置檔案,請檢查!'
print(remark) ##### 第6部分,將資料儲存到表中
sql_insert = "insert into mysqldb_mha_info(mha_manager_ip,mha_name,mha_file_name,mha_name_path,cnf_server1_ip,cnf_server2_ip,cnf_server3_ip,failover_script,failover_script_vip,online_script,online_script_vip,masterha_status,master_serverip,current_master_ip,mha_current_vip,slave1_ip,slave2_ip,mha_cnf_remark,script_remark,remark) " \
"values('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')" % \
(mha_manager_ip,mha_name,Name,Pathname,server1_host,server2_host,server3_host,mha_failover_script,mha_failover_my_vip,mha_online_change_script,mha_onlinechange_my_vip,masterha_status,current_master,master_serverip,mha_current_vip,current_slave1,current_slave2,mha_cnf_remark,mha_remark,remark)
##print(sql_insert)
cursor.execute(sql_insert)
mysqldb.commit() ##### # 關閉遊標
cursor.close()
# 關閉資料庫連線
mysqldb.close()

4.程式碼執行

Python 執行環境為:Python 2.7.5

執行命令:

python /data/XXXX路徑/collect_mysqldbmha_info.py

定期收集,請根據需要設定cron.