linux mce的一些相關內容和使用者態監控的設計方法

阿新 • • 發佈：2018-11-12

之所以想起寫一點關於mce的東西，倒不是因為遇到mce的異常了，之前遇到過很多mce的異常，記憶體居多，但沒有好好記錄下來，寫這個是因為參加2018 clk南京會議的一點想法。

void __init trap_init(void)
{
。。。
#ifdef CONFIG_X86_MCE
    set_intr_gate_ist(X86_TRAP_MC, &machine_check, MCE_STACK);
#endif
。。。
}

其中mce的初始化流程為：

Start_kernel-->check_bugs-->identify_boot_cpu-->identify_cpu-->mcheck_cpu_init

/*
 * Called for each booted CPU to set up machine checks.
 * Must be called with preempt off:
 */
void mcheck_cpu_init(struct cpuinfo_x86 *c)
{
...
    machine_check_vector = do_machine_check;----------這個函式，主要工作函式

    __mcheck_cpu_init_generic();
    __mcheck_cpu_init_vendor(c);
    __mcheck_cpu_init_clear_banks();
    __mcheck_cpu_init_timer();
....
}

如果為了除錯mce功能，模擬硬體真的出問題，那麼可以使用 mce-inject 使用者態工具來實現，對應核心的函式為：

void mce_inject_log(struct mce *m)
{
    mutex_lock(&mce_chrdev_read_mutex);
    mce_log(m);
    mutex_unlock(&mce_chrdev_read_mutex);
}

當然除錯的時候，一般需要修改tolerant 值，不然有可能引起復位：

cat /sys/devices/system/machinecheck/machinecheck15/tolerant
 
1
[[email protected] ~]#
[[email protected] ~]# ls -alrt /sys/devices/system/machinecheck/machinecheck15/tolerant
-rw-r--r--. 1 root root 4096 10月 15 10:05 /sys/devices/system/machinecheck/machinecheck15/tolerant
[[email protected] ~]# echo 2 > /sys/devices/system/machinecheck/machinecheck15/tolerant
[[email protected] 
 ~]# cat /sys/devices/system/machinecheck/machinecheck15/tolerant
2

    
/*
     * Tolerant levels:
     * 0: always panic on uncorrected errors, log corrected errors
     * 1: panic or SIGBUS on uncorrected errors, log corrected errors
     * 2: SIGBUS or log uncorrected errors (if possible), log corr. errors
     * 3: never panic or SIGBUS, log all errors (for testing only)
     */

下面描述的是引發思考的過程，即mce的通知機制，為什麼突然想寫mce的機制，是因為其實它應用的模式可以解籤，

我們把核心維護mce資料的方式視為mce資料的生產者，而使用者態取該資料視為消費者的話，生產消費模型非常明顯，針對這種模型，一般由兩種方式來處理：

1.輪詢，

2.中斷通知

其中中斷通知又可以細分為有守護程序，即daemon 方式，還有一種是無守護程序，直接回調一個trigger的方式。

[[email protected] ~]# ps -ef |grep -i mce
root       920     1  0 10月13 ?      00:00:00 /usr/sbin/mcelog --ignorenodev --daemon --syslog
root     22125  7650  0 10:18 pts/0    00:00:00 grep --color=auto -i mce
[[email protected] ~]# cat /proc/920/stack
[<ffffffff81212b95>] poll_schedule_timeout+0x55/0xb0
[<ffffffff8121411d>] do_sys_poll+0x4cd/0x580
[<ffffffff8121443e>] SyS_ppoll+0xce/0x1d0
[<ffffffff816965c9>] system_call_fastpath+0x16/0x1b
[<ffffffffffffffff>] 0xffffffffffffffff

上面這個例子就是daemon方式，等待在poll中，等核心事件通知。

等待的檔名是/dev/mcelog：

[[email protected] ~]# lsof -p 920
COMMAND PID USER   FD   TYPE             DEVICE SIZE/OFF     NODE NAME
mcelog  920 root  cwd    DIR                8,2     4096        2 /
mcelog  920 root  rtd    DIR                8,2     4096        2 /
mcelog  920 root  txt    REG                8,2   155952 11550884 /usr/sbin/mcelog
mcelog  920 root  mem    REG                8,2    61752 11535695 /usr/lib64/libnss_files-2.17.so
mcelog  920 root  mem    REG                8,2  2116736 11535677 /usr/lib64/libc-2.17.so
mcelog  920 root  mem    REG                8,2   155064 11535670 /usr/lib64/ld-2.17.so
mcelog  920 root    0u   CHR                1,3      0t0     2052 /dev/null
mcelog  920 root    1u   CHR                1,3      0t0     2052 /dev/null
mcelog  920 root    2u   CHR                1,3      0t0     2052 /dev/null
mcelog  920 root    3r   CHR             10,227      0t0     2205 /dev/mcelog------------------這個裝置
mcelog  920 root    4u  unix 0xffff880035de8000      0t0    25331 /var/run/mcelog-client

那麼，既然是sys檔案系統，肯定有對應的read和write來提供給使用者使用，read顯而易見，是讀取mce日誌，write是幹啥的？其實這裡的write主要就是為了給別人註冊用的，mce本身不是

呼叫write來寫資料，它直接維護一個數據區，等別人來讀，另外daemon是使用poll方法來等待的，所以自然還得實現poll方法：

static const struct file_operations mce_chrdev_ops = {
    .open            = mce_chrdev_open,
    .release        = mce_chrdev_release,
    .read            = mce_chrdev_read,
    .write            = mce_chrdev_write,
    .poll            = mce_chrdev_poll,
    .unlocked_ioctl        = mce_chrdev_ioctl,
    .llseek            = no_llseek,
};

poll方法的最終實現：

static unsigned int mce_chrdev_poll(struct file *file, poll_table *wait)
{
    poll_wait(file, &mce_chrdev_wait, wait);----------一般阻塞在這，mce_chrdev_wait是一個等待佇列
    if (READ_ONCE(mcelog.next))
        return POLLIN | POLLRDNORM;
    if (!mce_apei_read_done && apei_check_mce())
        return POLLIN | POLLRDNORM;
    return 0;
}

既然有等待佇列，自然而然就會想，我什麼時候喚醒：

int mce_notify_irq(void)
{
    /* Not more than two messages every minute */
    static DEFINE_RATELIMIT_STATE(ratelimit, 60*HZ, 2);

    if (test_and_clear_bit(0, &mce_need_notify)) {
        /* wake processes polling /dev/mcelog */
        wake_up_interruptible(&mce_chrdev_wait);

        if (mce_helper[0])
            schedule_work(&mce_trigger_work);

        if (__ratelimit(&ratelimit))
            pr_info(HW_ERR "Machine check events logged\n");

        return 1;
    }
    return 0;
}

既然mce的來源有使用者除錯，以及真實檢測，所以很自然喚醒也有多個來源。比如inject來喚醒和mce真實中斷喚醒。

使用者程序被poll喚醒之後，一般是poll_in，自然需要去讀取資料，直接呼叫read方法就行。也就是一個簡單的read和poll，就解決了監控使用者態側的大部分功能。

其他資訊就不一一列了，昨天參加clk南京的會議，其中富士通一個兄弟說他們實現了NVDIMM 的一個監控，原因在於他們認為NVDIMM 是很難replace，所有有必要監控它。

它列出了一個模型，就是使用者態daemon，然後設定filter到核心，核心將其監控到的event發給等待的使用者程序，使用的方法正是triggers a poll event ，和目前的mce有異曲同工之妙。

假設讓你設計這種監控類的東西，你會怎麼設計呢？

linux mce的一些相關內容和使用者態監控的設計方法

之所以想起寫一點關於mce的東西，倒不是因為遇到mce的異常了，之前遇到過很多mce的異常，記憶體居多，但沒有好好記錄下來，寫這個是因為參加2018 clk南京會議的一點想法。 void __init trap_init(void) { 。。。 #ifdef CONFIG_X86_MCE se

Ionic2之tabs相關內容和其他一些坑

tabs相關內容： 1、 ionic2 中隱藏子頁面tabs選項卡的三種方法第一種：隱藏全部子頁面的tabs選項介面找到app.module.ts檔案，修改如下程式碼 imports: [ IonicModule.forRoot(My

LINUX系統---初級相關操作和知識

www mys apach lis -type cnblogs 管理安裝linux系統 tomcat 　　LINUX系統的初級，從安裝LINUX開始，到處理簡單的運維問題、搭建各種服務、解決網路問題、緩解服務器壓力，寫簡單的shell腳本。　　我們從基本的入門開始搞事情

LINUX系統---中級相關操作和知識

div blog pos one 相關 inux 公司 -type 熱備　　LINUX系統的中級，來搞一些LINUX安全相關的東西，還有在公司生成中長搞的集群。 RHCS集群什麽是高可用什麽是熱備什麽是分布式 LINUX系統---中級相關操作和知識

Linux網絡相關 firewalld和netfilter netfilte5表5鏈介紹 iptab

多個 nat accep cmp one toolbar 高級網絡 reference lld 10.11 Linux網絡相關修改配置網卡配置文件/etc/sysconfig/network-scripts/ifcfg-xxx（網卡） ifconfig 查看網卡的ip，安裝

[Linux] Nginx 提供靜態內容和優化積壓佇列

1.try_files指令可用於檢查指定的檔案或目錄是否存在; NGINX會進行內部重定向，如果沒有，則返回指定的狀態程式碼。例如，要檢查對應於請求URI的檔案是否存在，請使用try_files指令和$ uri變數，如下所示： server { root /www/data; locat

[Linux] Nginx 提供靜態內容和優化積壓隊列

內容 png 規則 oca core max location 重定向返回 1.try_files指令可用於檢查指定的文件或目錄是否存在; NGINX會進行內部重定向，如果沒有，則返回指定的狀態代碼。例如，要檢查對應於請求URI的文件是否存在，請使用try_files指

linux使用者許可權相關內容檢視

(pyvenv) [email protected]:~$ sudo tail -n 10 /var/log/auth.log May 4 14:35:30 iZ25o2yyyoeZ sudo: pam_unix(sudo:session): session closed for user

linux的一些常用命令和emacs的一些快捷鍵

本人是linux新手，把一些常用的命令記在這裡。檢視ubuntu版本 sudo lsb_release -a 安裝軟體 sudo apt-get install *** eg：sudo apt-get install apt-file 刪除軟體 sudo apt-ge

linux裝置驅動：併發和競態

綜述首先什麼是併發與竟態呢？併發(concurrency)指的是多個執行單元同時、並行被執行。而併發的執行單元對共享資源(硬體資源和軟體上的全域性、靜態變數)的訪問則容易導致競態(race conditions)。因此再設計自己的驅動程式時，第一個要記住的原

Linux安裝（虛擬機器和雙系統兩種方法）

一、VMware虛擬機器 1.下載並安裝VMware： ①https://my.vmware.com/cn/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/15_0 ②下載Ubuntu映象檔案：http

linux grep顯示指定內容前後指定行數的方法

在日常應用中，有時會需要查詢一個檔案內指定內容之前或者之後幾行內容，可以用如下方法解決：檔名：/etc/httpd/conf/httpd.conf 指定內容：查詢前後5行內容： cat /etc/httpd/conf/httpd.conf | grep -5 ^\ 查

Android 的一些基本概念和OOM異常的處理方法

一些基本的概念 ActivityManagerServices，簡稱AMS，服務端物件，負責系統中所有的Activity的生命週期 ActivityThread，App的真正入口。當開啟App之後，會呼叫main（）開始執行，開啟訊息迴圈佇列，這就是傳說中的

自適應電腦、手機和iPad的網頁設計方法

隨著3G的普及，越來越多的人使用手機上網。移動裝置正超過桌面裝置，成為訪問網際網路的最常見終端。於是，網頁設計師不得不面對一個難題：如何才能在不同大小的裝置上呈現同樣的網頁？手機的螢幕比較小，寬度通常在600畫素以下；PC的螢幕寬度，一般都在1000畫素以上（目前主流寬度是1366×768）

如何查找Linux中一些特殊數據類型定義，比如pid_t和uid_t（轉）

分享文件技術分享定義 log 相關 uid linux源碼 pid 1. 查看man手冊，找到pid_t，可以通過getpid函數來看 2. 打開sys/types.h 3. 打開bits/types.h 4.

Linux進程相關的內容及命令小結（一）

進程 linux概念：進程，一個活動的程序實體的副本，擁有生命周期，一個進程可能包含一個或多個執行流；進程的創建進程：每個進程的組織結構是一致的；內核在正常啟動並且全面接管硬件資源之後，會創建一個Init的進程；而這個名叫init的進程負責用戶空間的進程管理； CentOS5及以前：SysV In

Linux網絡相關，firewalld和netfilter，netfilter5表5鏈介紹，iptables語法

iptables netfilter linux 筆記內容：l 10.11 Linux網絡相關l 10.12 firewalld和netfilterl 10.13 netfilter5表5鏈介紹l 10.14 iptables語法筆記時間： 10.11 Linux網絡相關ifconfig命令在Ce

Linux的企業-Cgconfig簡介和相關限制

cgconfig 簡介相關限制一.簡介 Cgroups是control groups的縮寫，是Linux內核提供的一種可以限制、記錄、隔離進程組（process groups）所使用的物理資源（如：cpu,memory,IO等等）的機制。最初由google的工程師提出，後來被整合進

06-繼承與多態課程作業01 完成課件中的動手動腦的或需要驗證的相關內容

xtend 完成訪問自己 false 運行 color com obj 一、怎樣判斷對象是否可以轉換？　　可以使用instanceof判斷一個對象是否可以轉換為目標類型： 1 public class TestInstanceof 2 { 3 p

Linux的shell腳本random相關應用和批量修改建立練習

shell腳本random 批量創建用戶和文件一.三種取隨機數並加密的方法1.random的取數並加密取數的方法：取隨機數的方法：取隨機數的並加密的方法：加密後截取不同的位數：2.data時間取隨機數並加密3.openssl取隨機數並加密二.隨機數的應用1.批量創建以隨機數開頭的文件題目1：在/westos目

linux mce的一些相關內容和使用者態監控的設計方法

相關推薦