1. 程式人生 > >使用/proc實現核心與使用者空間通訊

使用/proc實現核心與使用者空間通訊

1. 前言

Linux核心空間與使用者空間的通訊可通過"/proc"目錄的檔案讀寫來實現,如果只是控制核心中的引數而不是傳輸較多資料的話,用“/proc”是很合適的。另外一種核心與使用者空間通訊方式方式是使用核心裝置的讀寫或IOCTL來實現,以後再介紹。 2. /proc概述 /proc目錄是系統模擬出來的一個檔案系統,本身並不存在於磁碟上,其中的檔案都表示核心引數的資訊,這些資訊分兩類,一類是可都可寫的,這類引數都在“/proc/sys”目錄下,另一類是隻讀的,就是“/proc/sys”目錄之外的其他目錄和檔案,當然這只是一種慣例,實際在其他目錄下建立可讀寫的/proc檔案也是可以的。 操作/proc目錄不需要特殊工具,在使用者層看來就是一普通檔案,在shell中用“cat”命令進行檢視,用“echo”命令來寫檔案資訊。 Linux核心在2.4以後/proc目錄檔案的建立已經變得很容易,以前版本都還需要構造檔案操作結構來實現,現在只需要呼叫簡單函式就可以了。/proc檔案通過是create_proc_entry()函式來建立,使用remove_proc_entry()函式來刪除,建立新目錄可以通過proc_mkdir()函式呼叫,這些函式在fs/proc/generic.c中定義,通常我們不必直接使用create_proc_entry()函式來建立,而是通過這個函式的包裹函式來實現。 3. 只讀/proc檔案 核心編譯選項要設定CONFIG_PROC_FS。 3.1 建立/proc只讀項 只讀的/proc檔案可以通過create_proc_read_entry()或create_proc_info_entry()函式來建立,在模組初始化時呼叫,: /* include/linux/proc_fs.h */
static inline struct proc_dir_entry *create_proc_read_entry(const char *name,
 mode_t mode, struct proc_dir_entry *base, 
 read_proc_t *read_proc, void * data)
{
 struct proc_dir_entry *res=create_proc_entry(name,mode,base);
 if (res) {
  res->read_proc=read_proc;
  res->data=data;
 }
 return res;
} 該函式需要5個引數:
name:要建立的檔名
mode:檔案模式
base:所在的目錄
read_proc:這是個函式指標,表示讀取檔案內容的函式
data:傳遞給read_proc函式的使用者引數指標 static inline struct proc_dir_entry *create_proc_info_entry(const char *name,
 mode_t mode, struct proc_dir_entry *base, get_info_t *get_info)
{
 struct proc_dir_entry *res=create_proc_entry(name,mode,base);
 if (res) res->get_info=get_info;
 return res;
}
該函式需要4個引數:
name:要建立的檔名
mode:檔案模式
base:所在的目錄
get_info:這是個函式指標,表示讀取檔案內容的函式,這個函式比上面的read_proc函式少一個使用者輸入引數 對於base,核心已經預定義了一些目錄/proc/net, /procbus, /proc/fs, /proc/driver, 這些是在fs/proc/root.c中定義的: struct proc_dir_entry *proc_net, *proc_bus, *proc_root_fs, *proc_root_driver; 3.2 刪除/proc只讀項 只讀的/proc檔案可以通過remove_proc_entry()函式來建立,在模組刪除時呼叫,該函式在fs/proc/generic.c中定義: void remove_proc_entry(const char *name, struct proc_dir_entry *parent) 該函式需要2個引數:
name:要建立的檔名
parent:父目錄 3.3 網路相關/proc的建立和刪除 對於網路引數(/proc/net),核心更提供了proc_net_create()和proc_net_remove()包裹函式來建立和刪除/proc/net檔案: static inline struct proc_dir_entry *proc_net_create(const char *name,
 mode_t mode, get_info_t *get_info)
{
 return create_proc_info_entry(name,mode,proc_net,get_info);
} static inline void proc_net_remove(const char *name)
{
 remove_proc_entry(name,proc_net);
} proc_net就是已經預定義好的"/proc/net"目錄的指標,這樣在建立網路部分的只讀檔案時就直接呼叫這兩個函式就可以了。 3.4 舉例 net/ipv4/af_inet.c:
...
// 建立/proc/net/netstat檔案
 proc_net_create ("netstat", 0, netstat_get_info);
... netstat_get_info()函式在net/ipv4/proc.c檔案中定義,函式的引數格式是固定的:
//buffer是資料輸出的緩衝區,要輸出的資料都寫到這個緩衝區;
//start用來返回buffer中起始資料的位置;
//offset指定偏移start所指資料相對buffer起點的偏移,實際start是通過buffer和 //offset計算出來的;
//length表示buffer的長度,是由核心自己分配的,程式設計時要檢查向緩衝區寫的資料長度 //是否超過length規定的限值。 int netstat_get_info(char *buffer, char **start, off_t offset, int length)
{
 int len, i;
// len記錄寫入緩衝區的資料長度,所有資料長度都要累加
 len = sprintf(buffer,
        "TcpExt: SyncookiesSent SyncookiesRecv SyncookiesFailed"
        " EmbryonicRsts PruneCalled RcvPruned OfoPruned"
        " OutOfWindowIcmps LockDroppedIcmps ArpFilter"
        " TW TWRecycled TWKilled"
        " PAWSPassive PAWSActive PAWSEstab"
        " DelayedACKs DelayedACKLocked DelayedACKLost"
        " ListenOverflows ListenDrops"
        " TCPPrequeued TCPDirectCopyFromBacklog"
        " TCPDirectCopyFromPrequeue TCPPrequeueDropped"
        " TCPHPHits TCPHPHitsToUser"
        " TCPPureAcks TCPHPAcks"
        " TCPRenoRecovery TCPSackRecovery"
        " TCPSACKReneging"
        " TCPFACKReorder TCPSACKReorder TCPRenoReorder TCPTSReorder"
        " TCPFullUndo TCPPartialUndo TCPDSACKUndo TCPLossUndo"
        " TCPLoss TCPLostRetransmit"
        " TCPRenoFailures TCPSackFailures TCPLossFailures"
        " TCPFastRetrans TCPForwardRetrans TCPSlowStartRetrans"
        " TCPTimeouts"
        " TCPRenoRecoveryFail TCPSackRecoveryFail"
        " TCPSchedulerFailed TCPRcvCollapsed"
        " TCPDSACKOldSent TCPDSACKOfoSent TCPDSACKRecv TCPDSACKOfoRecv"
        " TCPAbortOnSyn TCPAbortOnData TCPAbortOnClose"
        " TCPAbortOnMemory TCPAbortOnTimeout TCPAbortOnLinger"
        " TCPAbortFailed TCPMemoryPressures/n"
        "TcpExt:");
 for (i=0; i<offsetof(struct linux_mib, __pad)/sizeof(unsigned long); i++)
  len += sprintf(buffer+len, " %lu", fold_field((unsigned long*)net_statistics, sizeof(struct linux_mib), i));  len += sprintf (buffer + len, "/n");  if (offset >= len)
 {
  *start = buffer;
  return 0;
 }
//計算資料起始指標
 *start = buffer + offset;
 len -= offset; // 檢查寫入的長度是否溢位
 if (len > length)
  len = length;
 if (len < 0)
  len = 0; 
 return len;
} 4. 可讀寫的/proc檔案 要支援可讀寫的/proc,核心編譯選項要設定CONFIG_SYSCTL。 可讀寫/proc檔案按慣例通常放在/proc/sys目錄下,這些檔案對應的核心引數或者是全域性變數,或者是動態分配的記憶體空間,不能是臨時變數。 4.1 建立函式 建立可讀寫的/proc檔案使用register_sysctl_table()函式來登記,該函式在kernel/sysctl.c中定義,宣告如下: struct ctl_table_header *register_sysctl_table(ctl_table * table,  int insert_at_head); 該函式返回一個struct ctl_table_header結構的指標,在釋放時使用; 該函式第一個引數table是sysctl控制表,定義如下: /* include/linux/sysctl.h */ typedef struct ctl_table ctl_table; struct ctl_table 
{
 int ctl_name;  /* 數值表示的該項的ID */
 const char *procname; /* 名稱 */
 void *data;             /* 對於的核心引數 */
 int maxlen;             /* 該引數所佔的儲存空間 */
 mode_t mode;            /* 許可權模式:rwxrwxrwx */
 ctl_table *child;       /* 子目錄表 */
 proc_handler *proc_handler; /* 讀寫資料處理的回撥函式 */
 ctl_handler *strategy;  /* 讀/寫時的回撥函式,是對資料的預處理,
     該函式是在讀或寫操作之前執行,該函式返回值
     <0表示出錯;==0表示正確,繼續讀或寫;>0表
     示讀/寫操作已經在函式中完成,可以直接返回了*/
 struct proc_dir_entry *de; /* /proc控制塊指標 */
 void *extra1;  /* 額外引數,常在設定資料範圍時用來表示最大最小值 */
 void *extra2;
};
注意該結構中的第6個引數子目錄表,這使得該表成為樹型結構。 第二個引數表示連結串列的插入方式,是插入到連結串列頭還是連結串列尾;
由此可知重要的是struct ctl_table結構的填寫,而最重要的是結構項proc_handler,該函式處理資料的輸入和輸出,如果不是目錄而是檔案,該項是不可或缺的。早期核心版本中這些都需要單獨編寫,現在2.4以後核心提供了一些函式可以完成大部分的資料輸入輸出功能: // 處理字串資料
extern int proc_dostring(ctl_table *, int, struct file *,
    void *, size_t *);
// 處理整數向量
extern int proc_dointvec(ctl_table *, int, struct file *,
    void *, size_t *);
// 處理整數向量,但init程序處理時稍有區別
extern int proc_dointvec_bset(ctl_table *, int, struct file *,
         void *, size_t *);
// 處理最大最小值形式的整數向量
extern int proc_dointvec_minmax(ctl_table *, int, struct file *,
    void *, size_t *);
// 處理最大最小值形式的無符合長整數向量
extern int proc_doulongvec_minmax(ctl_table *, int, struct file *,
      void *, size_t *);
// 處理整數向量,但使用者資料作為秒數,轉化為jiffies值,常用於時間控制
extern int proc_dointvec_jiffies(ctl_table *, int, struct file *,
     void *, size_t *);
// 處理無符合長整數向量,使用者資料作為為毫秒值,轉化為jiffies值,常用於時間控制
extern int proc_doulongvec_ms_jiffies_minmax(ctl_table *table, int,
          struct file *, void *, size_t *);
舉例,以下程式碼取自net/ipv4/netfilter/ip_conntrack_standalone.c: static ctl_table ip_ct_sysctl_table[] = {
 {NET_IPV4_NF_CONNTRACK_MAX, "ip_conntrack_max",
  &ip_conntrack_max, sizeof(int), 0644, NULL,
  &proc_dointvec},
 {NET_IPV4_NF_CONNTRACK_BUCKETS, "ip_conntrack_buckets",
  &ip_conntrack_htable_size, sizeof(unsigned int), 0444, NULL,
  &proc_dointvec},
 {NET_IPV4_NF_CONNTRACK_TCP_TIMEOUT_SYN_SENT, "ip_conntrack_tcp_timeout_syn_sent",
  &ip_ct_tcp_timeout_syn_sent, sizeof(unsigned int), 0644, NULL,
  &proc_dointvec_jiffies},
......
 {0}
};
static ctl_table ip_ct_netfilter_table[] = {
 {NET_IPV4_NETFILTER, "netfilter", NULL, 0, 0555, ip_ct_sysctl_table, 0, 0, 0, 0, 0},
 {NET_IP_CONNTRACK_MAX, "ip_conntrack_max",
  &ip_conntrack_max, sizeof(int), 0644, NULL,
  &proc_dointvec},
 {0}
}; static ctl_table ip_ct_ipv4_table[] = {
 {NET_IPV4, "ipv4", NULL, 0, 0555, ip_ct_netfilter_table, 0, 0, 0, 0, 0},
 {0}
}; static ctl_table ip_ct_net_table[] = {
 {CTL_NET, "net", NULL, 0, 0555, ip_ct_ipv4_table, 0, 0, 0, 0, 0},
 {0}
}; static int init_or_cleanup(int init)
{
...
 ip_ct_sysctl_header = register_sysctl_table(ip_ct_net_table, 0);
...
}
有些/proc/sys的檔案控制比較複雜,引數的輸入實際是一個觸發資訊來執行一系列操作,這時這些預設處理函式功能就不足了,就需要單獨編寫ctl_table結構中的proc_handle和strategy函式。如對於/proc/sys/net/ipv4/ip_forward檔案,對應的核心引數是ipv4_devconf.forwarding,如果該值改變,會將所有網絡卡裝置的forwarding屬性值進行改變,定義如下: /* net/ipv4/sysctl_net_ipv4.c */ static
int ipv4_sysctl_forward(ctl_table *ctl, int write, struct file * filp,
   void *buffer, size_t *lenp)
{
// 保持當前的forwarding值
 int val = ipv4_devconf.forwarding;
 int ret;
// 完成/proc/sys的讀寫操作,如果是寫操作,forwarding值已經改為新值
 ret = proc_dointvec(ctl, write, filp, buffer, lenp); // 寫操作,forwarding值改變,用新的forwarding值修改所有網絡卡的forwarding屬性
 if (write && ipv4_devconf.forwarding != val)
  inet_forward_change(ipv4_devconf.forwarding);  return ret;
} static int ipv4_sysctl_forward_strategy(ctl_table *table, int *name, int nlen,
    void *oldval, size_t *oldlenp,
    void *newval, size_t newlen, 
    void **context)
{
 int new;
 if (newlen != sizeof(int))
  return -EINVAL;
 if (get_user(new,(int *)newval))
  return -EFAULT; 
 if (new != ipv4_devconf.forwarding) 
  inet_forward_change(new); 
// 把forwarding值賦值為新值後應該可以返回>0的數的,現在不賦值只能返回0繼續了
// 不過該strategy函式好象不是必要的,上面的proc_handler函式已經可以處理了
 return 0; /* caller does change again and handles handles oldval */ 
}
ctl_table ipv4_table[] = {
......
        {NET_IPV4_FORWARD, "ip_forward",
         &ipv4_devconf.forwarding, sizeof(int), 0644, NULL,
         &ipv4_sysctl_forward,&ipv4_sysctl_forward_strategy},
...... 4.2 釋放函式 釋放可讀寫的/proc檔案使用unregister_sysctl_table()函式,該函式在kernel/sysctl.c中定義,宣告如下: void unregister_sysctl_table(struct ctl_table_header * header) 引數就是建立時的返回的struct ctl_table_header結構指標,通常在模組釋放函式中呼叫。
5. 結論 核心中/proc程式設計現在已經很簡單,將/proc目錄作為單個的核心引數的控制是很合適的,但不適合大批量的資料傳輸。