1. 程式人生 > >hash表--c語言 字串鍵值配對——(key, value)

hash表--c語言 字串鍵值配對——(key, value)

c語言鍵值配對——(key, value)

看一個C++專案時,其中解析配置文的部分引發了我的思考。 配置檔案問普通字元檔案,內容都是類似 如下: ipaddr=127.0.0.1 port=888 logfile=log C++對此配置檔案解析字元,按每次處理一行,以”=”作為分隔符將每行分成兩個字串作為(key,value)插入map 變數,舉個例子 以ipaddr=127.0.0.1為例:

std::map<std::string, std::string> config_map;
//key,value = “ipaddr","127.0.0.1"
config_map..insert(std
::make_pair("ipaddr", "127.0.0.1");

這個提取配置資訊作為鍵值對 在C++中很容易實現,但是在C專案中又該如何實現呢,好像沒有直接以字串作為索引的陣列,實現方式需要特殊處理。 我想到的是雜湊表,這個東西類似於陣列,但是索引值是以 字串計算而來,關於雜湊值得計算公式其實很簡單,就是對字串進行一系列操作。 網上有個網友寫了一篇很不錯的關於雜湊表的文章: 其中對於雜湊表的鏈地址法實現Hash寫的非常好,鏈地址能在一定程度上對鍵值衝突進行處理,如果鍵值衝突太頻繁,獲取就要考慮另一種方式實現了,但是對於今天的主題,鏈地址hash表已經足夠,並且簡單。 現附上那位網友的原始碼,後面我會稍微修改一下,來演示鍵值衝突: 程式碼來源

#include <string.h>
#include <stdio.h>
#include <stdlib.h>

typedef struct _node{
    char *name;
    char *desc;
    struct _node *next;
}node;

#define HASHSIZE 101
static node* hashtab[HASHSIZE];
void inithashtab(){
    int i;
    for(i=0;i<HASHSIZE;i++)
        hashtab[i]=NULL;
}

unsigned
int hash(char *s){ unsigned int h=0; for(;*s;s++) h=*s+h*31; return h%HASHSIZE; } node* lookup(char *n){ unsigned int hi=hash(n); node* np=hashtab[hi]; for(;np!=NULL;np=np->next){ if(!strcmp(np->name,n)) return np; } return NULL; } char* m_strdup(char *o){ int l=strlen(o)+1; char *ns=(char*)malloc(l*sizeof(char)); strcpy(ns,o); if(ns==NULL) return NULL; else return ns; } char* get(char* name){ node* n=lookup(name); if(n==NULL) return NULL; else return n->desc; } int install(char* name,char* desc){ unsigned int hi; node* np; if((np=lookup(name))==NULL){ hi=hash(name); np=(node*)malloc(sizeof(node)); if(np==NULL) return 0; np->name=m_strdup(name); if(np->name==NULL) return 0; np->next=hashtab[hi]; hashtab[hi]=np; } else free(np->desc); np->desc=m_strdup(desc); if(np->desc==NULL) return 0; return 1; } /* A pretty useless but good debugging function, which simply displays the hashtable in (key.value) pairs */ void displaytable(){ int i; node *t; for(i=0;i<HASHSIZE;i++){ if(hashtab[i]==NULL) printf("()"); else{ t=hashtab[i]; printf("("); for(;t!=NULL;t=t->next) printf("(%s.%s) ",t->name,t->desc); printf(".)\n"); } } } void cleanup(){ int i; node *np,*t; for(i=0;i<HASHSIZE;i++){ if(hashtab[i]!=NULL){ np=hashtab[i]; while(np!=NULL){ t=np->next; free(np->name); free(np->desc); free(np); np=t; } } } } main(){ int i; char* names[]={"name","address","phone","k101","k110"}; char* descs[]={"Sourav","Sinagor","26300788","Value1","Value2"}; inithashtab(); //增加部分--------------------------列印hash_table_index for(i = 0; i < 5; i++) { unsigned int hi=hash(names[i]); printf("%s--hash_table_index=%d\n", names[i], hi); } //---------------------------------------列印hash_table_index for(i=0;i<5;i++) install(names[i],descs[i]); printf("Done\n"); printf("If we didnt do anything wrong..""we should see %s\n",get("k110")); install("phone","9433120451"); printf("Again if we go right, we have %s and %s\n",get("k101"),get("phone")); displaytable(); cleanup(); return 0; }

在此程式碼中,我添加了列印 字串 對應的hash值

//增加部分--------------------------列印hash_table_index   
    for(i = 0; i < 5; i++)
    {
        unsigned int hi=hash(names[i]);
        printf("%s--hash_table_index=%d\n", names[i], hi);
    }
//---------------------------------------列印hash_table_index

輸出資訊 這裡寫圖片描述 可以看見,不同字串獲得hash值不一樣,目前還沒有鍵衝突,那麼每個字串在雜湊表(static node* hashtab[HASHSIZE])中的索引便知道了, 列印資訊很直白,結合原始碼很容易看懂。 下面來模擬 鍵衝突的情況,其實要想兩個不同的字串對應的hash值相同,即鍵衝突,這樣的兩個字串很難找到,不妨修改hash值的計算方式,給定一個固定值,修改如下程式碼:

unsigned int hash(char *s){
    unsigned int h=0;
    /**
    for(;*s;s++)
        h=*s+h*31;
    **/
    return h%HASHSIZE;
}

讓其獲得的hash值都為0,所以不管怎樣都會出現hash值相同,即鍵衝突 輸出資訊如下: 這裡寫圖片描述 所有的鍵值對都在hash表的第一項中,衝突鍵使用單鏈表連線起來了,具體是在插入新字串鍵時先查詢已有hash表中是否存在,如果鍵值相等再比較字串是否相等,見下:

node* lookup(char *n){
    unsigned int hi=hash(n);
    node* np=hashtab[hi];
    for(;np!=NULL;np=np->next){
        if(!strcmp(np->name,n))
            return np;
    }
    return NULL;
}

如果字串相等,返回已有的鍵值對,覆蓋對應的值,如果查詢不存在,申請新的空間,從連結串列頭部插入新鍵值對。 在C語言中鏈式雜湊表能實現類似 C++ 中map 的鍵值對功能,有這個需求的可以參考以上原始碼內容。