1. 程式人生 > >【轉】哈希(Hash)與加密(Encrypt)的基本原理、區別及工程應用

【轉】哈希(Hash)與加密(Encrypt)的基本原理、區別及工程應用

phy 理論 靈活運用 十分 實際應用 廣泛 tle 多網站 net

0、摘要

今天看到吉日嘎拉的一篇關於管理軟件中信息加密和安全的文章,感覺非常有實際意義。文中作者從實踐經驗出發,討論了信息管理軟件中如何通過哈希和加密進行數據保護。但是從文章評論中也可以看出很多朋友對這個方面一些基本概念比較模糊,這樣就容易“照葫蘆畫瓢”,不能根據自身具體情況靈活選擇和使用各種哈希和加密方式。本文不對哈希和加密做過於深入的討論,而是對哈希和加密的基本概念和原理進行闡述、比較,並結合具體實踐說明如何選擇哈希和加密算法、如何提高安全性等問題,使朋友們做到“知其然,知其所以然”,這樣就能通過分析具體情況,靈活運用哈希和加密保護數據。

1、哈希(Hash)與加密(Encrypt)的區別

在本文開始,我需要首先從直觀層面闡述哈希(Hash)和加密(Encrypt)的區別,因為我見過很多朋友對這兩個概念不是很清晰,容易混淆兩者。而正確區別兩者是正確選擇和使用哈希與加密的基礎。

概括來說,哈希(Hash)是將目標文本轉換成具有相同長度的、不可逆的雜湊字符串(或叫做消息摘要),而加密(Encrypt)是將目標文本轉換成具有不同長度的、可逆的密文。

具體來說,兩者有如下重要區別:

1、哈希算法往往被設計成生成具有相同長度的文本,而加密算法生成的文本長度與明文本身的長度有關。

例如,設我們有兩段文本:“Microsoft”和“Google”。兩者使用某種哈希算法得到的結果分別為:“140864078AECA1C7C35B4BEB33C53C34”和“8B36E9207C24C76E6719268E49201D94”,而使用某種加密算法的到的結果分別為“Njdsptpgu”和“Hpphmf”。可以看到,哈希的結果具有相同的長度,而加密的結果則長度不同。實際上,如果使用相同的哈希算法,不論你的輸入有多麽長,得到的結果長度是一個常數,而加密算法往往與明文的長度成正比。

2、哈希算法是不可逆的,而加密算法是可逆的。

這裏的不可逆有兩層含義,一是“給定一個哈希結果R,沒有方法將E轉換成原目標文本S”,二是“給定哈希結果R,即使知道一段文本S的哈希結果為R,也不能斷言當初的目標文本就是S”。其實稍微想想就知道,哈希是不可能可逆的,因為如果可逆,那麽哈希就是世界上最強悍的壓縮方式了——能將任意大小的文件壓縮成固定大小。

加密則不同,給定加密後的密文R,存在一種方法可以將R確定的轉換為加密前的明文S。

這裏先從直觀層面簡單介紹兩者的區別,等下文從數學角度對兩者做嚴謹描述後,讀者朋友就知道為什麽會有這兩個區別了。

2、哈希(Hash)與加密(Encrypt)的數學基礎

從數學角度講,哈希和加密都是一個映射。下面正式定義兩者:

一個哈希算法技術分享是一個多對一映射,給定目標文本S,H可以將其唯一映射為R,並且對於所有S,R具有相同的長度。由於是多對一映射,所以H不存在逆映射技術分享

使得R轉換為唯一的S。

一個加密算法技術分享是一個一一映射,其中第二個參數叫做加密密鑰,E可以將給定的明文S結合加密密鑰Ke唯一映射為密文R,並且存在另一個一一映射技術分享,可以結合Kd將密文R唯一映射為對應明文S,其中Kd叫做解密密鑰。

下圖是哈希和加密過程的圖示:

技術分享

有了以上定義,就很清楚為什麽會存在上文提到的兩個區別了。由於哈希算法的定義域是一個無限集合,而值域是一個有限集合,將無限集合映射到有限集合,根據“鴿籠原理(Pigeonhole principle)”,每個哈希結果都存在無數個可能的目標文本,因此哈希不是一一映射,是不可逆的。

而加密算法是一一映射,因此理論上來說是可逆的。

但是,符合上面兩個定義的映射僅僅可以被叫做哈希算法和加密算法,但未必是好的哈希和加密,好的哈希和加密往往需要一些附加條件,下面介紹這些內容。

一個設計良好的哈希算法應該很難從哈希結果找到哈希目標文本的碰撞(Collision)。那麽什麽是碰撞呢?對於一個哈希算法H,如果技術分享,則S1和S2互為碰撞。關於為什麽好的哈希需要難以尋找碰撞,在下面講應用的時候會詳解。另外,好的哈希算法應該對於輸入的改變極其敏感,即使輸入有很小的改動,如一億個字符變了一個字符,那麽結果應該截然不同。這就是為什麽哈希可以用來檢測軟件的完整性。

一個設計良好的加密算法應該是一個“單向陷門函數(Trapdoor one-way function)”,單向陷門函數的特點是一般情況下即使知道函數本身也很難將函數的值轉換回函數的自變量,具體到加密也就是說很難從密文得到明文,雖然從理論上這是可行的,而“陷門”是一個特殊的元素,一旦知道了陷門,則這種逆轉換則非常容易進行,具體到加密算法,陷門就是密鑰。

順便提一句,在加密中,應該保密的僅僅是明文和密鑰。也就是說我們通常假設攻擊者對加密算法和密文了如指掌,因此加密的安全性應該僅僅依賴於密鑰而不是依賴於假設攻擊者不知道加密算法。

3、哈希(Hash)與加密(Encrypt)在軟件開發中的應用

哈希與加密在現代工程領域應用非常廣泛,在計算機領域也發揮了很大作用,這裏我們僅僅討論在平常的軟件開發中最常見的應用——數據保護。

所謂數據保護,是指在數據庫被非法訪問的情況下,保護敏感數據不被非法訪問者直接獲取。這是非常有現實意義的,試想一個公司的安保系統數據庫服務器被入侵,入侵者獲得了所有數據庫數據的查看權限,如果管理員的口令(Password)被明文保存在數據庫中,則入侵者可以進入安保系統,將整個公司的安保設施關閉,或者刪除安保系統中所有的信息,這是非常嚴重的後果。但是,如果口令經過良好的哈希或加密,使得入侵者無法獲得口令明文,那麽最多的損失只是被入侵者看到了數據庫中的數據,而入侵者無法使用管理員身份進入安保系統作惡。

3.1、哈希(Hash)與加密(Encrypt)的選擇

要實現上述的數據保護,可以選擇使用哈希或加密兩種方式。那麽在什麽時候該選擇哈希、什麽時候該選擇加密呢?

基本原則是:如果被保護數據僅僅用作比較驗證,在以後不需要還原成明文形式,則使用哈希;如果被保護數據在以後需要被還原成明文,則需要使用加密。

例如,你正在做一個系統,你打算當用戶忘記自己的登錄口令時,重置此用戶口令為一個隨機口令,而後將此隨機口令發給用戶,讓用戶下次使用此口令登錄,則適合使用哈希。實際上很多網站都是這麽做的,想想你以前登錄過的很多網站,是不是當你忘記口令的時候,網站並不是將你忘記的口令發送給你,而是發送給你一個新的、隨機的口令,然後讓你用這個新口令登錄。這是因為你在註冊時輸入的口令被哈希後存儲在數據庫裏,而哈希算法不可逆,所以即使是網站管理員也不可能通過哈希結果復原你的口令,而只能重置口令。

相反,如果你做的系統要求在用戶忘記口令的時候必須將原口令發送給用戶,而不是重置其口令,則必須選擇加密而不是哈希。

3.2、使用簡單的一次哈希(Hash)方法進行數據保護

首先我們討論使用一次哈希進行數據保護的方法,其原理如下圖所示:

技術分享

對上圖我想已無需多言,很多朋友應該使用過類似的哈希方法進行數據保護。當前最常用的哈希算法是MD5和SHA1,下面給出在.NET平臺上用C#語言實現MD5和SHA1哈希的代碼,由於.NET對於這兩個哈希算法已經進行很很好的封裝,因此我們不必自己實現其算法細節,直接調用相應的庫函數即可(實際上MD5和SHA1算法都十分復雜,有興趣的可以參考維基百科)。

sing System;
using System.Web.Security;
 
namespace HashAndEncrypt
{
    /// <summary>
    /// 哈希(Hash)工具類
    /// </summary>
    public sealed class HashHelper
    {
        /// <summary>
        /// 使用MD5算法進行哈希
        /// </summary>
        /// <param name="source">源字串</param>
        /// <returns>雜湊字串</returns>
        public static string MD5Hash(string source)
        {
            return FormsAuthentication.HashPasswordForStoringInConfigFile(source, "MD5");
        }
 
        /// <summary>
        /// 使用SHA1算法進行哈希
        /// </summary>
        /// <param name="source">源字串</param>
        /// <returns>雜湊字串</returns>
        public static string SHA1Hash(string source)
        {
            return FormsAuthentication.HashPasswordForStoringInConfigFile(source, "SHA1");
        }
    }
}


3.3、對簡單哈希(Hash)的攻擊

下面我們討論上述的數據保護方法是否安全。

對於哈希的攻擊,主要有尋找碰撞法和窮舉法。

先來說說尋找碰撞法。從哈希本身的定義和上面的數據保護原理圖可以看出,如果想非法登錄系統,不一定非要得到註冊時的輸入口令,只要能得到一個註冊口令的碰撞即可。因此,如果能從雜湊串中分析出一個口令的碰撞,則大功告成。

不過我的意見是,對這種攻擊大可不必擔心,因為目前對於MD5和SHA1並不存在有效地尋找碰撞方法。雖然我國傑出的數學家王小雲教授曾經在國際密碼學會議上發布了對於MD5和SHA1的碰撞尋找改進算法,但這種方法和很多人口中所說的“破解”相去甚遠,其理論目前僅具有數學上的意義,她將破解MD5的預期步驟數從2^80降到了2^69,雖然從數學上降低了好幾個數量級,但2^69對於實際應用來說仍然是一個天文數字,就好比以前需要一億年,現在需要一萬年一樣。

不過這並不意味著使用MD5或SHA1後就萬事大吉了,因為還有一種對於哈希的攻擊方法——窮舉法。通俗來說,就是在一個範圍內,如從000000到999999,將其中所有值一個一個用相同的哈希算法哈希,然後將結果和雜湊串比較,如果相同,則這個值就一定是源字串或源字串的一個碰撞,於是就可以用這個值非法登錄了。

例如,下文是對MD5的窮舉攻擊的代碼(設攻擊範圍為000000到999999):

using System;
using System.Web.Security;
 
namespace HashAndEncrypt
{
    /// <summary>
    /// MD5攻擊工具類
    /// </summary>
    public sealed class MD5AttackHelper
    {
        /// <summary>
        /// 對MD5進行窮舉攻擊
        /// </summary>
        /// <param name="hashString">雜湊串</param>
        /// <returns>雜湊串的源串或源串碰撞(攻擊失敗則返回null)</returns>
        public static string AttackMD5(string hashString)
        {
            for (int i = 0; i <= 999999; i++)
            {
                string testString = i.ToString();
                while (testString.Length < 6)
                    testString = "0" + testString;
 
                if (FormsAuthentication.HashPasswordForStoringInConfigFile(testString, "MD5") == hashString)
                    return testString;
            }
 
            return null;
        }
    }
}


這種看似笨拙的方法,在現實中爆發的能量卻是驚人的,目前幾乎所有的MD5破解機或MD5在線破解都是用這種窮舉法,但就是這種“笨”方法,卻成功破解出很多哈希串。糾其緣由,就是相當一部分口令是非常簡單的,如“123456”或“000000”這種口令還有很多人在用,可以看出,窮舉法是否能成功很大程度上取決於口令的復雜性。因為窮舉法掃描的區間往往是單字符集、規則的區間,或者由字典數據進行組合,因此,如果使用復雜的口令,例如“ASDF#$%uiop.8930”這種變態級口令,窮舉法就很難奏效了。

3.4、對一次哈希(Hash)的改進——多重混合哈希(Hash)

上面說過,如果口令過於簡單,則使用窮舉法可以很有效地破解出一次哈希後的雜湊串。如果不想這樣,只有讓用戶使用復雜口令,但是,很多時候我們並不能強迫用戶,因此,我們需要想一種辦法,即使用戶使用諸如“000000”這種簡單密碼,也令窮舉法難奏效。其中一種辦法就是使用多重哈希,所謂多重哈希就是使用不同的哈希函數配合自定義的Key對口令進行多次哈希,如果Key很復雜,那麽窮舉法將變得異常艱難。

例如,如果使用下面的混合公式進行哈希:

技術分享

如果將Key設為一個極為復雜的字符串,那麽在攻擊者不知道Key的情況下,幾乎無法通過窮舉法破解。因為即使S很簡單,但是Key的MD5值幾乎是無法在合理時間內窮舉完的。下面是這種多重混合哈希的代碼實現:

using System;
using System.Web.Security;
 
namespace HashAndEncrypt
{
    /// <summary>
    /// 多重混合哈希工具類
    /// </summary>
    public sealed class HashHelper
    {
        private static readonly String hashKey = "qwer#&^Buaa06";
        /// <summary>
        /// 對敏感數據進行多重混合哈希
        /// </summary>
        /// <param name="source">待處理明文</param>
        /// <returns>Hasn後的數據</returns>
        public static String Hash(String source)
        {
            String hashCode = FormsAuthentication.HashPasswordForStoringInConfigFile(source, "MD5") +
                              FormsAuthentication.HashPasswordForStoringInConfigFile(hashKey, "MD5");
            return FormsAuthentication.HashPasswordForStoringInConfigFile(hashCode, "SHA1");
        }
    }
}


3.5、使用加密(Encrypt)方法進行數據保護

加密方法如果用於口令保護的話,與上述哈希方法的流程基本一致,只是在需要時,可以使用解密方法得到明文。關於加密本身是一個非常龐大的系統,而對於加密算法的攻擊更是可以寫好幾本書了,所以這裏從略。下面只給出使用C#進行DES加密和解密的代碼。

using System;
using System.Security.Cryptography;
using System.Text;
using System.Web.Security;
 namespace HashAndEncrypt
{
    /// <summary>
    /// 工具類,封裝了加解密相關操作
    /// </summary>
    public sealed class EncryptHelper
    {
        private static readonly Byte[] DesKey = {5, 7, 8, 9, 0, 2, 1, 6};
        private static readonly Byte[] DesVi = { 6, 9, 8, 5, 1, 6, 2, 8 };
        /// <summary>
        /// 使用DES算法加密數據
        /// </summary>
        /// <param name="data">待加密數據</param>
        /// <returns>密文</returns>
        public static String Encrypt(String data)
        {
            DESCryptoServiceProvider des = new DESCryptoServiceProvider();
            Encoding utf = new UTF8Encoding();
            ICryptoTransform encryptor = des.CreateEncryptor(DesKey, DesVi);
 
            byte[] bData = utf.GetBytes(data);
            byte[] bEnc = encryptor.TransformFinalBlock(bData, 0, bData.Length);
            return Convert.ToBase64String(bEnc);
        }
 
        /// <summary>
        /// 使用DES算法解密數據
        /// </summary>
        /// <param name="data">待解密數據</param>
        /// <returns>明文</returns>
        public static String Decrypt(String data)
        {
            DESCryptoServiceProvider des = new DESCryptoServiceProvider();
            Encoding utf = new UTF8Encoding();
            ICryptoTransform decryptor = des.CreateDecryptor(DesKey, DesVi);
 
            byte[] bEnc = Convert.FromBase64String(data);
            byte[] bDec = decryptor.TransformFinalBlock(bEnc, 0, bEnc.Length);
            return utf.GetString(bDec);
        }
    }
}


4、總結

密碼學本身是一個非常深奧的數學分支,對於普通開發者,不需要了解過於深入的密碼學知識。本文僅僅講述哈希與加密的基礎內容,並對兩者做了比較,幫助讀者明晰概念,另外,對一些實際應用情況進行了簡單的討論。希望本文對大家有所幫助。看了下時間,零點剛過,祝大家十一快樂!玩得開心!

【轉】哈希(Hash)與加密(Encrypt)的基本原理、區別及工程應用