1. 程式人生 > >VIM顯示utf-8文件亂碼解決方法

VIM顯示utf-8文件亂碼解決方法

1.相關基礎知識介紹


        在Vim中,有四個與編碼有關的選項,它們是:fileencodings、fileencoding、encoding和termencoding。在實際使用中,任何一個選項出現錯誤,都會導致出現亂碼。因此,每一個Vim使用者都應該明確這四個選項的含義。下面,我們詳細介紹一下這四個選項的含義和作用。

        (1)encoding
        encoding是Vim內部使用的字元編碼方式。當我們設定了encoding之後,Vim內部所有的buffer、暫存器、指令碼中的字串等,全都使用這個編碼。Vim 在工作的時候,如果編碼方式與它的內部編碼不一致,它會先把編碼轉換成內部編碼。如果工作用的編碼中含有無法轉換為內部編碼的字元,在這些字元就會丟失。因此,在選擇 Vim 的內部編碼的時候,一定要使用一種表現能力足夠強的編碼,以免影響正常工作。
        由於encoding選項涉及到Vim中所有字元的內部表示,因此只能在Vim啟動的時候設定一次。在Vim工作過程中修改encoding會造成非常多的問題。使用者手冊上建議只在 .vimrc中改變它的值,事實上似乎也只有在 .vimrc中改變它的值才有意義。如果沒有特別的理由,請始終將encoding設定為utf-8。為了避免在非UTF-8的系統如Windows下,選單和系統提示出現亂碼,可同時做這幾項設定:
        set encoding=utf-8
        set langmenu=zh_CN.UTF-8
        language message zh_CN.UTF-8

        (2)termencoding
        termencoding是Vim用於螢幕顯示的編碼,在顯示的時候,Vim會把內部編碼轉換為螢幕編碼,再用於輸出。內部編碼中含有無法轉換為螢幕編碼的字元時,該字元會變成問號,但不會影響對它的編輯操作。如果termencoding沒有設定,則直接使用encoding不進行轉換。
        舉個例子,當你在Windows下通過telnet登入Linux工作站時,由於Windows的telnet是GBK編碼的,而Linux下使用UTF-8編碼,你在telnet下的Vim中就會亂碼。此時有兩種消除亂碼的方式:一是把Vim的encoding改為gbk,另一種方法是保持encoding為utf-8,把termencoding改為gbk,讓Vim在顯示的時候轉碼。顯然,使用前一種方法時,如果遇到編輯的檔案中含有GBK無法表示的字元時,這些字元就會丟失。但如果使用後一種方法,雖然由於終端所限,這些字元無法顯示,但在編輯過程中這些字元是不會丟失的。
        對於圖形介面下的GVim,它的顯示不依賴TERM,因此termencoding對於它沒有意義。在GTK2下的GVim 中,termencoding永遠是utf-8,並且不能修改。而Windows下的GVim則忽略termencoding的存在。

        (3)fileencoding
        當Vim從磁碟上讀取檔案的時候,會對檔案的編碼進行探測。如果檔案的編碼方式和Vim的內部編碼方式不同,Vim就會對編碼進行轉換。轉換完畢後,Vim會將fileencoding選項設定為檔案的編碼。當Vim存檔的時候,如果encoding和fileencoding不一樣,Vim就會進行編碼轉換。因此,通過開啟檔案後設置fileencoding,我們可以將檔案由一種編碼轉換為另一種編碼。但是,由前面的介紹可以看出,fileencoding是在開啟檔案的時候,由Vim進行探測後自動設定的。因此,如果出現亂碼,我們無法通過在開啟檔案後重新設定fileencoding來糾正亂碼。
        簡而言之,fileencoding是Vim中當前編輯的檔案的字元編碼方式,Vim儲存檔案時也會將檔案儲存為這種字元編碼方式 (不管是否新檔案都如此)。

        (4)fileencodings
        編碼的自動識別是通過設定fileencodings實現的,注意是複數形式。fileencodings是一個用逗號分隔的列表,列表中的每一項是一種編碼的名稱。當我們開啟檔案的時候,VIM按順序使用fileencodings中的編碼進行嘗試解碼,如果成功的話,就使用該編碼方式進行解碼,並將fileencoding設定為這個值,如果失敗的話,就繼續試驗下一個編碼。
        因此,我們在設定fileencodings的時候,一定要把要求嚴格的、當檔案不是這個編碼的時候更容易出現解碼失敗的編碼方式放在前面,把寬鬆的編碼方式放在後面。例如,latin1是一種非常寬鬆的編碼方式,任何一種編碼方式得到的文字,用latin1進行解碼,都不會發生解碼失敗——當然,解碼得到的結果自然也就是理所當然的“亂碼”。因此,如果你把latin1放到了fileencodings的第一位的話,開啟任何中文檔案都是亂碼也就是理所當然的了。

        以下是網上推薦的一個fileencodings設定:

        set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1
        其中,ucs-bom是一種非常嚴格的編碼,非該編碼的檔案幾乎沒有可能被誤判為ucs-bom,因此放在第一位。
        utf-8也相當嚴格,除了很短的檔案外(例如許多人津津樂道的GBK編碼的“聯通”被誤判為UTF-8編碼的經典錯誤),現實生活中一般檔案是幾乎不可能被誤判的,因此放在第二位。
        接下來是cp936和gb18030,這兩種編碼相對寬鬆,如果放前面的話,會出現大量誤判,所以就讓它們靠後一些。cp936的編碼空間比gb18030小,所以把cp936放在gb18030前面。
        至於big5、euc-jp和euc-kr,它們的嚴格程度和cp936差不多,把它們放在後面,在編輯這些編碼的檔案的時候必然出現大量誤判,但這是Vim內建編碼探測機制沒有辦法解決的事。由於中國使用者很少有機會編輯這些編碼的檔案,因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識別。
        最後就是latin1了。它是一種極其寬鬆的編碼,以至於我們不得不把它放在最後一位。不過可惜的是,當你碰到一個真的latin1編碼的檔案時,絕大部分情況下,它沒有機會fall-back到latin1,往往在前面的編碼中就被誤判了。不過,正如前面所說的,中國使用者沒有太多機會接觸這樣的檔案。
        如果編碼被誤判了,解碼後的結果就無法被人類識別,於是我們就說,這個檔案亂碼了。此時,如果你知道這個檔案的正確編碼的話,可以在開啟檔案的時候使用 ++enc=encoding 的方式來開啟檔案,如:
        :e ++enc=utf-8 myfile.txt

2.Vim的工作原理


        好了,解釋完了這一堆容易讓新手犯糊塗的引數,我們來看看Vim的多字元編碼方式支援是如何工作的。
        (1)Vim啟動,根據 .vimrc中設定的encoding的值來設定buffer、選單文字、訊息文的字元編碼方式。
        (2)讀取需要編輯的檔案,根據fileencodings中列出的字元編碼方式逐一探測該檔案編碼方式。並設定fileencoding為探測到的,看起來是正確的字元編碼方式。事實上,Vim 的探測準確度並不高,尤其是在encoding沒有設定為utf-8時。因此強烈建議將encoding設定為utf-8,雖然如果你想Vim顯示中文選單和提示訊息的話這樣會帶來另一個小問題。
        (3)對比fileencoding和encoding的值,若不同則呼叫iconv將檔案內容轉換為encoding所描述的字元編碼方式,並且把轉換後的內容放到為此檔案開闢的buffer裡,此時我們就可以開始編輯這個檔案了。注意,完成這一步動作需要呼叫外部的iconv.dll(注2),你需要保證這個檔案存在於$VIMRUNTIME或者其他列在PATH環境變數中的目錄裡。
        (4)編輯完成後儲存檔案時,再次對比fileencoding和encoding的值。若不同,再次呼叫iconv將即將儲存的buffer中的文字轉換為fileencoding所描述的字元編碼方式,並儲存到指定的檔案中。同樣,這需要呼叫iconv.dll

3.解決辦法示例


        (1)方法一:設定.vimrc檔案:
        在/home/username/.vimrc或者/root/.vimrc下增加兩句話:
        let &termencoding=&encoding
        set fileencodings=utf-8,gbk,ucs-bom,cp936
        這種辦法可以實現編輯UTF-8檔案

        (2)方法而二:開啟檔案後,在vi編輯器中設定:
        :set encoding=utf-8 termencoding=gbk fileencoding=utf-8

        (3)方法三:新建UTF-8檔案,在vi編輯器設定:
        :set fenc=utf-8
        :set enc=GB2312
        這樣在編輯器裡輸入中文,儲存的檔案是UTF-8。

        (4)方法四:一個推薦的~/.vimrc檔案配置:
        set encoding=utf-8
        set fileencodings=ucs-bom,utf-8,cp936,gb18030,latin1
        set termencoding=gb18030
        set expandtab
        set ts=4
        set shiftwidth=4
        set nu
        syntax on

        if has('mouse')
        set mouse-=a
        endif


        後記:本文根據網路上相關資料整理,由於來源較多,未能一一標明出處,敬請各位原創作者見諒。


相關推薦

VIM顯示utf-8亂碼解決方法

1.相關基礎知識介紹         在Vim中,有四個與編碼有關的選項,它們是:fileencodings、fileencoding、encoding和termencoding。在實際使用中,任何一個選項出現錯誤,都會導致出現亂碼。因此,每一個Vim使用者都應該明確這

linux用 gedit和Vim開啟txt亂碼解決方法

vim 開啟vim的配置檔案,位置在/home/username/.vimrc或者/etc/vim/vimrc,我修改的是前者, 在其中加入 set fileencodings=utf-8,gb2312,gbk,gb18030 set termencoding=utf-8 s

_技巧_SublimeText_打開亂碼解決

技術 sin lin ges 自動 安裝 pla 下載安裝 unix     macOS屬於Unix分支,默認使用UTF-8編碼,當從Window 或者其他Linux 或 Unix系統 拷貝文件過來,由於Window系統使用GBK或者GB2312中文編碼,所以會

eclipse 中properties亂碼解決方式

per alt 1-1 .com 技術分享 cnblogs nbsp ima -1 eclipse 中properties文件亂碼解決方式

自動數據庫抽取想要的查詢結果,自動生成txt(utf-8),然後自動ftp上傳到外網服務器

txt(utf-8)需求:無人值守的把數據庫中的數據,生成txt文本,自動上傳到ftp服務器,與外部客戶進行數據對接;===============================================步驟:1 寫存儲過程 2 數據庫中建立計劃任務 3 寫轉換txt編碼格式的插件

html中 Charset=UTF-8還是中文亂碼 解決辦法

utf-8是國際編碼,包括漢字,建議都設定成utf-8,省心; 步主如下: 第一:定義網頁顯示編碼。如果不定義網頁編碼,那麼我們瀏覽網頁的時候,IE會自動識別網頁編碼,這就有可能會導致中文顯示亂碼了。 所以我們做網頁的時候,都會用“<meta http-equiv=”

Mysql5.7 基目錄沒有data解決方法

mysql5.7MySQL數據庫在升級到5.7版本後,和之前的版本有些不一樣,沒有data文件夾,我們都知道MySQL數據庫文件是保存在data文件夾中的,網上有人說把5.6版本的data文件夾拷貝一個,這種說法聽聽都不靠譜,我也試了,確實能夠登錄,但是無法修改管理員密碼,下面還是給個標準的解決方法。安裝好M

VM安裝Centos7下安裝vmware-tools /mnt/hgfs沒有解決方法

vm 文件共享 1.正常安裝vmware-tools2.在安裝過程中,我遇到了一個提示為:Enter the path to the kernel header files for the 3.18.0-kali1-686-pae kerne?解決方法:yum -y install kernel-de

win7點擊右鍵不能新建夾怎麽辦?win7右鍵不能新建解決方法

shel mil reg href shell 修復 右鍵菜單 roo 破壞 一般情況下,大家習慣在win7系統中新建文件夾,歸類管理文件,但是一位用戶發現win7點擊右鍵不能新建文件夾,怎麽回事?因為右鍵沒有新建選項,整理後終於找到原因,發現是註冊表有問題被破壞了。針對w

win 10 無法刪除系統解決方法(提示:無法枚舉容器中的對象 訪問被拒絕)

gin 技術 分享 解決 sys 被拒絕 權限 結束 除了 一、右擊文件 選擇“屬性”-“安全”-“高級”,如下圖    二、查看哪個用戶的權限是:“完全控制”,我這裏是“SYSTEM”用戶。 三、選擇頂部的 “更改-“高級”-“立即查找”,然後選擇管理員賬戶“SYSTE

win10無法寫入刪改c盤解決方法

文件類型 另存為 針對 text 行為 win10 rest http edit 前言 最近使用了win10系統,結果發現對c盤的文件進行寫入刪改,在網上到處搜集資料,終於找到了解決方法,這裏總結一下。 首先,本文針對的是win10家庭版,家庭版默認是不提供組策略功能,而我

Python中出現SyntaxError:Non-UTF-8 code錯誤的解決方法

在七節數碼管繪製的程式中,遇到了如下報錯: Non-UTF-8 code starting with ‘\xc4’ in file main.py on line 47, but no encoding

SyntaxError: (unicode error) 'utf-8' python中文錯誤解決方法

主要是原始檔定義的編碼方式與IDE的中文編碼方式不同。解決方法就是檢查編輯工具的檔案編碼與原始碼定義的編碼方式是否相同,並進行修改。例如Notepad++在工具欄的“編碼”中選擇,geany是在文件——設定檔案編碼中選擇。 # -*- coding:UTF-8 -*-   

解決excel打開utf-8編碼csv亂碼的bug

導入 對話框 原因 識別 直接 格式 excel exce 編碼 直接用 excel 打開 utf-8 編碼的 csv 文件會導致漢字部分出現亂碼。原因是 excel 以 ansi 格式打開,不會做編碼識別。 打開 utf-8 編碼的 csv 文件的方法: 1) 打開

解決ZendStudio打開utf-8格式的php亂碼

英文版 菜單 -s order 產生 pan 要點 php文件 zend 一般php文件都為utf-8無BOM格式的,用zendstudio默認設置打開時中文會產生亂碼,這是因為zendstudio默認設置編碼格式為GBK格式,所以我們這裏需要重新設置其編碼格式,這

解決 Excel 打開 UTF-8 編碼 CSV 亂碼的 BUG

href 編碼 亂碼 coder 原因 ESS targe bug 方法 亂碼恢復 http://www.mytju.com/classcode/tools/messycoderecover.asp 直接用 Excel 打開 UTF-8 編碼的 CSV 文件會導致

fstream類讀取UTF-8、Unicode和ANSI文字亂碼問題的解決方案

1、解決UTF-8型別的文字文件中文亂碼讀取(思路:將UTF-8轉成Unicode然後再轉ANSI) #include <fstream> #include <iostream> #include <string> // #incl

QT5常見問題二:程序顯示中文亂碼以及Linguist打開翻譯亂碼,該如何解決

解決中文亂碼 proc water 存在 -o 開發 shadow 程序 6.2 在使用Qt庫進行程序開發的過程中,中文亂碼問題是許多程序員都會遇到的問題,解決方法也有很多種。在Qt4的各個版本中,大家解決中文亂碼的方法比較一致,也很有效!一:在Qt4中通常使用如下代碼,便

java(IO)讀寫亂碼轉換UTF-8問題

buffered 寫入文件 寫入 trace trac catch 錄取 ktr pri java(IO)讀寫文件亂碼轉換UTF-8問題 讀取文件 String?Content?=?"";?//?文件很長的話建議使用StringBuffer

Eclipse的properties中文亂碼解決方法

text content elf abd 問題 clas nbsp ips -o 轉自:http://jingyan.baidu.com/article/ed2a5d1f3381d709f6be17f8.html 打開Myeclipse,找到window這一欄,點