1. 程式人生 > >對“自然語言處理”的理解

對“自然語言處理”的理解

理解 我們 串串 小冰 因此 對話 代碼 一句話 網上

語言,人類獨有的交流方式。而語言的形式——文字,人類最偉大的發明,攜帶著人類表達事物和自身情緒的信息。一句話,一篇文章,一部巨著,都是由文字構成。互聯網上也是由大量的文字組成,每一個文字都包含著作者想傳達的信息。

那麽語言學和信息論是如何看待“語言”這一載體的呢?是不是文字越多,信息就越豐富呢?人類是如何習得語言這一技能呢?機器能不能掌握人類的語言技巧?如果機器會講話,會寫文章,寫小說,那會是怎樣的場景?於是,催生了計算機領域的自然語言處理這一門學科。微軟小冰就是自然語言處理的產物,可以跟人對話。

對計算機來說,每一個字或者詞語只是一串串不同的數字代碼,但是它們卻有著意義。人們講話其實是有規律可循的。它們不僅僅是冰冷的詞語,它們代指現實中的事物,或者人類虛構的事物。比如今天寫一篇文章,要組織哪些詞語,要寫一部小說,需要哪些劇情,其實都是有規律可循的。要教計算機生成我們想要的文字結果,就需要訓練計算機教給它怎麽組建我們想要的文字。當餵食的這方面的信息越多,它就越熟練,越能生成我們想要的文章。

人類現在的信息是爆炸式的,一天貼吧或微博生成的網帖就有幾億的文字,因此自然語言處理就十分有必要。這對於捕捉網絡信息的流向,網絡輿論分析都有作用。

對“自然語言處理”的理解