1. 程式人生 > >【自然語言處理】2.漢語語言學研究

【自然語言處理】2.漢語語言學研究

開發十年,就只剩下這套架構體系了! >>>   

簡介

漢語屬於漢藏語系,與世界各國廣泛使用的拼音文字相比,他更像一種古老的孤立語。

這是中華民族獨特的地理位置和長期統一的發展歷程所決定的。

雖然,漢語在歷史上先後吸收和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言中的許多成分,但是兩千多年來,漢語特有的符號化表現形式卻一直沒有改變過。

1、文字元號的起源

只有瞭解歷史,才能正確地理解現在,準確的預見未來。

因為文字土坯了語言的時空範圍,是凝固的語言,所以文字並非從一開始就記錄人們語言中的所有內容,而是由選擇第記錄一些對人們生產、生活比較重要的部分。千百年來,隨著人們生產、生活不斷髮展,文字也在不斷髮展,並且促進了語言進一步的統一和規範。

這是人類語言發展的共同規律。

1.1、從記事談起

結繩記事、巖畫記事和刻契記事。這三類記事方式形成了後來文字元號的主要來源。

  • 象形詞典:http://www.vividict.com/default.aspx

  • 《中國古文字的起源》 結繩計數,數字

  • 考古發現雖然某些漢字的形體與結繩有零星的關係,但結繩記事不是漢字的主要來源;

  • 繪畫;東巴文;

  • 刻契記事替代結繩記事是一種書寫載體的革新,它使記事載體從一維發展到了二維;

  • 有證據表明,刻契記事後來直接發展出了兩河流域(底格里斯河和幼發拉底河流域)蘇美爾人使用的楔形文字。

1.2、古文字的形成

夏王朝。

文字是一種記錄語言的符號,原始的記錄必須脫離了任意繪形、任意理解的階段,產生一批具有約定的意義,具有固定讀音的單字,並且可以開始進行語料積累的時候,才能算真的產生。

即文字的產生必須具備如下的三個特點:

  • 約定的意義
  • 基本固定的讀音
  • 基本一致的形式

形、音、義的三者一致性。

這就必須具備形、音、義三者一致性。必須對當時的季師傅好有一個再創造的過程,這個過程就是造字。

長時間集體累積和創作的產物,並在長時間的氏族擴張和衰亡的征戰中不斷傳承與毀滅。

兩種矛盾:

  • 文字與語言;
  • 文字與書寫者;

2、六書及其他

後人在總結前人的造字方法時,最重要的成果就是六書。

象形、指事、會意、轉註、假借、形聲。

2.1、象形

“象形者,畫成其物,隨體詰詘(jie qu),日月是也。”

模仿和抽象。

其他的造字都是以象形文字為根,在此結構上做出某種變形。

2.2、指事

“指事者,視而可識,查而見意,上下是也。”

區域性、整體。

2.3、會意

“會意者,比類合誼,以見指撝(hui,wei),武、信是也。”

兩個或兩個以上的度漢字,拼接。

2.4、形聲

“形聲者,以事為名,取譬相成,江河是也。”

90%;

在形聲字之前,字形和字義是統一的,字形能夠完整的表達語義,但從形聲字開始,這種情況發生了變化。一部分表義的功能讓位於表音的偏聲旁,更便於將語言中表意的音節迅速構成文字。這使得文字在數量上發生了質的飛躍。同時,形聲造字法使字形與字義逐漸分離開來。這是漢字走向符號化的第一步。

2.5、轉註

轉註是原始文字規範化的開始,轉註暗示了這樣一個規則——語義上近似的兩個字,其字形也應該儘量相似,其不同之處可以通過其他造字模式來彌補。

例如:“女”通過加入表示“因生育而發達的兩乳”的兩點,即指事造字法,構造出了新字“母”。

轉註法提出說明上文所述的4種造字法並不完整,表示同一語義的字可能有很多種。

殷商甲骨文:4500詞就支援了豐富的社會生活,這就是轉註造字法的作用。

2.6、假借

“假借者,本無其字,依聲託事,令長是也。”

假借法使用已有的漢字去記錄新詞,其進步的意義在於,減少了需要記憶的字元數量。這是假借的積極作用。

但也因為這樣導致了一字多意,客觀上造成了一些同音同形而異義的詞,使人不易掌握。

3、字形的流變

文字變革:隸變。

3.1、筆與墨的形成與變革

形成於商周,發展與秦漢。

3.2、隸變的方式

《試論漢字的隸變》

漢字的總體趨勢是一個由繁到簡的過程,這個趨勢在中國上下五千年的歷史彙總,從未改過。

3.3、漢字的符號化與結構

漢字新生了一種統一的子結構,就是我們常說的部首。

漢字最早部件化的開始。

楷書的通行加速了漢字元號化的程序,而文字研究在隸變之後又一次達到了新的高潮。

偏旁部首才是漢字構成的最小部分。

漢字結構

  • 簡介而不可分割
  • 上下結構
  • 左右結構
  • 半包圍結構
  • 全包圍結構
  • 堆成結構
  • 品字結構

我們在記憶漢字時,首先大度記憶數量小得多的偏旁部首,再根據各個偏旁部首的位置和結構來記憶各種生僻的漢字,就會使漢字的學習變得容易多了,從而及大地降低了漢字的學習難度,即便現在看來也是一種極為精妙的思維。

在隋唐之後,漢語書面語逐漸向口語化的趨勢發展,後世稱為近代百花。他的一個鮮明的特徵就是與口語相結合,出現了大量的複音詞和通俗的表達形式。此時,以獨字為核心的古漢語又出