1. 程式人生 > >看筆跡識國籍?一起來看AI加持下的筆跡識別進化之路

看筆跡識國籍?一起來看AI加持下的筆跡識別進化之路

中國人 發出 也有 strong 特征提取 受限 的人 男女 發現

筆者高中時期,班裏有一條完整的“假條產業鏈”。有人負責在外面打印店打印假條,有人負責模仿政教處主任簽字,有人負責模仿班主任簽字,還有人負責畫政教處的印章。幾個人功夫了得,每張假條5毛錢,出門成功率幾乎高達百分之百。


技術分享圖片


當然,有人造假就有人打假。不知是誰走漏了風聲(很可能是班主任安排的內奸),在某一個時間節點門衛突然開始嚴查假請假條,重點識別我們班的“工業流水產品”,導致出門成功率直線下降。假條沒了市場,幾個人又怕被查到,於是金盆洗手,火熱的假條交易從此就落下了帷幕。此後沈渣雖又泛起了幾次,但再也成不了氣候了。

這充分說明,造假,尤其是筆跡造假這事兒其實挺簡單的,但要不認真看的話也很難辨別真偽。學生尚且能如此,遑論那些專業的筆跡造假人員,簽字、印章造假之事更是層出不窮。自然,在識別筆跡這件事兒上,人們也是下足了功夫。

分辨真假:傳統筆跡識別的力之所及

筆跡識別其實是一件難度很高的事情。當然,這裏討論的主要是涉及到重要利益問題時候的筆跡造假。這種情況下,肯定不會找一些畫虎類貓的人隨隨便便就把別人名字給寫上去了,要找也得是有過專門的模仿經驗的專業人員。

那麽,在這種情況下,想要用肉眼就辨別真偽,就真的有點兒勉為其難了。因此,除了神奇的古人,要想讓識別字跡這事兒變得靠譜,只能是借助計算機了。


技術分享圖片


筆跡識別的難點在於,其可供分析的樣本較少,因此難以建立有效的字跡對比模型。比如,對識別真假簽名,上哪兒去找那麽多名字呢?人家也不可能處處留名。

因此,對筆跡的識別流程往往比較復雜,目前來說主要包括分別檢驗兩種筆跡的運筆自然程度、大小、字形結構,確定兩種筆跡的特征,然後進行比較各種特征的異同,最終做出綜合判斷。在人力時代,進行比較的時候以目力觀察為主,常常需要借助攝影儀、顯微鏡、幻燈片等進行對比研究。

清華大學和公安部曾經推出一款能自動鑒別筆跡的“計算機筆跡識別系統”,其能將整個檢驗、對比和判斷的過程自動化,對筆跡識別精準度的提升有很大的作用。

另外一個涉及到辨別真偽的方式則是對筆跡的時間進行推斷。我們在電視上經常會看到有人拿著借條聲稱某人借錢不還,但實際上簽名卻是新的。這裏就用到了書寫時間鑒定的技術。

目前來說,可以做到通過對墨水成分的鑒定來看是否為同一支筆;通過墨跡的對墨水的溶解率的檢測判斷書寫時間;並且在有公章的情況下,可以檢測公章和簽字的覆蓋關系。


技術分享圖片


但是受限於文件的存放時間、存放條件、墨水的材料等諸多因素,鑒定的結果也會受到影響。以目前的技術而言,受這些因素的影響,其時間精確的誤差可從幾天大到幾個月之間。

可以看出的是,傳統的筆跡識別主要是停留在辨別真偽的層面。由於技術條件的限制,其精準度有待提高,作為證據采用的可信度自然尚需斟酌。但相比手工時代輕易的魚目混珠,利用計算機來進行筆跡識別和判斷墨跡時間已經是一個非常大大的進步了。

當然,永不滿足的人類還想要更大的進步。

從看人格到定國籍:AI時代的筆跡識別新大陸

對解決傳統的筆跡識別問題,AI或許可以幫上一點忙。雖然AI也需要充分的樣本學習才能建立較為準確對比模型,但在同樣的數據條件下,AI的深度學習能力能幫助其作出相對更精準的判斷。

而AI的重要意義不僅僅在於緩解傳統筆跡識別的問題,更在於其為筆跡識別開發出了新的可能。

1. 人格預測。Sinhgad Institute of Technology的研究人員們通過對單詞的頁邊距(在固定網格中的位置)、單詞間距、行距等幾個方面進行切割分析過筆壓、大小、邊距、字體區域、傾斜程度、基線等進行特征提取,然後將其分類,並分析其不同類別與人格、情感的關系。在經過學習之後,系統可以在最短的時間內進行情緒的識別和人格的預測,從而提高人格預測的準確性。


技術分享圖片


2. 國籍識別。一個由中國、馬來西亞和印度研究人員組成的研究小組則將字體作為與虹膜、面部等有相通作用的生物特征的一種,以此來判斷其國籍、性別等,從而來查明涉及不同國家國民的罪行。

在方法上,其通過對中國、印度、馬拉西亞、伊朗和孟加拉國等五個亞洲國家的100位作家的書寫英文的字跡進行分析,利用一種名為cold的線性分布識別工具,從線條、傾斜方向、整體形狀等方面來對AI系統進行訓練學習。比如中國人漢字橫平豎直,因此寫英文的時候呈現出線條偏硬的特征;而印度和孟加拉國寫字則偏圓潤。除此之外,100位作家中還有10位女性,因此其還順便測試了一把男女的差別。


技術分享圖片


如果說僅僅辨別真假還是初階的話,那用AI通過識別字體能夠判斷人的性格乃至國籍就有點一步躍升到高階的味道了。而從另一個角度來說,這也有一定的科學依據。畢竟,在之前曾有人研發出AI的步態識別技術,通過一個人的姿勢來判斷人,說明這種生物行為在每個人身上都是不一樣的。那麽,寫字作為動作的一種,人的性格、生理等諸多因素也很可能會對它產生影響。

而中國人也常說,“字如其人”,這句話在今天看來,算是找到了科學依據。

但無論是人格判斷還是國籍識別,其都尚且只是停留在論文或實驗室層面,要想走入現實,恐怕仍然有很長的一段路。

以筆為矛:小筆跡下的大用處

當想象的邊界被AI無限延展,筆跡識別也將突破原有的狹窄應用區域。僅僅做辨別真假這事兒就顯得有點太低端,至少下面的這些事情,未來將有可能搭上筆跡識別的快車。

1. 法務判斷的參考。通過對字跡的國籍、性別的判斷,對犯罪嫌疑人的鎖定和篩選範圍也將縮小,有利於節省大量的篩查排除時間。而據《民事訴訟法》規定,鑒定結論也屬於證據的一種。那麽在利益關系比較突出的經濟案件中,筆跡識別精準度的提高,也將提高法官對案情的判斷能力。

2. 心理疾病的診斷。在心理診斷中,目前多是采用對話的形式。如果可以大量搜集心理疾病患者的字體,然後用機器學習的方法對其進行分析和建模,則可以為心理疾病的診斷提供又一強大的判斷依據。再結合原有的對話、測試等手段,心理疾病的診斷正確率有可能會隨之大大提高。比如患有精神分裂癥的人,其常常會自造字詞,文字的布局混亂、留白和間距小、字跡潦草等特征明顯,總體呈現出混亂而不規範的特點。


技術分享圖片


3. 生理疾病的輔助。有研究表明,筆跡裏其實隱藏生理疾病的密碼。比如帕金森病人的字會越寫越小,並且字跡會很淺;阿爾茨海默癥則呈現書寫缺乏規律;高血壓病字跡會重……這對於提早發現病情,及時預防和治療將起到重要作用。

值得註意的是,一旦涉及到診斷疾病,那就要謹防有江湖騙子趁此機會發不義之財了……

4. 收藏品的鑒別。收藏有風險,入行須謹慎。收藏界最怕的事兒就是買到假貨。有的文盲喜歡買幾幅名家字畫往家裏客廳裏一掛,順便附庸個風雅。一旦買到贗品,被行家識破後丟人事小,白花花的銀子就這麽扔了就可惜了。那麽,在入手之前對字畫識別一番,既能對筆跡進行分辨,還能對墨跡進行檢測,媽媽再也不擔心自己被騙了。當然,賣假貨的可能會堅決抵制,理由是擾亂了假貨市場秩序……

可見,筆跡雖小,卻也有大用處。這也是AI的神奇之處。它令一些已知可能得到升級,又將未知的不可能的事情變成了現實。它時不時扔出來一件足以令我們咋舌的事情,卻也讓我們看到了AI之於這個偉大時代的意義。

當然,以後再想模仿班主任簽名,可能連門兒都沒有了。


看筆跡識國籍?一起來看AI加持下的筆跡識別進化之路