1. 程式人生 > >說“快樂”還是“安康”?如何在不擡杠的情況下用AI搞定這問題

說“快樂”還是“安康”?如何在不擡杠的情況下用AI搞定這問題

adding 抽取 中國 等等 news orm 工業 數字化 紅樓

祝大家端午節快樂,我們今天要聊的…..什麽?不能說快樂了?顯得沒文化?

哦,那祝大家端午節安康,咱們今天……什麽?端午節安康都是一群營銷號瞎忽悠的,相信他們還是沒文化?

到底還能不能好好說話了?要不我幹脆祝大家端午節多吃月餅得了?

放眼望去,這個折騰了幾年,某種程度上近乎於鬧劇的“端午節安康”問題,在今年非但沒有停下來的意思,反而矛盾愈演愈烈,一時間好不熱鬧。也不知道是不是已經有了“安康快樂對罵群”,反正整體上是感覺這事挺耽誤大家吃粽子的時間的。


技術分享圖片


在我們這行業看來,當然是一切能動科技的都別瞎吵吵。既然到了相持不下的境地,是不是可以考慮用相對公允的方式來解決無止境的爭論呢?畢竟安康派和保快樂黨都說自己是傳統文化,既然是傳統總歸是有據可循的。

今天是個思古的日子,不妨讓我們從安康和快樂的問題開始,來聊聊AI+考據的“懷古之思”。

到底爭的是什麽?

安康派之所以誕生,是因為前兩年突然朋友圈裏有這麽個說法火了:端午節是紀念屈原,或者紀念伍子胥、紀念曹娥的。總之這是個祭祀和哀傷的日子,不能說快樂。這個說法很快流行起來,比如今天大部分明星發的端午節微博,似乎“安康”已經成了標準說法。

根據凡事必有反轉的互聯網定律,隨後也有人認為這種說法純屬無稽之談。端午節快樂說了那麽多年,我想快樂就快樂還用你批準?於是,爭論最終很自然地變成了爭吵,兩邊都覺得自己是更符合傳統文化的一方。

首先筆者非常想要感慨的是,整個話題中最大成分只是營銷號惡意蹭流量,以及廣大網友們進行喜聞樂見的“擡杠運動”,真沒什麽意思。

而實事求是地說,現在能找到最早過端午節傳統的記載,是唐代《藝文類聚》保留《續齊諧誌》中南朝時期的民間節日風俗,在端午這天為紀念屈原而系五彩繩、包粽子。換言之端午節最早出現在可追溯的歷史文本中,它就是以一個有吃有玩的節日出現的。而早期文本,比如出現屈原其人其事的《史記》,據說為屈原創作的《楚辭》,都沒有過任何五月初五相關的記載。

作為一個節日的端午,自然也承擔著一個節日的氣氛和話語定位。唐宋時對端午節、端陽節的記載,也基本是把酒言歡為主。當然這是個追懷的日子,但也沒見過一定要在這個日子肅穆莊嚴的記載。很多歷史學教授專家,也對安康說不屑一顧。


技術分享圖片


話說回來,重陽是避災躲難的,那也有“佳節又重陽”。而今天肯定沒有人祝鄰居“清明節快樂”,但在古人來看清明本就是郊遊玩賞值得開心的日子。程顥《郊行即事》是這麽說的,“莫辭盞酒十分勸,只恐風花一片飛。況是清明好天氣,不妨遊衍莫忘歸”。

或許可以這麽說,所謂的中華傳統,遠比我們今天的互聯網氛圍寬懷大度的多。

好吧,一不小心暴露了立場。但是我們還是要強行回歸中立客觀:既然你有你的道理,我有我的道理,那到底怎麽能彼此不擡杠呢?

或許AI可以在這裏刷一個助攻。既然整個安康和快樂之爭,爭論的核心是:固定文本環境中(代表中國歷史傳統的文本數據,包括但不限於經史古籍),某種涵指解讀(端午節到底是不是值得慶祝的)的正確性。

那麽用把所有相關數據都找出來,判斷一下古人到底能不能在這天快樂,似乎就是解決方案了。

AI搞清“端午到底快不快樂”實現方法

或許有人會說,這事好像用不著AI,把古籍數據裏的端午節記載都搜出來。一看不就知道了嗎?

想法固然是好的,但現實從來都很骨感。首先中國古籍系統當中,《四庫全書》所代表的經史系統其實只是很小一部分。各種文書、檔案、民間文本、吉金、出土資料,加在一起汗牛充棟都不止。假如只是用關鍵詞搜索,或者只是用部分古籍庫來完成文本方式,那麽肯定無法完成完全的數據統計,從而得到的結果當然也就片面。

假如我們搜找了100個“端午快樂”的數據源,但是安康派認為還有200個反例沒找到,那豈不是白忙?

而假如面對全部古籍數據(包括未電子化數據),來進行一個問題的全面求證。那麽人力是完全無法負擔的,而且也一定會有大量紕漏。比如說有些小眾的端午節說法、隱晦的端午節記載描述難以被人發現。而且群體工作也很難形成對端午節到底是不是端康的準確標準。

假如讓AI進場,至少可以解決這樣幾個問題:


技術分享圖片


1、確定我們要分辨的問題“端午節到底是值得慶祝的,還是反之”以後,我們可以用機器學習的方式輸入大量雙方觀點,來形成對端午節到底應該怎麽過的標準化描述。基於文本來抽取關鍵節點,從而準確判斷一條古人過端午的記載到底是快樂的還是不能快樂。

2、非標準文本的識別。如今OCR等識別技術,已經廣泛被應用到金石資料、敦煌文獻、手寫文檔的識別中。如果我們想最大程度搞定到底端午是否快樂,就無法離開對非標準文本的識別工作,傳統的文本錄入方式完全是基於手工大字。早期很多中文古籍庫還是以眾包的方式交給本科生來錄入,造成訛誤百出。AI來做這些,顯然在效率和準確度上都已經有了技術保障。

3、彈性判斷相關數據。人工判斷端文本特征的時候,很可能會漏掉一些不常見描述,很多時候這不是因為研究人員不知道這件事,而是由於大腦的選擇性記憶誤差,天然會漏掉不那麽敏感的說法。而AI的優點是可以彈性判斷相關數據,比如不說端午節,而是端陽,午日,重五,女兒節,浴蘭,地臘等字眼,或者非關鍵詞的描述形式,都可以有效處理。

4、綜合感知,判斷“良品率”。工業互聯網技術中,一個很常見的方式是機器視覺加傳感器,來綜合判斷出產品的質量。通過復雜的算法模型,最終得出是否良品的確定性標準。在文本溫習中,類似使用GAN等算法來進行語義分析,判斷一個語句含義歸屬的方式,顯然也是可行的。比如上文中“喜逢佳節,端午良辰”,這個說法顯然就是“端午快樂”。

其實吧,以上只是個例子,也沒有誰會較真到去大張旗鼓統計端午到底快不快樂。這些技術的真正內涵,是一個人文學術與AI的交叉點:AI考據。

比擡杠重要:AI帶給文本考據的機會與挑戰

AI與考據的結合,顯然比端午節問候的擡杠重要很多。這項技術在今天世界範圍內還屬於剛剛起步的階段,但絕對不是無中生有。

在AI考據之前,是很多人熟悉的“E考據”概念。這個解決方案是以互聯網和大數據為基礎,從古籍電子化開始,用相對人力更有效率的方式來透視人文文本,甚至得出不一樣的結論與分析邏輯。這個領域的代表人物,可以說是臺灣的黃一農院士,其用《紅樓夢》相關文獻與清史文本結合,得到的成果令人耳目一新。


技術分享圖片


但E考據的局限性,在於它僅僅解決了考據第一步的問題:數據龐大。而面對龐大的數據和不同層次的文本,能否用技術取代進一步的人工,則成了考據學發展中的下一個話題。

考據的本質是什麽?乾嘉學派代表人物王引之,在評價其父王念孫的治經之道時,總結為“諸說並列,則求其是,字有假借,則改其讀”,充分體現了考居家的工作依據:音、形、義之間的轉換與互通。


技術分享圖片


讓智能體實現對語境的理解和跳出跳入,顯然是僅僅依靠數據技術所無法達到的。那麽AI技術也就成為了接下來文獻學與歷史學發展中,可以相互融合的技術手段。

馬創新等所著的《中文古籍數字化的開發層次和發展趨勢》中,談到下一步電子考據與古籍開發的任務,是解決古籍內容的深層語義標註和知識檢索方法。那麽其能憑借的核心,似乎也僅僅是AI而已。

在電子文本分析中,AI可以讓嘗試,至少是幫助研究者擺脫對關鍵詞考據的依賴,實現主動對文本含義的辨別、搜求,與多重內涵確認。這是其他技術所無法復制的。

當然即使這項技術很有用。擺在今天人文科學,尤其是文獻學研究面前的挑戰也非常艱巨:想要讓AI技術、硬件環境與人文素養與研究能力結合,今天似乎很難有這樣的跨學科人才與研究環境。而且即使是技術相對簡單,效果很清晰的E考據,在傳統人文研究領域面前,走的也是舉步維艱。

更多現實應用場景

上面這些考據學的相關內容,可能相對有點生澀。那麽最後我們不妨看看幾個AI+文本考據可能帶給大眾的能力釋放:

1、文本溯源。其實相比於端午安康的合理性,我更好奇的是這個說法是誰編出來的。而今天顯然經常有這樣的問題,謠言、不實信息這類的有害信息。或者一個精彩段子,一個奇思妙想的真正作者;一個文本如何被改的面目全非;一篇報道有沒有斷章取義,這些場景都會讓我們想要溯源文本,看看最初的文本模樣。這就需要成熟的AI文本考據來實現,至少是作為輔助文本溯源的方案之一。

2、問答式搜索。今天搜索引擎已經有了問答式搜索的功能,但很顯然,這還僅僅是個雛形。因為大量垂直問題和具體問題,是搜索引擎的知識圖譜技術無法偵測到的。而發展AI文本考據技術,可以讓算法主動連接海量文本,去識別深處歸納出答案,這對於知識的傳播價值巨大。

3、過往文本加鏈。區塊鏈很火爆的時候,一個被提及的重要場景是電子合約與文本著作權保護。但加鏈技術僅僅能保存新文本。如果我們想對過往文本,比如說以某人的聊天信息、某個網站發布的謠言等等進行加鏈,保留不可更改的證據邏輯時,就需要涉及到對過往文本的識別與分析處理。這也是AI與區塊鏈相結合的一個可能性。

說了不少,其實我們是想借端午安康這個梗,來談一個平時談比較晦澀,但其實十分重要的AI技術類別。說到底,安康還是快樂,又有什麽關系呢?最好的端午節解釋,當然是聞一多先生說的那樣:只要屈原的精神在就行了。


技術分享圖片


而在筆者這樣的吃貨看來,只要粽子是甜的就行了……


說“快樂”還是“安康”?如何在不擡杠的情況下用AI搞定這問題