科普一分鐘 | 人工智慧當中究竟什麼是最重要的
【PConline 技術】毋庸置疑,當前我們正身處在人工智慧的時代當中,在我看來,對於人工智慧來說其背後最重要的無疑就是資料所產生的價值,對於人工智慧當中的資料來說一直有一個被稱之為“資料集”的概念,它是根據資料的性質、型別和領域等對資料進行劃分的一種規則,我們日常所感受到的“智慧化”的改變很多也是來自於資料集當中的技術體現。
對於人工智慧的背後資料來說可以說是至關重要的一個環節,如果少了這些資料,可以說機器學習和深度學習模型幾乎什麼都幹不了了,通過建立資料集能夠讓人工智慧模型在進行平時訓練的過程當中變得更加容易。
讓人興奮的是,在海量的實驗資料集當中有很多非常有價值的資料集組成了後來人工智慧的“學術基準線”,從而被很多的研究人員開始引用,尤其是在很多演算法的比對方面,像MNIST、CIFAR 10以及Imagenet等應用都是遵循了這一基準線。
那麼對於人工智慧領域當中,究竟有哪些時延資料集是非常有用的呢?接下來我們就一起來看看。
MNIST
這是一個針對小型灰度手寫數字的資料集,其開發時間再20世紀90年代,最初其主要用於測試當時最為複雜的一些模型,如今MNIST資料集可以幫助更多的視覺深度學習去進行教學應用,很多版本的資料集已經捨棄了原始的特殊二進位制的格式,轉而採用標準的PNG格式,這樣做的好處就是可以方便在現在很多大型程式碼庫當中使用者可以進行正常的工作流操作。
值得一提的是,如果使用者只是單純想使用與原始同樣的單輸入通道的話,只需要在通道軸當中選取單個應用就可以了。
CIFAR10
CIFAR10資料集擁有十多個類別,其中多達60000張32*32畫素的彩色影象,這當中包含了50000張訓練影象和10000張測試影象,裡面平均每種影象的數量超過6000張之所,它們被廣泛應用於測試新演算法的效能。
CIFAR10版本的資料集捨棄了原有的特殊二進位制格式,也是採用了標準的PNG格式,從而方便了目前大多數程式碼庫中作為正常的工作流進行使用。
CIFAR100
和前文所提到的CIFAR10類似,CIFAR100只是擁有了超過100種類別,其中每一個類別當中包含了600張影象,在這600張影象當中不僅包含了500張訓練影象,還包含了100張測試影象。
通過對100個類別進行20多個細節類別的劃分,使得其中每一個數據集當中的每一張影象都自帶一個精細化的標籤和一個粗略的標籤,而這些表現則分別隸屬於所屬的超類當中。
Caltech 101
這個資料集當中包含了101種物品的影象,其中平均每個類別擁有超過800張影象,其中很大一部分類別的影象數量固為50張左右。每張影象的大小約為300*200畫素。本資料集也可以用於目標檢測定位。
Oxford-IIIT Pet
Oxford-IIIT Pet資料集當中包括了37種寵物類別的影象資料集,其中每個類別大概擁有超過200張影象,這些影象在動物的比例、姿勢和光照等諸多方面均有著豐富的變化,這個資料集也可以用於目標檢測的定位應用。
自然語言的處理
IMDb Large Movie Review Dataset
用於情感二元分類的資料集,其中包含25000條用於訓練的電影評論和25000條用於測試的電影評論,這些電影評論的特點是兩極分化特別明顯。另外資料集裡也包含未標記的資料可供使用。
人工智慧與數字化之間的聯絡
在很多行業當中,人工智慧領域會遵循數字化的發展規律和浪潮,也就是說把本是模擬的東西或者是抽象的東西全部用數字化的形式表現出來,許多行業的數字化革命首先創造出了數字資料。
這樣一來就可以發現一些資料科學,使用者可以從當中獲得更多的見解,人工智慧的背後只有在真正獲取了數字資料之後,人工智慧才可以非常高效地利用這些資料創造出更大的價值來。
在我看來,真正的人工智慧組織在資料採集方面是非常複雜的,並且具有的戰略性要求也非常之高。例如,你在一個區域釋出了一個產品,如果你可以擁有足夠的資料來推出足夠好的產品,那麼你可以納入正反饋迴圈,讓使用者幫助你生成更多的資料。更多的資料會使產品更好,然後你就會有更多的使用者。而且這個積極的反饋迴圈可以讓你不斷地積累資料,所以也許在幾年後你就可以擁有一個相當可靠的生意。
這就好像當今很多大型網路搜尋引擎那樣具有令人難以置信的寶貴資料資產和資料價值一樣,在海量使用者通過搜尋引擎進行很多特定事物和網頁進行搜尋的過程當中,該資料資產對於構建一個好的網路搜尋引擎就是非常有價值的。
AI做支撐,究竟是什麼體驗
對於人工智慧來說,當前有很多企業和公司通過運用人工智慧技術和應用來推動公司進行轉型,甚至去引發一些新型公司的興起,對於當今很多網際網路公司來說其根本其實並不是在運營一個網站,而是管理者是否能夠設計出一個公司,從而能夠充分利用網際網路去提供很多新功能,這點對於人工智慧時代來說或許是最大的改變。
近些年伴隨著人工智慧技術的興起和應用,已經有很多公司正在不斷研究如何構建一家公司去使用人工智慧的諸多功能,就像建立一個網站不會讓你成為一個網際網路公司一樣,在機器學習問題上做一點東西也不會讓你成為一個AI公司。
編輯的話
對於人工智慧應用來說,從技術的創新到應用的落地,是推動整個產業和社會走向智慧化的重要推動力,本期我們通過對實驗資料集在整個人工智慧應用和企業應用進行分析讓我們感受到了人工智慧時代的到來對於改善未來工作與生活方式起到了至關重要的推動作用,同時面對激烈的市場競爭的挑戰,人工智慧技術的應用也將會幫助更多的企業使用者獵取更大的市場空間和機遇。[返回頻道首頁]