美國三院院士、機器學習泰斗 Michael Jordan:以人類為中心的人工智慧原理:計算、統計學和經濟學
我認為我們在AI方面並不是要複製人的智慧或智慧,而是要建立一個新的智慧系統,不一定非得是人工智慧或者人類智慧。
i黑馬&火柴盒訊 11 月 15 日,在 雷鋒網聯合乂學教育松鼠 AI舉辦的 “全球 AI+智適應教育峰會”上 美國三院院士、機器學習泰斗 Michael Jordan 帶來了一場主題為《以人類為中心的人工智慧原理:計算、統計學和經濟學》的演講。
以下為他的演講內容,經i黑馬&火柴盒整理編輯:
Michael Jordan:大家好,我非常高興可以來到這裡,這樣一個話題我是非常感興趣的,我是一個研究人員,同時也是一個教育者,我整個職業生涯都是作為教授來工作,同時我也是一名學習者,我也非常高興有這樣的機會,也非常喜歡學習,也很希望有機會跟大家一塊學習。
我們現在會使用很多資料,以及學習的方法,讓我們的學習更加的簡單,是一個非常好的時代。今天我會談的是互相補充的和大家來講,比如說我們談AI促進學習,那什麼是AI?什麼是人工智慧?我們可以教育人工智慧嗎?人工智慧現在可能還不是很有清楚的概念,它已經有很多年的經驗,但是現在仍然在不斷的變化,在接下來的幾十年也會有很多變化,我們是怎麼樣來教育,怎麼樣在人工智慧快速發展的時代進行更好的教育。
我認為我們在AI方面並不是要複製人的智慧或智慧,而是要建立一個新的智慧系統,不一定非得是人工智慧或者人類智慧。可以給大家舉一個經濟學的概念,我們會把所有的東西聯絡在一起,談一下新興的技術以及其他學科,其中包括決策、資料、人類的推理,它是一個工程的學科。資料會處於中心,其中會包括各種不同的,比如說土木工程、化學工程會有一些區別。
首先這樣的一些屬於“機器學習”“資料科學”“人工智慧”都是一些概念,其中將計算機系統結合起來,以資料為基礎。有的時候會有不同的人,會有不同的使用,但是關鍵就是要有資料的分析。
電腦科學怎麼樣進行演化呢?首先我們需要有資料,怎麼樣能把這樣的資料進行擴充套件和分析,我們現在在討論AI的時候,還有一方面經常忽略的是經濟方面,把不同的元素、機構聯絡起來,這樣才能夠通過互動讓我們有更好的結果。
現在在AI的世界裡還沒有討論到很多這方面的內容,可能更多的是要模仿人類,經濟方面會有所忽略。現在人工智慧有這樣一個部落格是說還沒有發生,我現在做的很多工作只有四五個人讀了我這樣的研究結果,這個論文是在一個網站上釋出的,大家如果要看的話可能需要VPN。現在已經有了幾十萬的瀏覽量,討論的AI到底是什麼。
AI已經被是用在很多方面了,所以現在比較傳統AI的概念就是人類模仿,怎麼樣來使用?我們現在還沒有真正的很好的使用。如果大家認為現在已經有了這種超人式的AI的話,事實上現在並沒有發生,我們還有很長的一段路要走。
過去的40年間真正發生的是智慧增強,包括資料處理、資料分析,你的搜尋引擎、自然語言的翻譯都可以做到這些,還有推薦系統。這些都變得越來越智慧,就是由於我們這些增強的技術。
我認為我們是想要建設人工智慧的,而且這樣的人工智慧並不是要取代人類,而是讓我們有一種新的方式變得更加智慧。過去的幾十年間,也包括現在,我們還有智慧基礎設施的發展,包括很多資料、裝置,資料的流動,我們會和它們進行互動。通過這些裝置,在經濟學的概念中我們都有自己的一個希望,想要被裝置所理解,同時也想要理解他人。現在我們需要有這樣的理解,同時也會做出一些妥協。
我想說一下我們現在面臨的挑戰,包括以下的這些挑戰。事實上更多的是關於決策方面的內容,決策的不確定性。我們看到了神經科學、神經系統,我們會使用AI這樣一個標籤,但事實上還不夠,所以需要基於這樣的模式做出好的決策。怎麼樣來做出決策?這方面會有很多的不確定性,很多資料方面的系統,我們還會考慮多重的決策。人們可以做出不同的抉擇,一個接著一個,機器可以在同時的情況下做出很多決策。比如說滴滴、Uber,每小時隨時隨地都可以做出很多決策,讓不同的司機去接不同的乘客,這樣的一些決策都是相互連線的,人類並不是非常善於做出這樣同時的決策。
有兩個非常重要並且相關的問題,我們怎麼樣教育人工智慧,傳統的人工智慧或者新的智慧增強、智慧基礎設施的概念。同時我們如何使用這樣一些概念來教學?這兩個問題是相關的,我主要介紹第一個,因為我知道很多其他大會都會關注第二個,這樣就能讓兩個問題都迎刃而解了。
首先我想跟大家說一下我在伯克利教學的工作,我們有一個“資料8”的課,將計算思維和推理思維連線起來。我的同事教這個課的第一版,在三年前,現在我也來教授這樣一門課程。這個課程是關於資料科學的基礎,將電腦科學和統計學聯絡起來,就像機器學習一樣,但是比機器學習要更廣泛。
我們是教大一新生,他們剛入學的時候就會上這樣的課程,當時不會有數學的教學,但是會基於計算機來進行演算法和程式設計方面的教學。他們不需要做很多數學方面的學習,我們在加州伯克利分校每個學期都會教超過一千名學生,接下來還會有很快速的增長,現在這個課程也是在網上可以免費的讓大家下載。
這是我們第一期課程的情況,這個課程非常受歡迎,有很多不同的學生,比如說男生和女生,還有來自不同背景的學生,他們都選擇了這門課。我們現在在資料科學這個領域當中,希望有一些人才能夠做資料又能做計算機。我們也發現之前的科學家他們都會說,大家都應該學習一些計算機的技術,我覺得這個觀點是有點狹隘的,大家學的應該不僅僅是程式設計,應該學習一些比較基本的計算機能力和統計學的能力。我們會使用抽樣和再抽樣來自統計學的觀點,把它們引入到計算機當中。在伯克利也有相關的領軍性的人物,比如說通過這樣的程式我們就能夠提供一些比較特殊的軟體,來幫助我們進行網頁的檢索和瀏覽。我覺得不僅僅是程式設計,還有其他人工智慧方面的概念。
我是一個統計學家,我個人對這個觀點比較感興趣,我們要發現數據背後其實隱藏著很多東西,我們首先要知道資料來自於哪裡。我們要檢索資料背後的真實世界當中的源頭,這是我在電腦科學世界中學到的東西。
我們應該怎麼去做呢?我們不僅僅要教程式設計、統計學,有時候要把兩者結合起來。我們看到程式設計課程,要學習一些專業的語言、詞彙和術語,我們也要做一些抽樣,有些抽樣結果不是特別好。比如說有些想法是幾百年之前產生的概念,有很多電腦科學當中的概念他們比較難以理解,這就是為什麼一般人們不太想使用電腦科學使用裡面太多抽象的東西。但是我們發現它對世界的影響是非常大的,尤其是這門課程。
給大家舉幾個例子,A/B測試,比如說在電腦科學行業當中我們往往會做這樣的測試,有些計算機專業學生不會做這樣的測試,因為它有關統計學。A/B測試是什麼呢?我們首先了解一下,它是對比了兩個情況。比如說有兩列,每列是1萬名學生,有對照組和實驗組,會將兩組進行對照。我們會有網頁,會對比訪問前和訪問後的狀況,所以我們會發現,在這個過程當中有非常多的問題,上百萬個問題,如果我們看到兩列人,兩列的情況,會發現他們有一些不一樣的地方,所以很有可能再次重複兩者的不一樣。
我們要給網頁做一些改變,再針對實驗組做一些處理,就涉及到了我們現代的統計學,有關於計算能力,當然下一頁會具體解釋一下,我覺得新生都可以瞭解,而且可以落實或者自己用這樣的方法。這個方法到底是什麼呢?比如說我們有兩列數字,統計學家會這樣去想,如果這兩列完全一樣的話是什麼樣的,期望是什麼。如果兩列一樣的話就變成一列,就是2萬個數字了,分佈依然是一樣的。既然兩列數字沒有什麼不一樣,我們就放在一列當中,就把數字進行混合,混為一列,再把它放在兩個柱子當中。
我希望這兩列數字當中進行隨機的分佈,再混合,再進行分開,再混合,我會做一個直方圖,展現這兩列的差別,這就是一個自然變換的過程。我會在分不中計算出自然差異到底體現在哪裡,就是我如何計算我的自然差異,以及在數字當中的位置,這就是我們進行A/B測試的方式。當然有些人會覺得這個測試比較無聊,但是在這個過程中你可以教大家一些知識,這樣學生會更有興趣一些。所以在這個過程中他們會學到數學,而且在這個過程中會獲得很多真實的資料,這些資料讓人覺得非常興奮。
我再給大家舉幾個例子,我們做了很多專案,當然我個人並不覺得這是非常標準的計算機的課程,它們在美國卻是非常流行的。這個例子是推理和隱私,大家知道我們對待資料要非常小心,尤其是涉及到隱私問題的時候,我們需要用資料做一些好的事情,要讓資料非常保密。有時候我們就要給資料進行加密,我們就要進行推理。比如說我們要管理這樣一個權衡,資料隱私和資料使用之間的權衡。我們會有隱私差別量化的方式來幫助我們進行保護,這是一個比較新的技術。
比如我們用一個資料庫可以進行資料庫的隱私化,我們會把隱私化後的資料和原來的資料進行比較,我們發現再一個例子當中,查詢後的資料跟查詢前的資料的差別是非常小的。給大家舉幾個例子,是計算能力思維方面的例子。我覺得這個想法非常重要,它能夠幫助我們進行現實世界當中的推理。
我們首先要進行資料的處理,而不是我們立刻要挖掘資料背後到底是什麼。比如說我們現在有很多資料,有一個名單,這個名單包括人的名字以及他們居住的地方。這是銀行的資料,我們就能把他們進行隱私處理。當然對這些資料來說,我也可以用這些資料做其他相應的隱私化的處理。統計學家會說,資料背後到底隱藏著什麼?我們如何整合這樣一些資料?
比如說在醫療資料方面我們也有相關資料庫,包括人的年齡、壽命以及他們在什麼時候獲得什麼樣的治療,這是非常典型的醫療資料。我就想對這個病人的資料進行隱私化,我只能關注到資料庫中的人。銀行的例子也是,我只能關注到我客戶的隱私,有些人可能是我們的客戶,也有人不是我們的客戶,所以他們的資料就不能進入到我的樣本當中。
在我的樣本當中有些客戶之後也不是我的客戶了,但是在醫療資料當中我可能會根據這些資料記錄,什麼時候給病人用什麼樣的藥,這些都在我們的隱私資料當中。我覺得這是一種資料化的語言,它是一種非常基於計算機的一種想法和思維模式。
我們可以在人口當中做一個查詢,查詢之後我們就能獲得資料,這往往是統計學家做的一個事情。我們要確保我們既能夠回答這個問題,又能夠進行隱私化,就是我們又能用資料做相關的事,又能確保資料的隱私化,我覺得這是我們要做的統計學和計算方面的課程,就是使用資料的同時又能確保資料的隱私性,又能做一些好的事情,又能遵從一些好的原則。
我們在教授這些想法的時候,會把這些想法用課程給它們傳遞出去,所以我們會發現在不同的專案當中會有一些相似點。在美國會有陪審團,他們往往會從人口中、居民中隨機抽樣,我們可以看到陪審團來自不同的民族,來自不同的年齡等等,所以這跟A/B測試是一樣的,學生會覺得這樣的測試非常有趣,因為他們可以用A/B測試的方式進行陪審團的選取,這也是會影響到我們政策制定的。
還有歌詞的分類,到底是嘻哈音樂還是鄉村音樂,這是分類的問題,也是跟A/B測試有關的。
除了核心課程之外還會有附加課程,我們稱為“連線者”課程,會教給不同專業的學生。他們會有特定的領域,比如說他們會關注於社會學或者關注於基因遺傳學等等,我們也會對這樣的課程做一個網路。比如說在第一年的時候我們就會有類似於螢幕上的連線者的課程,這些課程也會變得越來越流行,我們要教授一些核心想法,也要把核心想法、核心課程跟一些不同的學科進行跨學科的合作。所以我覺得這些資料科學是觸及到很多不同學科的,尤其是會關注到人工智慧。
人工智慧到底是什麼呢?我個人覺得比如說11歲的孩子的人工智慧往往是超過計算機的,計算機還沒有那麼聰明,他們只是利用資料模仿人的智慧,但是計算機當前並沒有這麼的智慧,我們要把計算機變得更加智慧,要讓計算機去模擬人的大腦,這也是AI當前做的一些事情,但是我覺得這並不是AI的主要目標。
還有其他人工智慧的系統,比如說從火星看地球,人工智慧的概念到底是什麼?人類的智慧肯定是智慧中的一種。比如說在北京每天會有很多飯店,他們會進很多的食物,一年365天他們都這樣發生著。在採購食物的過程中就有很多決策要做,比如說採什麼樣的蔬菜、肉類等等,所以就需要有很多智慧的投入才能做出這樣的決策。我們想要模擬人的智慧的話還是非常難的,但是我們可以模擬經濟系統,因為其實經濟系統也是非常智慧化的,這樣就能把經濟的理論應用在計算機中去。
現在計算機獲得了很多資料,能夠創造一個新的市場,但大多數情況下是要給人提供服務的,這樣能夠有更好的廣告營銷賺更多的錢,有的時候人們花了錢之後服務不是很好,比如說你去百度,為查詢付5美金,人們可能就不開心,所以一般我們進行查詢的時候、搜尋的時候是不付錢的,但是商家要打廣告就要付錢了。未來的搜尋引擎會創造出一個新的市場,這樣人們會有更大的意願參與,獲得更大的價值。
我給大家舉一個例子,人類的創意事實上還沒有進入到市場的概念。現在已經有越來越多的人使用他們的電腦做音樂,比如說自己有本職工作,週末的時候做一點音樂,上傳到網路上。其他的一些收益就沒有了,可能就會再回到本職工作開出租車。現在有越來越多的人在聽音樂,也有一些人把這樣一些音樂做成資料流給到聽眾,這些人會盈利。事實上真正的市場規則應該是做音樂的人和聽音樂的人有一些經濟聯絡,但是現在沒有這樣的聯絡,這樣的連線應該創造一些價值。
我們該怎麼做呢?我們可以建立一個市場,有一點複雜。首先我們對於這些做音樂的人來說可以有這樣一個表,可以知道一週之內有什麼人聽了他們的音樂,比如說這個城市有一萬人聽我的音樂。有了這個資料之後我可以使用這個資料,可以在成都做一場音樂會,因為我知道這裡有人聽我的音樂,可以掙到錢,如果每年做幾次,這就是固定收益了。很多人在網路上聽我唱歌,現在可以在現場聽,你喜歡我的音樂,我也可以報個價格,在你婚禮上唱歌,這也是非常喜歡的事情,你非常喜歡我,我到你婚禮上唱歌,我也可以掙點錢,這是市場上的事情,可以有很多價值創造出來。
但是現在我們並沒有這樣做,沒有把這樣的人聯絡起來,生產者和消費者沒有被聯絡起來。可以想象,比如說有100萬人在中國,他們可能通過這樣的方法成為音樂家,但是沒有真正的收益,在全球也是如此。所以現在有很多人如果能夠創造出這種市場的話,而不是隻提供服務,或者是一個社交網路,就會有更多的收益。
我相信這不光是在音樂方面,在很多其他方面都是如此。個人服務、資訊服務等等,比如說我七點回到家,可以有人給我做飯。我在家了有沒有人給我做飯呢?沒有這樣的服務。如果有的話,我可以給你點錢,每天給我做飯,這都是可以的。
最後幾分鐘跟大家說一下不同建議的過程,我們找到一個服務,做出一些建議。在這樣的過程中沒有經濟的參與,只是在不同的人中做不同的決策。有這樣一個經典推薦的過程,你是去找到一個客戶,有跟客戶類似的話,就可以把同樣的建議給到這些客戶。他們的決策都是獨立的,所以我們可以想象一下,比如說亞馬遜或阿里巴巴向大家推薦電影,現在有兩個人或者有兩千個人,給大家推薦同一部電影,大家覺得有問題嗎?沒有問題。我可以把電影推薦給大家,沒有問題。如果我把同一本書推薦給兩萬人甚至二十萬人,我認為這個書是好書,我給大家推薦,有問題嗎?可能也沒有問題。我現在可以很快的來複制這個書,兩三天就可以做完,也沒有問題。如果我把同一個餐廳推薦給大家,並不是說一個城市中的一系列餐廳,比如說之前我沒來過上海,我就點一個鍵,七點我來了,現在有點餓,如果周圍所有的飯店都能看到我,他們會說我們是四川菜,我們是上海菜,我們可以給你做這樣的菜,你願意來嗎?我可以在手機上看到這個飯店不錯,挺近的,四川菜我還挺喜歡的,我就去你的餐廳,這是真正的建議系統,我覺得是非常有價值的。這樣一個系統不會把同樣的餐廳推薦給100個人甚至1000個人,它也是個個性化的過程。
我們把同樣一條街推薦給同一個司機可以嗎?比如說在機場外部給大家推薦一條路,如果大家都走這條路的話,那就不是一個路了,而是交通擁堵。我推薦一隻股票給大家,這樣可以嗎?比如說我就讓大家買騰訊,這可能會引發股市上的一些問題。所以這樣的一些原則是可以適用在經濟學的,過去幾十年我一直在學習這樣一些原則如何來應用。
我希望大家覺得我這樣的報告非常的有意思,我現在也要給大家進行一個小結,在AI和教育方面有什麼聯絡,如何將二者聯絡起來?當然現在AI確實在改變所有的事情,改變資料,改變我們的生活方式,但是我們不應該僅僅用傳統的方法讓它進行人工智慧進行復制。現在我們可以有一種全新的方法,全新的AI,我覺得這是我們應該想的問題,謝謝大家。
關注“火柴盒” 觸控教育產業未來