1. 程式人生 > >城市計算,大數據的用武之地!

城市計算,大數據的用武之地!

專訪 數據監測 可能 aliyun 應用 楊致遠 art 決策者 相互

技術分享

上圖:反映北京出租車軌跡數據分布的熱度圖,微軟亞洲研究院供圖

近年來,城市計算(Urban Computing)逐漸走入公眾視野,並且越來越受到社會關註。這是一個以計算機科學為基礎、涉及了多項其他技術的新興交叉領域,其中以智能交通這項典型應用最廣為人知。事實上,城市計算的相關技術還可以應用到城市規劃、環境汙染監測、車輛能源消耗、城市安全和緊急事件響應等方面。美國《麻省理工技術評論》雜誌(MIT Technology Review,簡稱TR)本年度的“TR35”評選也對城市計算青睞有加,微軟亞洲研究院主管研究員鄭宇因在該領域的傑出研究而入選。

TR35意即“35名在科技創新領域具有傑出成就的35歲以下頂級青年創新者”,TR雜誌自1999年以來每年都會進行此項評選,以鼓勵科技創新成果對人類社會發展的推動,並在隨後舉辦的EmTech新興技術峰會上為最終的獲獎者頒獎。雅虎創始人楊致遠、谷歌聯合創始人拉裏·佩奇、Facebook創始人馬克·紮克伯格、Twitter聯合創始人傑克·多西以及蘋果設計師喬納森·艾維等多位互聯網明星都曾入選TR35。鄭宇是今年入選者中僅有的兩位來自中國機構的創新者之一。他的研究主要集中在交通、城市空氣質量和城市油耗等方面。

最近幾年城市中出現了大量的傳感器,如智能手機、道路攝像頭等,這些都為城市計算提供了足夠多的可分析數據,特別是人本身也作為一種傳感器在起著相當重要的作用。移動設備和社交網絡的普及使得人成為海量信息的分享者,這些數據又匯聚起來以群體智慧的方式為城市計算所用。鄭宇認為,無論是從計算環境的成熟程度還是從生活的相關度來說,現在都是做城市計算研究的最好時機。

  鳳凰科技就“城市計算”話題對鄭宇進行了專訪,以下為訪談實錄:

  每個人都是移動傳感器

  鳳凰科技:我看到你的微博介紹這樣寫: “酷愛時空數據挖掘”。能簡單介紹一下什麽叫做“時空數據挖掘”嗎?它跟你現在的研究城市計算方面有什麽聯系?

  鄭宇:對,有很大的聯系。首先說一下什麽叫數據挖掘。我們有很多的數據,它雖然只是一些符號、一些數字,但是其實裏面蘊含了豐富的知識。通過對數據進行分析和整合能夠把知識和智能提取出來,這個過程就叫數據挖掘。

  數據有很多種,我更加關註的是時間和空間的數據。不管什麽地方都會出現一些位置信息,比如樓的位置、車的位置、道路的結構,這些都是空間數據;再加上時變信息,比如人的移動性、車流量、地表溫度,就標定了時間和空間的結合。二者反映了城市的動態。我們微軟亞洲研究院的團隊通過對這種時空數據的分析,就能發現城市裏面很多的潛在問題,並可能會找到一些方法幫助解決這個問題。

  鳳凰科技:所以你對城市計算特別感興趣?

  鄭宇:這是理由之一,我有跟時空相關的技術的興趣喜好。另外一個原因是,我們都生活在城市中,城市跟我們的生活密切相關。我是做計算機科學的人,那為什麽不能想辦法解決身邊的那些最常見的問題呢?我覺得我做的工作既是幫助大家也是幫助自己。

  鳳凰科技:現在你覺得城市的狀況有改善嗎?

  鄭宇:從研究的角度來說,我們要盡量把研究做好。以前城市裏雖然也有人在移動並產生了數據,但是沒有相應的傳感器和計算單元,無法把這些數據轉化成我們可以得到的信息。現在各種各樣道路上的傳感器、攝像頭或者社交媒體數據,都已經廣泛存在了。這就讓我們具備了一個時機。所以無論是從我個人還是從數據和計算環境的成熟來看,這三個方面都應該是做城市計算最好的時機。

  鳳凰科技:我在你的文章裏看到一個“人體傳感器”的概念,這是不是一個比較新的概念?

  鄭宇:對,人作為傳感器相對來說是比較新的概念。你可以想象現在某一個地方發生了交通事故,可能有些人會發微博;或者一個地方遭遇水災之後,也可能會有人拍照發微博。當人們在產生這些數據的時候,其實就是在幫助我們感知他們周邊發生的事情。如果能把很多人的數據集合在一起,就可能會發現這個城市的環境。

  我們可能都沒有意識到,我們上車下車時候的刷卡其實代表了一個人行程的起點和終點,以及這個車的移動時間。乘坐地鐵也是一樣的,這些數據其實都幫助我們更好的理解城市。所以我們可以認為人是一個比較靈活的移動傳感器。

  鳳凰科技:那麽你們在做研究時這些人的數據是怎麽獲得的呢?

  鄭宇:有一些是微軟自己的,比如說地圖數據。有一些是通過合作得到的數據。但是我們從來不去分析一個人的數據,這是城市計算跟傳統社交網絡不一樣的地方。我們會把所有的數據放到一起整合來分析。

  鳳凰科技:所以是一個整體的數據狀態。

  鄭宇:對。以大家乘坐地鐵刷卡為例。城市計算從來不會說哪個人從哪到哪,而是說地鐵的總流量是多少,或者路面上的速度是多少。這個速度的信息實際上來源於所有乘坐地鐵的乘客的貢獻。

  鳳凰科技:普通人可能會覺得城市特別混亂,你是怎麽看待城市的呢?

  鄭宇:從城市計算的角度來看,城市是一個很復雜的環境,很多的問題都是相互關聯的,比如說城市規劃、交通流量和這個城市的氣候環境以及經濟發展,不能簡單地把它們分開一個一個去解決。現在有了大規模的數據之後,就更多地可以利用群體的智慧,來向城市管理決策者傳遞城市裏面發生的一些故事。這樣就有可能去改變城市未來。

  鳳凰科技:所以城市裏的人和城市的關系應該是一個互動的、相互關聯的關系?

  鄭宇:對,因為城市最後還是人民的城市,人民還是城市的主人。人應該參與到這個城市的各種各樣的決策和規劃中來。

  鳳凰科技:你怎麽看待“智慧城市”的說法?在你的設想裏,一個有“智慧”的城市應該是什麽樣子的?

  鄭宇:“智慧城市”整個概念一直是人們關註的焦點。業界更多是講一個智慧的城市應該是怎樣的,可能談論“What is”多一些;而從微軟的城市計算研究的角度看,我們更喜歡談如何實現,也就是解決“How to”的問題。

  從研究的角度看來,城市就好像是一個類型復雜、總量巨大、川流不息的數據時空,我們所做的只是搜集、篩選、解讀這些數據,並以直觀易懂的方式,為城市的主體——我們每一個人,提供個性化的、隨手可及的信息和服務,這也許就是所謂的智慧城市吧。

  首創大規模、實時動態拼車系統

  鳳凰科技:你自己的城市計算研究主要聚焦在哪幾個大的方面?

  鄭宇:交通是一方面,城市規劃一方面,最近也在看環境和能耗——現在主要看的是汽油的油耗數據,因為它燃燒排放廢氣跟空氣質量相關。

  鳳凰科技:人們應該對交通和空氣汙染更加感興趣。

  鄭宇:這兩個是跟用戶關系比較緊密,但是有的時候根本還是要通過城市規劃來解決。技術要成為連接群眾和決策者的通道。

  鳳凰科技:能給我們介紹一下你在微軟亞洲研究院做的一個出租車拼車的系統嗎?為什麽拼車能夠解決目前的交通擁堵和出租車運力不足的問題?

  鄭宇:現在大家都知道打車非常困難。因為在上下班的高峰期,北京可能有幾十萬人、上百萬人的要打車。但是出租車只有六萬多輛,這顯然是不可能滿足所有的需求,總是有人打不著車。那是不是可以通過簡單的增加出租車的數量就解決問題呢?其實也不一定。再增加出租車的數量,可能會讓道路變得更加擁堵,那出租車司機在單位時間內的載客數量反而會下降。現在也有一些叫車軟件,可以在一定程度上提高一點運載量,但是並不能夠100%解決問題。出租車在坐一個人的時候,其實裏面還有兩三個位置是空著的。那我們能不能把這些閑置的座位利用起來,提高運載量?這個問題其實是通過拼車來解決。

  鳳凰科技:請介紹一下這個系統是如何運行的。

  鄭宇:拼車要能夠滿足老百姓的需求第一要做到實時動態。比如我現在想打車了,通過手機發送一個請求,馬上就會有出租車過來接我。哪怕車上有人都可以。第二,有幾個約束條件:對於乘客來說,他希望費用降低,不希望出租車到的時間比預期要晚;對於司機來說,他希望收益增加。

  在我們這個拼車系統裏,用戶可以下載一個手機客戶端,提交一個請求,告訴出租車司機自己從什麽地方出發到什麽地方去、有幾個人上車、希望幾點鐘到。請求發出之後,出租車司機也可以通過這個應用程序加入進來。當然還要問一下車上已有乘客的意見。

  我們通過這個軟件可以知道司機在什麽地方、車上大概有多少人,而且這些信息都會自動更新。所以我們可以算出哪一輛車來接這個用戶所增加的距離是最小的,並且能滿足用戶的請求。

  如果這個問題能夠解決,就會達到三贏的效果:對於政府來說可以節能減排,大概每年能節省1.2億升燃油——這些油大概夠100萬輛車一個半月的油耗,可以節省近10億人民幣;對乘客來說,他可以打到車的幾率會提高三倍,乘車的費用還會降低7%左右;對司機來說,他的收益會增加10%左右。

鳳凰科技:這些是怎麽計算出來的?

  鄭宇:我們做了一個仿真系統。這個仿真系統分析了現在出租車的GPS軌跡,這樣就知道每個地方上車人的數目是多少,他們分別去什麽地方。我們就會利用程序來模擬現實世界中用戶的打車請求,然後用拼車算法去滿足這些需求,最後把拼車的數據跟不拼車的數據進行比較。

  鳳凰科技:這個“實時動態拼車”的方法,從路線方面以及乘客溝通方面來看還是挺復雜的,在實際應用中會不會影響效率?

  鄭宇:事實上,對乘客叫車來說沒有區別,跟用打車軟件一模一樣。基本上乘客提交需求,系統反饋會告訴你出租車什麽時候來接。但是基於禮貌,系統會問如果有其他人上車的話願不願意拼車,這對乘客來說是一個成本。

  鳳凰科技:影響效率的可能就是這個成本。

  鄭宇:確實有些乘客上車可能就不想受到任何的打擾,我們的系統也可以支持這個選擇功能(即上車後就不再接受其他人上車請求)。怎麽把它變得更人性化,怎麽保證信任機制,這些都是還需要考慮的非技術因素,很重要。

  鳳凰科技:在你所了解到的國外有類似的系統嗎?

  鄭宇:實時動態、大規模的拼車系統,我們的是第一個。

  鳳凰科技:你設計的這個系統會給用戶建議最佳路線嗎?

  鄭宇:這個可以和我們之前一個基於出租車軌跡的最快行車路線推薦系統融合到一起。因為首先我們真正需要的是未來的交通流量而非實時流量。大量帶有GPS的出租車在路上跑的時候類似於移動傳感器,感知了路面的流量。它們的歷史軌跡數據蘊含了交通的規律和模式,而實時的軌跡數據則反映了當前的交通流量。結合歷史規律和實時交通流量就能預測未來的交通狀況。

  其次,司機是有經驗的,因此出租車的數據中也蘊含了人的駕車智能。

  大數據監測空氣汙染:下一步是預測

技術分享

上圖:北京各地區實時空氣質量指數,微軟亞洲研究院供圖

  鳳凰科技:在你的研究裏,空氣汙染的監測是怎麽實現的呢?

  鄭宇:這個與大數據相關。

  北京市區有22個空氣質量監測站點,會播報周邊的空氣質量。但並不是說所有地方都有站點。城市裏面的空氣並不是均勻的。因為空氣會受很多因素影響,比如地面交流流量、建築密度,土地使用規劃,附近有無是礦廠或者公園都是不一樣的,還有氣象條件也不一樣。這麽多因素導致這個城市裏面各個地方的空氣質量是不同的,而且差別還很大。

  我們從數據裏面分析出,比如有的地方隔兩三條街,可能只有兩公裏左右。這兩個地方的PM2.5值就能一個幾十另一個幾百。而且從我們統計歷史一年的數據看,在北京城裏面同一個時間裏面最大值和最小值的差別大概在200。

  鳳凰科技:最大值和最小值這兩個地點的距離有多遠?

  鄭宇:就是城區六環以內。這個區域內的空氣質量大概會有40%左右的差別,差別在100以上,差兩個等級。導致結果的是什麽?就是如果我們這邊沒有監測站點的話,你就不會知道這裏現在的空氣質量怎樣。

如果能夠有一個系列的空氣質量數據的話,比如全北京每公裏範圍內的數據,我們都知道空氣狀態是怎樣的就可以做很多事情:你可以查看城市裏面多個地點的空氣質量,比如公司、家或孩子的學校,然後設定一個警戒值,一旦超標,就給孩子打電話減少去外面玩或者外出戴口罩,告訴父母把窗戶關上、開空氣凈化機。

  另外,我們可以進一步為那些喜歡跑步和騎自行車的人設計一些合理的路線,來保證他們最優的空氣質量。對於運動的人來說時間和距離都不重要,他們更多是鍛煉身體,因此空氣質量特別重要。

  如果城市的空氣質量檢測站點不夠,政府需要再建五個,那我們也可以通過分析來告訴政府哪些地方需要再建。

  鳳凰科技:像微博上說美國大使館那邊的空氣PM2.5含量是多少,這是不是並不能說明整個北京城的空氣氣量都是這樣的?

  鄭宇:對,其實我們也在觀察這個現象,有時候大家的數據可能存在一些偏差。並不是說北京其他地區的空氣質量一直都很差,可能那個地方建築密度比較大,然後車流量也比較大,這都會造成監測數據比較高。現在我們有數據的話,確實應該公開對待這個問題。好多時候大家會覺得北京就是一個毒室,但其實這是一個空氣質量的平均值。

  鳳凰科技:如果政府公布某一天的北京汙染指數是多少,其實也是平均值數?

  鄭宇:對,是這樣。大家不會都去看22個站點的監測數據,那會很累。除非我們的手機應用能夠告訴自己關心的地方的數據。

  鳳凰科技:所以這裏可能有一個誤解:人們覺得各個地點的空氣質量是一樣的。

  鄭宇:對,因為跟人相關的是地表空氣,也許向上幾百米後空氣就變得一樣了。在地面上,可能由於房屋的結構導致空氣循環不好,比如剛才車輛大擁堵,排放的尾氣沒有擴散;或者旁邊有個廠礦,這跟附近有一大片湖水和一片草原得到的數據肯定不一樣。

  鳳凰科技:那麽空氣汙染的監測是怎麽跟大數據產生關聯的呢?

  鄭宇:因為這裏面我們剛才說22個站點產生這些數據是城區的,其實六環以外還有,總共加起來可能30幾個監測站點。要用有效站點的讀數把整個城市的空氣質量估計出來,我們就要結合其他的數據,包括整個交通流量的數據、道路結構數據、興趣點數據(樓房、餐館、旅館、公園等),還有氣象數據等等。把這些大數據融合到一起以後,我們基於已有的站點就能夠訓練出一些模型來。即使一個地方沒有站點,但是我們同樣有它的大數據,放到模型裏面就能估計當地的空氣質量是多少。

  鳳凰科技:這其實是一種預測?

  鄭宇:現在來說還是一個對不同地點的實時估計。下一步我們想預測未來兩個小時以後的空氣質量會怎樣,甚至明天怎樣。

  鳳凰科技:技術上都可以做到?

  鄭宇:我相信可以,但是現在這個預測還在做,還沒有結果。

  鳳凰科技:在你的眼中好的科技創新是什麽樣子?

  鄭宇:我覺得有一個大的方向就是“頂天立地”。就是說要有很高的前沿性、技術創新性和理論難度;但你腳是踩在地上,有實用價值,能夠真正改變人的生活。

  鳳凰科技:好的技術是不是要最終應用出來才會顯示出價值?你怎麽看待這個問題?

  鄭宇:不一定要商業化才有影響力,影響力來自很多方面。一些前沿研究,不一定非要以有用為唯一的衡量標準,是否有趣、是否有想象力也是很重要的標準。

原文鏈接

城市計算,大數據的用武之地!