1. 程式人生 > >GIS+=地理資訊+行業+大資料——紐約公開11億條計程車和Uber原始資料下載及分析

GIS+=地理資訊+行業+大資料——紐約公開11億條計程車和Uber原始資料下載及分析

一覽眾山小編輯團隊

原文/ Todd Schneider

翻譯/ 沈瑋薇 陳翬

文獻/ 蔣理 校核/ 眾山小編輯/ 眾山小 排版/ 徐穎 2014-2015 © 

轉載請註明:源自公眾號“一覽眾山小-可持續城市與交通” 


最近的計程車和網際網路約車之爭一時成為了熱點,不過由於缺乏詳細的資料資訊分析,很多的結論都是定性為主,併為各種利益團體所把持。因此今天我們就介紹一下 紐約的開放心態,高達幾十個G的有關出租車和UBER的上下客出行資料被免費分享出來,供大家來研究。我們認為這樣的科學態度才是支援我們正確認識並推動 計程車行業改革的基礎。計程車是一種什麼樣的物種。他們書寫著城市發展的歷史痕跡,享受著經濟繁榮的燈紅酒綠,歌頌著城市締造者的豐功偉績,經歷著社會變 革的際會風雲。當計程車遇見了GPS定位,他的故事從“字跡”變成了“大資料”。當計程車的大資料遇見了紐約,他們的故事就成了古蹟,他們的字跡就成了甲 骨文,引來考古學者們各顯神通,探究真相。這是一篇從2009年1月到2015年6月期間超過11億條的城市內部個體計程車出行記錄研究出來的文章。你想 知道紐約的市民如何生活?如何工作?如何度過夜生活?如何趕飛機?去哪裡更容易邂逅華爾街的投資銀行家?“全球計程車公敵”Uber到底是天使還是魔鬼? 那就“耐心”的欣賞吧。本文藉助全美公開的計程車和Uber打車資料的視角,對城市內的居民區、夜生活、機場交通等更多方面的內容,進行開源的探索。這篇 真心是大資料,我們將提供好幾十個G的原始資料下載~~~紐約,怪我咯?

 概述   

紐約市計程車和轎車委員會發布了一份驚人詳細的歷史資料集,包括了從2009年1月到2015年6月期間超過11億條的城市內部個體計程車出行記錄(參考文獻1,請聯絡我們索取)。 總的來說,這些詳細的出行層面的資料不僅僅是記錄了計程車上下客座標的巨大列表:這是一個關於紐約的故事。上下班高峰期從中城到肯尼迪(機場)的交通狀況 有多糟糕?週六晚上出去玩時,“橋和隧道”在哪裡聚集?什麼時候投資銀行家來上班?Uber打車是如何改變出租車市場的現狀?布魯斯•威利斯和塞繆爾•傑 克遜能否在30分鐘內從百老匯72街到華爾街?這個資料集解決了所有這些問題,甚至更多。  我 把每一次出行的座標對映到當地人口普查區和居民區上,然後開始努力從資料中提取故事和意圖。這篇文章涵蓋了很多內容,但對於那些想自己繼續做更多分析的 人:這篇文章中的所有內容——資料、軟體和程式碼,都是可以免費獲得的。下載和分析資料的詳細說明,可以在GitHub(一個開原始碼庫)上找到。  


目錄  

1、地圖

2、資料

3、區的動態和Uber打車的出現

4、機場交通

5、虎膽龍威3的現實情況

6、天氣是如何影響計程車和Uber打車的乘客數量

7、紐約的深夜計程車指數

8、“橋和隧道”的聚集

9、威廉斯堡的北部

10、隱私問題

11、投資銀行家

12、最後的感想

  1地圖 

我當然不是第一個使用公共出租車資料製作地圖的人,但我目前還沒有看到哪一個地圖能夠包含2009年以來所有黃色和綠色計程車上下客的全部資料。你可以點選地圖來檢視高解析度的版本。 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖一、紐約市的計程車上客數

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二、紐約市的計程車下客數  

這 些地圖分別顯示了紐約市從2009年到2015年期間每一次計程車的上客和下客。這些地圖由很小的點組成,亮一點的區域表示更多的計程車在活動。綠色的區 域表示綠色博羅計程車的活動情況,這個綠色博羅計程車只能在上曼哈頓和外圍區上客。請注意上客是如何更多的集中在曼哈頓,而下客是如何向外圍區進一步延 伸。 如果你覺得這些圖很漂亮,我推薦你檢視高解析度的上、下客圖片。  

2資料  

紐約市計程車資料

  出 租車和轎車委員會發布的官方的出行記錄資料集包括11億多條從2009年1月到2015年6月的出行記錄,包括了黃色和綠色的計程車。每一條出行記錄包括 了出行從哪開始到哪結束的精確位置座標、出行什麼時候開始什麼時候結束的時間戳,再加上一些其他的變數,包括費用、支付方式和出行距離。  我 使用PostgreSQL(一種資料庫)來儲存資料,使用PostGIS來完成地理上的計算,包括將大量的地圖上的經緯度座標對映到紐約市人口普查區和居 民區。在新增任何索引前,全部資料集佔了267GB。更多的詳細的關於資料庫模式和地理計算的資訊可以看一下GitHub 儲存庫。  Uber打車資料  感謝FiveThirtyEight(一個數據新聞網站)的人們,這裡也有一些公開的資料,包括將近1900萬條紐約市內2014年4月到9月和2015年1月到6月的Uber打車資料(http://fivethirtyeight.com/tag/uber/),(參考文獻2,請聯絡我們索取)這 些資料我已經合併到資料集中。Uber打車資料並不像計程車資料那樣詳細,特別是,Uber打車資料僅僅提供上客的時間和位置資訊,而沒有下客的資訊。數 據集中的每一條出行記錄有一個cab_type_id欄位,表示這次出行是屬於黃色計程車、綠色計程車還是Uber打車。  

3區的動態和Uber打車的出現 

2013年8月綠色博羅計程車計劃的引入,戲劇性的增加了外圍區計程車的活動量。這裡有一張紐約市西南部人口最稠密的布魯克林區的計程車上客圖,根據計程車的型別進行分類。 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分

 圖三、布魯克林區每月的計程車上客量(基於紐約市計程車和轎車委員會的出行資料) 

 從2009年到2013年,這一時間段從曼哈頓遷移到布魯克林的數量普遍增加,黃色計程車在曼哈頓的上客量幾乎是它們在布魯克林區上客量的兩倍。  一 旦博羅計程車出現在市場,儘管綠色計程車快速代替了黃色計程車以至於截止到2015年6月,綠色計程車佔據了布魯克林區每月85萬計程車上客量的70%, 而黃色計程車在布魯克林區的上客量下降到它們2009年的比例。但是,黃色計程車在布魯克林區仍然佔據更多的下客量,因為很多人繼續從曼哈頓乘坐計程車到 布魯克林。但即使是在下客量中,綠色計程車正在縮小它們與黃色計程車之間的差距。  讓我們把Uber打車加入到混戰中。我 居住在布魯克林,儘管我有時候乘坐計程車,但對我的信用卡對賬單的檢查發現,我乘坐Uber打車的次數是計程車的4倍。原來我並不孤單:在2014年6月 到2015年6月,布魯克林區Uber打車的上客量增加了525%!截止到2015年6月我寫這篇文章時,最新的資料顯示, 在布魯克林區Uber打車的上客量是黃色計程車的2倍多,Uber正快速接近綠色計程車的受歡迎程度。

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖四、布魯克林區Uber VS 計程車的上客量  

注意:Uber的資料僅包括2014年4月到2014年9月的,還有2015年1月到6月,因此圖中有缺口。 曼 哈頓,不誇張地說,佔了迄今為止紐約任何一個區計程車上客量的最大值,在任意給定的月份,全部的紐約出租車上客量中,將近85%的上客量發生在曼哈頓,而 且大部分這些上客量由黃色計程車承擔。儘管綠色計程車被允許在上曼哈頓運營,它們幾乎僅佔黃色計程車活動量的一小部分。

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖五、曼哈頓每月出租車上客量  

Uber打車也戲劇性地在曼哈頓急劇增長,從2014年6月到2015年6月上客量增加了275%,而計程車上客量在同一時期下降了9%。2015年6月Uber打車在曼哈頓的上客量比2014年6月增加了140萬,而計程車上客量在同一時期少了110萬。然而,即使Uber打車在2015年6月接送了將近200萬曼哈頓乘客,Uber仍然只佔曼哈頓總上客量的15%不到 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖六、曼哈頓區Uber VS 計程車的上客量  

皇后區黃色計程車的上客量仍然比綠色計程車多,但那完全是因為拉瓜迪亞和肯尼迪機場在皇后區,這些機場主要受黃色計程車服務。儘管Uber打車在皇后區經歷了和布魯克林區相似的增長,而且黃色計程車深受機場上客量的影響,但Uber打車仍然滯後於黃色計程車和綠色計程車。 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖七、皇后區Uber VS 計程車的上客量  

如果我們僅看拉瓜迪亞機場和肯尼迪機場的上客量,我們可以發現,Uber打車量已經上升至每月10萬多的上客量,但黃色計程車仍然將80%的機場乘客運送入市區。

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖八、拉瓜迪亞機場和肯尼迪機場的Uber VS 計程車上客量  

布魯克斯區和斯塔頓島的計程車乘客量顯著較低,但你可以從GitHub上看到這兩個區的圖表。需要注意的是,幾乎沒有黃色計程車敢冒險去布魯克斯區,同時Uber打車在斯塔頓島已經比出租車更流行。  

4機場交通 

到達紐約市的一個機場需要多長時間?

 絕 大部分開往肯尼迪機場的車輛將毫無疑問地選擇範威克快速路;摩西已經說明了建議提供一條從曼哈頓中心區到機場的直達線路的目的。但是設計範威克快速路是為 了在最適宜的條件下(好的天氣、沒有交通事故或者其他的延誤)每小時運輸2630輛車輛。即使唯一使用範威克快速路的交通是去往肯尼迪機場的交通,這條快 速路的通行能力仍然是不夠的。  航空時代才剛剛開始:航空運輸很顯然將得到大發展。如果當交通量達到1萬人/小時,範威克快速路不能從根本上解決去往肯尼迪機場的交通量,那麼當交通量增長到1.5萬人/小時?2萬人/小時,將會發生什麼呢?——羅伯特•卡羅,《權利經紀人:羅伯特•摩西和紐約的衰落》(1974)  一個藏在所有紐約人心中的話題:為了在3個區的機場之一坐上飛機,你需要提前多久叫出租車?當然這取決於很多因素:是否有嚴重的堵車?是否聯合國在開會?你的計程車司機是否知道捷徑來避免範威克上不可避免的瓶頸路段?  我 提取出所有周末去機場的計程車出行記錄,計算了一天中每一小時內從每一個居民區到機場所花時間的分佈情況。絕大多數情況下,最糟糕的去機場的時間在下午的 4點到5點。比如,在下午4點到5點從中城到肯尼迪機場的計程車出行所花時間的中位數是64分鐘!在這段時間內10%的出行者的出行時間超過了84分鐘 ——在這種情況下能坐上飛機是很幸運的。  如果你在上午10點到11點從中城出發去肯尼迪機場,你將面臨出行時間中位數是38分鐘的出行,有90%的可能性在50分鐘內到達機場。  谷歌地圖估計從布萊恩特公園到肯尼迪機場的公共交通的出行時間大約是一個小時,所以根據一天中的時刻、你距離地鐵站的距離,你希望的公交出行時間可能比出租車短,同時你可以節省一大筆錢。  從其他居民區到達拉瓜迪亞和紐瓦克機場的情況是相似的。你可以通過下拉列表,來檢視任意一個居民區到機場的出行時間的圖表:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖九、任意一個居民區到機場的出行時間的查詢示意  從曼哈頓中城到拉瓜迪亞機場的出行時間 

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十、中城到達拉瓜迪亞機場的出行時間  肯尼迪機場 

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分

 圖十一、中城到達肯尼迪機場的出行時間  紐瓦克機場 

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十二、中城到達紐瓦克機場的出行時間  

5虎膽龍威3的現實情況 

布魯斯•威利斯和塞繆爾•傑克遜能否在30分鐘內從上西城到華爾街? 機 場並不是唯一遭遇交通擁堵的目的地。在虎膽龍威3中,麥克萊恩(威利斯)和沙斯•卡佛(傑克遜)需要在早高峰30分鐘內從百老匯72街到華爾街地鐵站,否 則炸彈將會爆炸。他們佔用了一輛計程車,開著它瘋狂地穿過中央公園,尾隨一輛救護車,剛好準時到達(當然炸彈也爆炸了)。感謝計程車和轎車委員會的公開數 據,我們可以最終弄明白公眾關注的這一事件的現實情況。  麥克萊恩和沙斯•卡佛在上午9點50離開上西城,所以我提取所有(符合下列情況的)計程車乘坐記錄: 在上西城西70街到西74街區內的人口普查區上車在市中心區域包括華爾街2/3地鐵站下車上車時間在工作日早上的9:20到10:20之間  製作了關於出行時間的直方圖:

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十三、百老匯72街到華爾街的計程車出行時間  

數 據集中有580條這樣的出行記錄,平均出行時間29.8分鐘,出行時間中位數29分鐘。這意味著一半的這樣的出行實際上在指定的30分鐘內完成!現在,我 們的英雄可能需要一些時間去徵用一輛計程車,步行到地鐵站臺,因此,如果我們假設這些需要花費3分鐘,開車需要花費27分鐘,那麼僅有39%甚至更少的出 行能夠在27分鐘內完成。當然,在電影裡他們好像讓這個任務變得很艱鉅,幾乎沒有成功的可能性,而在現實中,這只是平均水平。這在電影裡似乎是罕見的,但 在現實中實際上比在電影裡更容易重現! 

 6天氣是如何影響計程車和Uber打車的乘客數量 

2009年以來,同城計程車出行量最少的日子都很明顯的與天氣有關。計程車出行量最少的幾天是: 星期日,2011年8月28日,颶風艾琳,28596次出行星期一,2010年12月27日,北美暴雪,69650次出行星期一,2012年10月29日,颶風桑迪,111605次出行 我 從國家氣候資料中心下載了中央公園的每日天氣資料,把它加入計程車資料來看我們能否知道一些其他關於天氣和計程車乘客量之間的關係。這裡有很多混淆變數, 包括季節性、博羅計程車造成的年增長、是否天氣事件發生在週末或工作日,但看上去降雪對每日的計程車乘客量有顯著的負面影響: 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十四、降雪量VS 紐約市日出租車出行量  另一方面,僅僅是下雨好像不會影響一天總的乘客量:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十五、降水量 VS紐約市日出租車出行量  

由 於Uber打車資料只有少數幾個月是可得到的,分析天氣對Uber打車乘客量的影響更加困難。Uber出名是因為它在高需求時間段內動態定價的收費策略, 而高需求時間段通常包括惡劣的天氣。這裡有2015年上半年少量雨天和下雪天的可獲得的Uber打車資料,因此對於每一個雨天/下雪天,我計算了計程車的 總出行量和Uber打車的總出行量,將它們與前一週每一個服務日的平均出行量進行比較。比如,Uber打車在2015年1月26日的比率是69%,表示這 一天的Uber出行量是1月19日到25日之間日平均出行量的69%:

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十六  儘管這些資料並不能最終證明什麼,在2015年的每一個天氣惡劣的日子,不管是下雨還是下雪,Uber打車相比於前一週日平均出行量的比率要大於計程車。部分原因可能是因為Uber車輛的數量仍然在增加,所以所有情況保持不變,我們希望Uber能夠在每一天完成更多的出行,儘管總的計程車出行持續蕭條。但對於Uber打車的比率每一天都在上升似乎不可能是隨機因素,雖然我也沒有理由做出任何有力的宣告。是否是它的動態定價政策或其他的一些因素,相比於計程車載客能力,Uber打車的載客能力似乎更少受到糟糕天氣的影響。

 7紐約的深夜計程車指數 

這 些天很多房地產公司提供了關於社群的一些資訊:當地學校的排名、可步行性分值、當地企業的型別。我們可以利用出租車資料來得到一些推論,如通過檢視每一個 人口普查區在晚上10點到凌晨5點之間(這一時間段我認為是深夜)發生的計程車上客量的百分比,來看城市的哪些部分夜晚外出比較受歡迎。  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十七、紐約市深夜計程車指數 

 有 些人想要住在一個不夜城,而其他的一些人更傾向於安靜。根據深夜計程車指數,如果你在尋找一個擁有充滿活力的夜生活的居民區,嘗試選擇威廉斯堡、布魯克林 的綠點或布希維克。深夜計程車指數最高的人口普查區是在東威廉斯堡,這裡76% 的計程車上客量發生在晚上10點到凌晨5點。如果你堅持住在曼哈頓,那麼你的首選是下東區或者肉庫區。 相反地,如果你想避免夜晚的騷動,向上東區或者上西城的住宅區移動(如果你還沒有在哪裡…)。從第五大道向東延伸到公園大道的深夜計程車指數最低,僅有5%的計程車上客量發生在深夜。 這裡有一張包括所有人口普查區的地圖,上面包括至少5萬次的計程車上客,越暗的陰影表示越高的深夜計程車指數。 布魯克林的夜晚:發生在東威廉斯堡的某個人口普查區的計程車上客量中,76%發生在晚上10點到凌晨5點之間,是城市中最高的比例。在上東區的一些人口普查區內不到5%的計程車上客量發生在深夜。

  8“橋和隧道”的聚集 

“橋和隧道”的名稱,在文字層面上,是指任何一個通過一座橋或隧道到達曼哈頓的出行者,他們通常來自新澤西州、長島或者其他外圍區。通常這個名稱被認為是一種侮辱,儘管外圍城區正在興起。好吧,我們就說時代就是這樣。 為 了根據計程車資料估計“橋和隧道”的目的地,我分離出所有周六晚上6點到午夜12點之間的起點在賓夕法尼亞車站附近的出行記錄。賓夕法尼亞車站是新澤西公 共交通和長島鐵路的登陸車站,因此,儘管並不是所有人都在週六晚上在賓夕法尼亞車站附近叫出租車,但這至少對於“橋和隧道”來說是一種合適的方式。下面的 居民區的地圖顯示了這些乘客在哪裡下車:

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十八、“橋和隧道”的出行目的地

(週六晚上起點在賓夕法尼亞車站的計程車乘客的下車情況)  對 於“橋和隧道”的出行來說,最受歡迎的目的地是默裡希爾、肉庫區、切爾西、中城。我們甚至可以更深層次的從個體出行層面來看,具體這些出行在哪裡結束。下 面這張是默裡希爾的地圖,默裡希爾是“橋和隧道”人群最受歡迎的目的地,每個點表示週六晚上起點在賓夕法尼亞車站的一次單程計程車出行:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖十九、默裡希爾的“橋和隧道”  

正 如上圖顯示的,在紐約市,默裡希爾夜生活主要集中在第三大道,尤其從第32街延伸到35街。計程車資料顯示週六晚上從賓夕法尼亞車站出發的計程車乘客多數 在這一區域下車,其他(下車量較多的)地方還包括,在第三大道上沿著第34街向東延伸,以及在第一大道和第二大道之間的第39街上的一個點。再做一些工 作,我們可能能夠對這些座標進行反向地理編碼成實際的酒吧名稱,也許可以更加科學的扭轉《Complex》雜誌的經典風格。

  9威廉斯堡的北部 

根據計程車的活動情況,2009年以來,整個紐約市最有優勢的人口普查區位於威廉斯堡的北部,由北14街向北、貝里街向東、北7街向南和東河以西的區域包圍:

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十、威廉斯堡的北部範圍  

北部居民區以它的夜生活著稱:72%的上客量發生在深夜。由於綠色博羅計程車專案的引入,很難比較各人口普查區、行政區之間2009年至2015年計程車的增長量,但是在這一段時間內,相比於城市內的其他片區,北部片區除了機場外總的計程車上客量有比較大的增長:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十一、威廉斯堡的北部計程車上客量 

 甚 至在博羅計程車專案開始的2013年8月之前,威廉斯堡的北部經歷了計程車活動量的戲劇性的增長,從2009年6月僅有500人次/月增長到2013年6 月的1萬人次/月,到2015年6月增長到2.5萬人次/月。讓我們來看一張反映出租車上客的動畫地圖,看能不能從中瞭解到什麼資訊:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十二、計程車上客地圖動態分佈圖  

這張動畫可以讓我們精確的找到一些在過去幾年內在北部開業的比較受歡迎的商家的精確位置,尤其是在威思大道上的商家: 2012年5月:威思酒店,威思大道和北11街2013年1月:Output夜店,威思大道和北12街2014年3月:Verboten夜店,威思大道和肯特大道之間的北11街 同時,我確信未來威廉韋爾和霍斯頓酒店的開發商希望北部不可阻擋的崛起仍在繼續,但至少根據計程車資料,2014年中期以來上客量已經保持平穩,這也許預示著區域的受歡迎程度已經達到穩定? 

 10隱私問題 

出 租車和轎車委員會在2013年第一次釋出公共的計程車資料,包括了Chris Wong的資訊法自由權的申請,每一條出行記錄的資料包括匿名的計程車車牌號碼。實際上,像Vijay Pandurangan所描述的那樣,解碼每一條出行記錄的實際車牌號碼還是有可能的。這導致人們對資料隱私問題的大量討論,計程車和轎車委員會將所有關 於車牌號的資訊從最近釋出的資料中刪除了。 但 資料仍然包括精確的經緯度座標,這些座標可能被用來確定人們的居住地、工作地、社交活動地等。當我們(通過出行資料)觀察威廉斯堡北部最熱鬧的新開的電子 俱樂部時,這是很有趣的,但當是人們的家時,就變得有些奇怪。紐約人口很密集,如果你在高峰期乘坐計程車從人口密集的一個區域到達另一個人口密集的區域, 比如從紐約中央車站到上東城,是不可能有獨特的關於你出行的資訊能夠讓別人弄清楚你住在哪裡或在哪裡工作。 但 如果你要去的某個地方和平常的計程車路線有一些不同,在這種情況下,你的出行可能是獨一無二的,這也將揭示你的一些資訊。比如,我不知道是誰擁有了東漢普 頓地區獨特的Further Lane(豪宅區名字)的這些美麗的海濱房子中的一棟(確切的地址被編輯過,來保護無罪者):  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分

 圖二十三、東漢普頓海濱房子  

但是我知道布魯克林高地的準確位置,以及某個人(未必是擁有者)從叫出租車、乘坐了106.6英里、用信用卡付費400美元,其中包括110.50美元小費的時間。如 果計程車和轎車委員會真的想要刪除潛在的個人資訊,他們應該將整個資料集中的經緯度座標刪除。公共資料應該是讓人們瞭解計程車系統是如何服務城市的不同區 域的,因此,計程車和轎車委員會可能應該提供人口普查區來代替座標,或者僅僅是曼哈頓繁華區域的座標,但提供能夠唯一確定乘客家庭地址的座標是讓人感到過 分的。

 11投資銀行家 

當我們在討論漢普頓時,我們已經將威廉斯堡的時髦人士和默裡希爾的“橋和隧道”包括在內,為什麼不看一看出租車資料能夠告訴我們關於投資銀行家的什麼資訊,他們是紐約另一個獨特的亞文化群體? 高盛投資公司很自願地被拿來分析,因為它的總部在西街200號有一條專用車道,在谷歌地圖上標記為“哈德遜河綠道”:  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十四、哈德遜河綠道位置  

我們可以分離出所有下車點在這條車道的計程車出行記錄來了解高盛投資公司員工——至少是乘計程車的人——早上從哪裡來,什麼時候到。下面這張圖是工作日西街200號下車時間的直方圖: 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十五、高盛投資公司在西街200號工作日出租車下客量  

計程車在早上5點開始下客,高峰時間在上午7-9點,下午下客的量越來越少。大概早晨後半段的下客量絕大部分是訪客,與公司員工形成對比。如果我們把下客限制在早上10點前,下客時間的中位數是7:59,25%的下客發生在7:08之前。 北部的一些街區是花旗集團在格林威治街388號的總部,儘管這一建築物似乎沒有高盛投資公司那樣的專用車道,我們仍然可以分離出直接在建築物前下車的計程車出行資料,來看花旗集團的員工在早上幾點達到:  

交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十六、花旗集團在格林威治街388號的計程車下客量 

 花旗集團附近一些傍晚的下客量可能是為了去街對面的酒吧和飯店,但同樣早上的下客可能絕大部分是花旗集團的員工。花旗集團早晨到達的統計資料可以和高盛投資公司相比:到達的中位數是早上7:51,25%的下車發生在7:03之前。  在高盛投資公司或花旗集團下車的乘客中主要的上車居民區是西村;切爾西-熨斗-聯合廣場 ;索和區-特里貝克區  因 此,怎麼回事?是銀行家們不居住在第14街(或者可能是第23街)?哎,仍然有大量的出行來自更遠的擁擠的住宅區。同時來自住宅區的人們乘坐地鐵、私人小 汽車或者其他交通方式也是很有可能的,因此,計程車資料絕不是決定性的。但是,很酷的小孩們已經在市區居住了一段時間,銀行家們為什麼要例外呢?  

12最後的感想 

正如我在前言部分提到的,這篇文章涵蓋很多內容。即使如此,我感覺這些也僅僅觸及到全部資料集中可得資訊的表面。比如,你是否知道在2009年1月,僅有超過20% 的計程車打車費是使用信用卡結算的,但到2015年6月,這個比例已經增長到60%?

  交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十七、紐約出租車支付方式:現金 VS 信用卡  

對於更貴的計程車出行,乘客們現在使用信用卡支付打車費的比例超過75%: 

 交通大資料︱紐約公開11億條計程車和Uber原始資料,大家一塊來分 

圖二十八、總打的費用:現金 VS信用卡  

還有無盡的分析可以做,更多的資料集可以與計程車資料合併來進行深入的研究。花旗自行車專案釋出了公共騎行資料;

我想知道是否一個公共自行車系統的引入會對計程車乘客量有重大的衝擊?同時,也許我們能夠量化費爾韋瑟的粉絲數量,通過利用洋基隊和大都會隊(紐約兩支棒球隊名)的記錄來估計到達洋基體育場和花旗球場的計程車數量是如何波動的?  有 投資者使用衛星地圖來做投資決策,比如,這個假期在一個百貨商場的停車場有很多輛車,也許是時候去買(車)了。你可以對計程車資料做類似的事情:根據肯尼 迪機場捷藍航空公司和拉瓜迪亞機場達美航空公司的交通量對比,看航空公司的市場份額是否在轉移?對木材的需求是否與紅鉤區有多少人在裝載宜家的傢俱相關?  我已經想象到人們將繼續通過資訊法自由權的申請來獲得Uber資料,因此,我們將會很有趣的看到,Uber打車在紐約市政府增加的緊張氣氛和媒體關於Uber新股首發的不斷炒作這兩方面的背景下,是如何運營的。  最 後,我在以前關於房利美和房地美(兩家提供住房抵押貸款的金融機構)的文章中提到了“媒介資料革命”,同樣的思想適用於這篇文章。不久以前,在日用筆記本 電腦上下載、加工和分析包含11億條共267GB的原始資料幾乎是不可能的。今天,不僅在蘋果膝上型電腦上是可能的,越來越多開源的軟體工具能夠用來處理 這些資料。我偏向於PostgreSQL和R軟體,這些都是實現的細節問題:資料分析的限制因素越來越多的不是計算功率問題,而是人類的好奇心和創造能 力。  

GitHub儲存庫 如果你對獲得資料和自己分析比較感興趣,或者僅僅只是想看一下更多的技術細節,轉到GitHub儲存庫。

===========================================================

注:轉載原文並無下載地址,以下為超圖研究所整理完成!

--------------------------------------------------------------------------------------

宗旨:專注於"GIS+"前沿技術的研究與交流,將雲端計算技術、大資料技術、容器技術、物聯網與GIS進行深度融合,探討"GIS+"技術和行業解決方案

轉載說明:文章允許轉載,但必須以連結方式註明源地址,否則追究法律責任!

--------------------------------------------------------------------------------------


===========================================================

13 資料下載 (點選圖表Yellow或者Green直接下載

資料描述資料集包括2014 年選擇2015 年完成黃色綠色計程車紐約所有旅行旅行記錄記錄包括捕獲接機欄位日期/時間,接送地點行程距離逐項票價型別付款型別以及驅動程式報告乘客

資料結構(可點選)

勘誤表 2015/9/22-TPEPLPEP 的旅行資料Csv今年 1 月2015 年6 月更新包括一個領域[improvement_surcharge]列出票價覆蓋計程車改進附加費冰雹制服改進附加費逐項部分所有出差幫助基金的士SHLs 2015 年 1 月 1 開始輔助功能$0.30附加費所有的 TPEPLPEP 的旅行資料檔案上載向前包括領域

2015

January Green
February

相關推薦

GIS+=地理資訊+行業+資料——紐約公開11計程車Uber原始資料下載分析

一覽眾山小編輯團隊 原文/ Todd Schneider 翻譯/ 沈瑋薇 陳翬 文獻/ 蔣理 校核/ 眾山小編輯/ 眾山小 排版/ 徐穎 2014-2015 ©  轉載請註明:源自公眾號“一覽眾山小-可持續城市與交通” : 最近的計程車和網際網路約車之爭一時成為了熱

GIS+=地理資訊+行業+資料——Spark叢集下SPARK SQL開發測試介紹

Spark叢集下SPARK SQL開發介紹 前言       在之前的文章《SPARK for IntelliJ IDEA 開發環境部署》中已經完成了對開發環境的搭建工作,下

GIS+=地理資訊+資料——紐約出租車資料下載

-------------------------------------------------------------------------------------- 宗旨:專注於"GI

GIS+=地理資訊+雲端計算+資料+容器+物聯網+...

題記: 在我們學習openstack知識過程中,經常會部署幾臺物理伺服器,但是也有可能某些物理伺服器另作他用,也就是物理伺服器修改IP或者角色轉換,但是可能這些物理伺服器作為宿主機(計算節點)還包含

GIS+=地理資訊+雲端計算技術——私有云架構設計(2)網路資源規劃

-------------------------------------------------------------------------------------- 宗旨:專注於"G

GIS+=地理資訊+雲端計算技術——私有云架構設計(3)儲存資源規劃

-------------------------------------------------------------------------------------- 宗旨:專注於"G

資料結構 2-11設順序表va中的資料元素遞增有序。試寫一演算法,將x插入到順序表的適當位置上,以保持該表的有序性。

將近半年時間內一直沒有寫部落格了,最近一直研究資料結構。該是整理一下的時候了。採用的是嚴蔚敏的習題集。 2.11設順序表va中的資料元素遞增有序。試寫一演算法,將x插入到順序表的適當位置上,以保持該表的有序性。 演算法思想: 1 3 4 5 6 7 8 9 假如插入的是2則,需要將所有比2大的

Caffe學習筆記10:影象資料生成caffe需要的(laveldblmdb)資料檔案

        在深度學習的實際應用中,我們經常用到的原始資料是圖片檔案,如jpg,jpeg,png,tif等格式的,而且有可能圖片的大小還不一致。而在caffe中經常使用的資料型別是lmdb或lev

資料時代的地理資訊科學與科研能力培養

大資料時代的地理資訊科學與科研能力培養 @劉瑜_北大GISer 學者簡介: 劉瑜,北京大學遙感與地理資訊系統研究所教授。目前主要研究方向包括:1)地理 […] A- A+ 地理之道&

資料時代地理資訊服務中資料傳輸

人類社會進入大資料時代,資料成為了繼土地、勞動力與資本之後的新的要素。用資料決策、用資料評價成為越來越普遍的要求。當前,大資料引發著各行業、各領域商業模式、生產模式與管理模式的變革和創新,將對經濟社會發展與人們的生產生活方式產生深遠的影響。大資料時代,測繪心理資訊服務需求

資料時代的地理資訊系統發展

1、 大資料概述 大資料(Big Data)是將規模龐大、結構複雜、動態演變的資料進行採集、篩選、管理、搜尋、分析、挖掘與表達的技術統稱,是連通訊息世界和知識世界的橋樑,也是資料科學(Data Science)的重要研究方向。大資料的概念原本取自以谷歌為代表新一代IT

三維電子沙盤資料互動觸控互動視覺化地理資訊系統

根據武警、部隊、公安作戰管理需求,以三維地理資訊、部隊部署、要圖示繪等為基礎支撐,深度開發強化資訊查詢、地形分析、三維立體模型標繪、三維動態軍標標繪、態勢演示、聯網標圖、動員資料、實時視訊、北斗導航、實時語音、防恐防暴動態演示等主要功能,為指揮員處置應急突發事件、正確分析情況、判定態勢定下

GIS+=地理信息+行業+大數據——基於雲環境流處理平臺下的實時交通創新型app

實時數據 system nts 趨勢數據 接口 下載 hub time 路由 應用程序已經是近代的一個最重要的IT創新。應用程序是連接用戶和數據之間的橋梁,提供即時訪問信息是最方便且呈現的方式也是easy理解的和令人愜意的。然而,app開發人員。

資訊資料產業”十三五“規劃全文

 大資料產業發展規劃 (2018-2020年)   資料是國家基礎性戰略資源,是21世紀的“鑽石礦”。黨中央、×××高度重視大資料在經濟社會發展中的作用,黨的十八屆五中全會提出“實施國家大資料戰略”,×××印發《促進大資料發展行動綱要》,全面推進大資料發展,加快建設資

建築行業資料是什麼?不懂的來!

由於網際網路的快速普及,在潛移默化間,“雲端計算”、“網際網路+”、“大資料”等詞彙逐漸進入各行各業,並且依託網際網路從而衍生出的以物聯網、電子商務為代表的資訊科技正在支撐著各個產業的發展與變革。而長期以來,建築行業資訊孤立,難以互聯,彼此如霧裡看花,難以觸碰。 此時,網際網路大資料對建築業招投

資料資訊資料應用正深入經濟生活

  目前,我國網際網路、移動網際網路使用者規模均居全球第一,有著豐富的資料資源和顯著的應用市場優勢。隨著打造“數字中國”戰略的推進,大資料產業正成為經濟社會發展的新引擎,受到廣泛關注。     當前,大資料產業正快速發展成為新一代資訊科技和服務業態,即對數量巨大、來源分

車聯資料分析-地理資訊系統

本來想總結GPS裝置採集的原始資料存在的一系列質量問題,翻閱之前總結的材料發現了地圖資料、定位技術的總結文件,不記得參考哪些大神的部落格,本節介紹地圖資料相關知識。 一、什麼是地理資訊系統 地理資訊系統(Geographic Information System,GIS)是一種空間資

資料視覺化】地理資訊視覺化應用

1 地球與生存環境         人類長期以來對地球和周遭自然環境進行觀測來研究和了解自己生存的自然空間,科學家們也通過建立數學模型來模擬環境的變化。這些觀測和模擬得到的資料通常包含了地理空間中的位置資訊,因此自然需要用到地理資訊視覺化來呈現資料,最常見的是與氣象相關的資

Facebook洩漏5000萬用戶資訊資料真是讓人又愛又恨

最近,一條“Facebook洩漏5000萬用戶資訊,身陷資料醜聞危機”的新聞佔據各大網際網路新聞版面。小編看到這些新聞整個人都不好了,應該說只要是看到“洩漏”、“漏洞”、“爆發安全危機”“隱私安全”等這一系列的字眼,整個人都會不好一次。因為……我們身處於網際網路行業,是一家專

電信行業資料應用的後盾 MPP架構資料庫技術

在大資料時代,資料呈爆炸式增長,單個SMP系統已經無法應付資料增長所帶來的巨大壓力。隨著網路技術的發展,PC伺服器的“小型化”以及Linux系統的成熟,基於MPP架構的新一代資料庫技術成為各行業使用者的首選。電信行業作為國家重點行業,引領著IT技術的發展方向和潮流,在高併