wenyusuran的專欄
阿新 • • 發佈:2018-12-22
賽題詳情
在出行問題上,中國市場人數多、人口密度大,總體的出行頻率遠高於其他國家,這種情況在大城市尤為明顯。然而,截至目前中國擁有汽車的人口只有不到10%,這意味著在中國人們的出行更加依賴於計程車、公共交通等市場提供的服務。另一方面,滴滴出行佔領了國內絕大部分的網路呼叫出行市場,面對著巨大的資料量以及與日俱增的資料處理需求。截至目前,滴滴出行平臺日均需處理1100萬訂單,需要分析的資料量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的資料,我們需要通過不斷升級、完善與創新背後的雲端計算與大資料技術,從而保證資料分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在未來某個時間段的出行需求量及需求滿足量。調研發現,同一地區不同時間段的訂單密度是不一樣的,例如大型居住區在早高峰時段的出行需求比較旺盛,而商務區則在晚高峰時段的出行需求比較旺盛。如果能預測到在未來的一段時間內某些地區的出行需求量比較大,就可以提前對營運車輛提供一些引導,指向性地提高部分地區的運力,從而提升乘客的整體出行體驗。檔名稱 | 檔案格式 | 下載 |
---|---|---|
training_set.tar.gz | .tar.gz(600MB) | 下載資料 |
test_set.tar.gz | .tar.gz | 下載資料 |
定義及評估標準
- 1. 問題定義
- 乘客開啟滴滴出行app,輸入出發地和目的地並點選“呼叫”後就完成一次發單(request),有司機接單後就完成一次應答(answer)。
將一個城市劃分為n個互不重疊的正方形區域D={d1,d2,⋯,dn },將每一天的24小時劃分為144個10分鐘長的時間片t1,t2,⋯,t144。
對於區域di,在時間片tj,有rij個乘客發單,有aij個司機成功應答了aij次發單。
對於區域di,在時間片tj,定義需求demandij=rij,供給supplyij
給定每個區域在時間片tj,tj-1...的各項資料,預測gapi,j+1, ∀di∈D。 - 2. 評價指標
- 對n個區域和q個時間片,區域di在時間片tj的供需缺口為gapij,選手預測值為sij,
以MAE作為最終的評價指標:MAE越小越好。 - 3. 選手提交結果
- 選手提交的資料格式為:區域ID,時間片,預測值。其示例如下:
資料名稱 | 資料型別 | 示例 |
---|---|---|
區域ID | string | 1,2,3,4 (與區域對映ID一致) |
時間片 | string | 2016-01-23-1(即2016年1月23日第1個時間片,時間片是將每天的時間按10分鐘間隔劃分到1-144個片中) |
預測值 | double | 6.0 |
資料形式
訓練集中給出M市2016年連續三週的資料資訊,需預測M市第四周和第五週中某五天的某些時間段的供需。測試集中給出了每個需預測的時間片的前半小時的資料資訊,具體需預測的時間片見說明檔案(說明檔案含在資料集下載包內)。 具體資料如下,其中訂單資訊表、天氣資訊表和POI資訊表為資料庫中直接的表資訊,而區域定義表、擁堵資訊表是由資料庫中其他表衍生的資訊。訂單資訊表欄位 | 型別 | 含義 | 示例 |
---|---|---|---|
order_id | string | 訂單ID | 70fc7c2bd2caf386bb50f8fd5dfef0cf |
driver_id | string | 司機ID | 56018323b921dd2c5444f98fb45509de |
passenger_id | string | 使用者ID | 238de35f44bbe8a67bdea86a5b0f4719 |
start_district_hash | string | 出發地區域雜湊值 | d4ec2125aff74eded207d2d915ef682f |
dest_district_hash | string | 目的地區域雜湊值 | 929ec6c160e6f52c20a4217c7978f681 |
Price | double | 價格 | 37.5 |
Time | string | 訂單時間戳 | 2016-01-15 00:35:11 |
欄位 | 型別 | 含義 | 示例 |
---|---|---|---|
district_hash | string | 區域雜湊值 | 90c5a34f06ac86aee0fd70e2adce7d8a |
district_id | string | 區域對映ID | 1 |
欄位 | 型別 | 含義 | 示例 |
---|---|---|---|
district_hash | string | 區域雜湊值 | 74c1c25f4b283fa74a5514307b0d0278 |
poi_class | string | POI類目及其數量 | 1#1:41 2#1:22 2#2:32 |
欄位 | 型別 | 含義 | 示例 |
---|---|---|---|
district_hash | string | 區域雜湊值 | 1ecbb52d73c522f184a6fc53128b1ea1 |
tj_level | string | 不同擁堵程度的路段數 | 1:231 2:33 3:13 4:10 |
tj_time | string | 時間戳 | 2016-01-15 00:35:11 |
欄位 | 型別 | 含義 | 示例 |
---|---|---|---|
Time | string | 時間戳 | 2016-01-15 00:35:11 |
Weather | int | 天氣 | 7 |
temperature | double | 溫度 | -9 |
PM2.5 | double | pm25 | 66 |