1. 程式人生 > >wenyusuran的專欄

wenyusuran的專欄

賽題詳情

在出行問題上,中國市場人數多、人口密度大,總體的出行頻率遠高於其他國家,這種情況在大城市尤為明顯。然而,截至目前中國擁有汽車的人口只有不到10%,這意味著在中國人們的出行更加依賴於計程車、公共交通等市場提供的服務。另一方面,滴滴出行佔領了國內絕大部分的網路呼叫出行市場,面對著巨大的資料量以及與日俱增的資料處理需求。截至目前,滴滴出行平臺日均需處理1100萬訂單,需要分析的資料量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的資料,我們需要通過不斷升級、完善與創新背後的雲端計算與大資料技術,從而保證資料分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在未來某個時間段的出行需求量及需求滿足量。調研發現,同一地區不同時間段的訂單密度是不一樣的,例如大型居住區在早高峰時段的出行需求比較旺盛,而商務區則在晚高峰時段的出行需求比較旺盛。如果能預測到在未來的一段時間內某些地區的出行需求量比較大,就可以提前對營運車輛提供一些引導,指向性地提高部分地區的運力,從而提升乘客的整體出行體驗。
檔名稱檔案格式下載
training_set.tar.gz.tar.gz(600MB)下載資料
test_set.tar.gz.tar.gz下載資料

定義及評估標準

1. 問題定義
乘客開啟滴滴出行app,輸入出發地和目的地並點選“呼叫”後就完成一次發單(request),有司機接單後就完成一次應答(answer)。
將一個城市劃分為n個互不重疊的正方形區域D={d1,d2,⋯,dn },將每一天的24小時劃分為144個10分鐘長的時間片t1,t2,⋯,t144
對於區域di,在時間片tj,有rij個乘客發單,有aij個司機成功應答了aij次發單。
對於區域di,在時間片tj,定義需求demandij=rij,供給supplyij
=aij,則有供需缺口gapijgapij = rij - aij
給定每個區域在時間片tj,tj-1...的各項資料,預測gapi,j+1, ∀di∈D。
2. 評價指標
n個區域和q個時間片,區域di在時間片tj的供需缺口為gapij,選手預測值為sij
MAE作為最終的評價指標:MAE越小越好。
3. 選手提交結果
選手提交的資料格式為:區域ID,時間片,預測值。其示例如下:
其中每個欄位的具體描述如下:
資料名稱資料型別示例
區域IDstring1,2,3,4 (與區域對映ID一致)
時間片string2016-01-23-1(即2016年1月23日第1個時間片,時間片是將每天的時間按10分鐘間隔劃分到1-144個片中)
預測值double6.0

資料形式

訓練集中給出M市2016年連續三週的資料資訊,需預測M市第四周和第五週中某五天的某些時間段的供需。測試集中給出了每個需預測的時間片的前半小時的資料資訊,具體需預測的時間片見說明檔案(說明檔案含在資料集下載包內)。 具體資料如下,其中訂單資訊表、天氣資訊表和POI資訊表為資料庫中直接的表資訊,而區域定義表、擁堵資訊表是由資料庫中其他表衍生的資訊。訂單資訊表
欄位型別含義示例
order_idstring訂單ID70fc7c2bd2caf386bb50f8fd5dfef0cf
driver_idstring司機ID56018323b921dd2c5444f98fb45509de
passenger_idstring使用者ID238de35f44bbe8a67bdea86a5b0f4719
start_district_hashstring出發地區域雜湊值d4ec2125aff74eded207d2d915ef682f
dest_district_hashstring目的地區域雜湊值929ec6c160e6f52c20a4217c7978f681
Pricedouble價格37.5
Timestring訂單時間戳2016-01-15 00:35:11
訂單資訊表主要覆蓋了一張訂單的基本資訊,包括這張訂單的乘客,以及接單的司機(driver_id =NULL表示driver_id為空,即這個訂單沒有司機應答),及出發地,目的地,價格和時間。區域定義表
欄位型別含義示例
district_hashstring區域雜湊值90c5a34f06ac86aee0fd70e2adce7d8a
district_idstring區域對映ID1
區域定義表主要表示比賽評測區域的資訊,選手需選擇區域定義表中的區域來做預測,並在最終提交的結果中需將區域雜湊值對映為其相應的ID。POI資訊表
欄位型別含義示例
district_hashstring區域雜湊值74c1c25f4b283fa74a5514307b0d0278
poi_classstringPOI類目及其數量1#1:41 2#1:22 2#2:32
POI資訊表主要表徵區域的地域屬性,由其中所含的不同類別設施的數量表示,如2#1:22表示在此區域中含有類別為2#1的設施22個,2#1表示一級類別為2,二級類別為1,例如休閒娛樂#劇院,購物#家電數碼,運動健身#其他等等。不同類別及其數量以\t分割。擁堵資訊表
欄位型別含義示例
district_hashstring區域雜湊值1ecbb52d73c522f184a6fc53128b1ea1
tj_levelstring不同擁堵程度的路段數1:231 2:33 3:13 4:10
tj_timestring時間戳2016-01-15 00:35:11
擁堵資訊表主要表示區域中道路的總體擁堵情況,其中主要包括不同時間段不同區域的不同擁堵情況的路段數,其中的擁堵級別是越大越擁堵。天氣資訊表
欄位型別含義示例
Timestring時間戳2016-01-15 00:35:11
Weatherint天氣7
temperaturedouble溫度-9
PM2.5doublepm2566
天氣資訊表主要表示整個城市的每天間隔10分鐘段的天氣情況。其中的weather欄位表示天氣的實時描述資訊,而溫度以攝氏溫度表示,PM2.5為實時空氣汙染指數。