1. 程式人生 > >對12306的看法(從知乎上轉來的)

對12306的看法(從知乎上轉來的)

12306首秀被罵的狗血噴頭後鐵道部找來IBM、阿里巴巴等大企業要解決方案,給出的條件是資金管夠但是問題得解決。幾大企業最後都拒絕了。12306開始自己嘗試解決問題。他們發現市面上可以買到的成套解決方案都不足以應付春運購票負載,所以只能自己改進已有的資料庫(注:其實是改用VMware SQLFire/GemFire,這裡我之前理解錯誤)。以前12306用的是小型機,發現效能嚴重不足,遂改用x86系統+linux平臺(原平臺為HP Superdome小型機,UNIX系統,Sybase ASE資料庫)。最後他們的核心繫統用了十幾個節點(現在應該是17節點)的多路Xeon E7(具體幾路待考),每個節點配1TB記憶體,資料庫全部在記憶體中執行。2013年春運,12306系統峰值負載11萬tps,與2012年淘寶雙11活動峰值負載相當,新的系統基本經受住了考驗。

補充:以上內容是我在2013年7月得知的資訊,彼時沒有任何公開來源提到過12306新系統的技術細節。甚至,當時局外人沒人知道12306已經在2012年開始做了技術改造。直到數日之前,鐵總首次向媒體公開了技術改造的詳情:分散式叢集記憶體資料技術引領12306技術革命。這篇文章給出的細節,與我之前看到的內容完全一致。由此我可以確信資訊來源是此次技術升級的核心人士。
另外,關於第三方合作對方給出的資訊是IBM、Oracle、Sybase全部不能滿足要求,主要是這些廠商的方案部署以後,要升級時不能做到不停機靈活擴充套件。也就是說,IBM沒有做到是他們技術不足“搞不定”。阿里巴巴參與了改造,負責了排隊系統。此外,雖然後端經受住了壓力,前端卻如大家所看到的那樣還是頻頻卡死。到底卡死的原因是前端水平太低還是訪問壓力太大,暫時沒有可靠的資訊供判斷。

淘寶的問題是其系統架構是分散度較高的,各個訂單之間關聯度不大;而12306每出一張票都要對全線路做資料更新(因為一條線路存在多個站點),因此係統負載相較淘寶來說集中很多,直接搬淘寶的方案也無法解決問題。淘寶的應用型別決定了阿里巴巴可以通過部署大量的伺服器來分散壓力,但12306就不行。其實他們的核心繫統的硬體成本不過數百萬,不是他們不想採購更多伺服器,而是買更多的伺服器也沒什麼用途。最後,在經過軟體層面的優化之後,12306的瓶頸其實是核心節點的CPU、記憶體效能。但是這個效能的提升不是朝夕的事情,而是受限於摩爾定律,基本上每兩年才能翻一倍多些。(這段話是我自己的分析,不過現在12306的後端資料庫系統應付現有需求已經夠用了)
補充:關於座位實時複用,我看到的資訊明確表明12306出票時,每出一張區間票都要實時調整該線路其他受影響區間段的餘票數量,且這是很大的壓力來源;另外,對方表示所使用的GemFire資料庫與簡單的memcache/redis資料緩衝不同,有著本質區別。
==========================
然後我說點對鐵路系統購票困難現象的看法:

一種商品只要出現供不應求現象,那麼結果只有兩種:大家排隊購買;出現黑市,變相提高商品的流通價格並抑制需求。

12306這個事情,就是標準的限價商品供不應求之後出現排隊與黑市現象的例子。因為供不應求,所以有了黃牛、搶票軟體與秒殺。如果供應充足,一個車次直到發車前都有一兩張餘票,那麼黃牛、搶票就毫無存在價值,旅客也用不著守在電腦前和其他人比拼手速和網速以及電腦效能網路效能了。

現在供應不足的前提下,12306就算把系統做的效能再高,也只是會加快熱門車次票務秒殺的速度而已——而這更會刺激搶票軟體,大家為了在更短的時間裡成功搶到佇列名額就會不斷提升自己的搶票效能。打個比方說就是一個店門前排隊,消費者為了增加買到商品的概率去僱人代排,每個消費者都僱了好多人,造成店門口的通道擁擠不堪。為了減緩擁堵,商家不斷拓寬通道,但每次一拓寬消費者們就會增加僱傭的排隊勞力把新增的通道空間佔滿,形成惡性迴圈。這樣下去,只要還存在供不應求的現象,這種迴圈就不會有終止的時候。也就是說,12306的問題主要不是出在網站本身。

那麼怎樣解決供應不足的問題?這麼多年來鐵路不斷升級運力修建新線,已經建成全球最龐大的鐵路運輸系統,可是到了春運還是隻能勉強應付。從這個角度來說鐵路部門在供應不足的問題上也不該承擔太大責任,他們已經做得很不錯了。

那麼問題的根源就出在不斷增加的需求上了。為什麼我國鐵路系統需要承擔如此龐大的客運流量需求?很顯然,是因為全國範圍的人口流動。大量務工上學人員過節要返鄉,節後回駐地,這個剛性需求是合理的。可是為什麼他們必須要到外地去打工上學?為什麼數以億計的人員要遠離家鄉去謀生求學?

最後我們會發現,區域發展不平衡才是罪魁禍首。正因為多少人在家鄉無法得到足夠的機會與資源,他們必須到發達地區奮鬥和實現自己的價值。只要這種不平衡現象還在繼續,每年春節前後就不可避免地出現大批人員全國範圍流動的情況,就不可避免地出現運輸能力不足的尷尬。改進12306也好,增加鐵路網投資也好,最終都只是治標不治本。如果這個社會不去直面根本問題,那麼這些表象的癥結永無解開的時候。

說起來,有幾個人願意背井離鄉呢?
=============================================
然後這個問題爭了幾天,我實在忍不住要吐槽一下了:

12306這個事情,網上有多少網友從一開始就獻計獻策了,也有不少網友提供了很不錯的建議。但不得不說,很多網友在提建議時完全就是一種居高臨下、自以為是的態度,上來就先認定需求簡單可以輕鬆應付,隨便有點經驗的工程師就能搞定,12306出問題全怪體制太爛,國企效率低下,一幫人光拿錢不做事,技術水平太低……

淘寶2013年雙11活動,峰值流量是一秒鐘完成1.3萬筆訂單。12306在2014年1月6日全天網路出票400萬張。看起來雙11流量完爆12306是吧?等等!別忘了12306這400萬張票可不是全天悠悠閒閒平均地賣出去的,而是分成10個時段集中被搶走的。每個時段開始放票後數分鐘之內大部分票就已經被搶光了。以每個時段40萬票,峰值持續三分鐘估算,高峰期一分鐘出票在10萬張以上毫不誇張。誠然,一分鐘10萬訂單還比不上淘寶2013雙11,但別忘了一年以前阿里巴巴也只是達到了一分鐘15萬訂單的水平而已(並且在高峰期一樣卡爆)。而且一分鐘10萬出票還滿足不了需求的,以旅客購票的熱情來看,達到一分鐘50萬票都不一定能讓所有旅客滿意。

淘寶在2012年雙11時已經是業界頂尖水平了,其軟硬體技術皆為自主研發,既便如此面對一分鐘十幾萬的訂單量都會卡死。請問,覺得12306“需求簡單,問題可以輕鬆解決”的,是不是水平已經高到了阿里巴巴都要請你們去領導整個技術團隊的級別呢?是不是你們的方案可以輕鬆應付每分鐘數十萬筆訂單,達到全球一流水平了?

淘寶面臨的需求是業界從未有過的,所以淘寶的路很艱難。12306面臨的需求是其他人遇到過的麼?全世界哪個國家、哪種客運票務系統敢說自己的負載達到12306三分之一的水平?面對空前龐大的壓力,諸位“技術高手”只是憑著自己一點程式設計師的經驗,在電腦前一個人思考上一會兒就給出個“簡單、實用、省錢、輕鬆應付”的解決方案——你們知不知道“自大”這兩個字怎麼寫啊?

作為局外人,本來就難以瞭解鐵路售票系統內部的業務邏輯。想出建議可以,那麼是不是先收集些資訊,瞭解下背景?是不是先拉出一份需求清單來,把客戶的想法搞明白搞清楚了,然後再考慮技術實現?能不能不要上來就想著技術上怎麼方便怎麼做,把客戶需求隨意地簡化?好多人提的方案在票務供應不足的情況下直接就超售了,難道你要讓旅客前一分鐘還為訂到票高興,下一分鐘對著“您的票被取消”的提示破口大罵麼?或者訂票延遲確認——知不知道旅客看到選擇的車次沒能買到票後會做什麼?馬上去看其他車次有沒有票啊!你延遲確認幾分鐘,然後對排隊的賬戶做抽籤,多少旅客會覺得自己被耽誤了啊!旅客的要求就是速度越快越好,最好是下訂單後一秒鐘出結果才安心哩。這還僅僅是簡單想一下就能知道的問題,局外人不瞭解或不能輕易想到的問題又有多少?諸位高談闊論時,有沒有虛心地去找找內部人士瞭解或者搜尋類似的票務系統的研究論文?真覺得自己的頭腦聰明絕頂,連背景調查都不做就可以輕鬆把握所有細節?還有,你們想出來的方案做沒做過實驗啊?考慮沒考慮過硬體適配性啊?你們瞭解現在市面上能買到的硬體系統,什麼樣級別的能滿足可靠性、效能和可擴充套件性、可維護性的需求麼?你們在多路伺服器平臺上驗證過你們的分散式資料庫構想麼?哦原來你們什麼都沒做過,怕是連多節點叢集互聯該用什麼連線方式都不知道,你們拍下腦瓜,一句“那些問題都好解決”就完事兒了?就算你們自己沒做過,找找類似的案例會累死麼?研究下別人做過的經驗就不夠高貴冷豔麼?就貶低自己技術水平了麼?連類似的案例研究都沒有,隨口就是別人做得到我做得到,真覺得自己寫過幾行程式碼就多麼偉大了麼?

還有一些人,看說IBM沒做就一口認定是12306故意排擠IBM,認定IBM解決這問題肯定沒壓力。好嘛,IBM什麼時候做過如此規模的票務系統了?你細節什麼都不知就預設結論了?為啥淘寶當年沒選擇IBM作為方案提供商而是自主研發?IBM的大資料業務主要集中在金融領域,這不代表它在其他領域就樣樣精通好不好?它能拿出的方案無非是Power7小型機平臺,Power7在資料庫效能上又比Xeon E7強多點?然後Power7系統賣多少錢瞭解麼?後續維護難度多大瞭解麼?把適合銀行金融行業的平臺放到12306來真的合適麼?說起來,不就是因為“12306”和“IBM”這倆名字放一起,諸位內心裡首先就給前者打了負分對後者仰視麼?要是把“12306”換成“nasdaq”,那結論就又是一回事兒了——哦正好nasdaq沒用IBM方案,可見nasdaq是排擠IBM內部人賺黑心錢是吧?不過2013年工商銀行系統升級故障,應該是和方案提供商IBM無關的,肯定是國企的體制問題無誤!

評價一個事物,首先不是瞭解背景、研究問題產生的原因,首先是看被評價者處於什麼立場,打著什麼標籤。如果是“敵對陣營”那就毫不猶豫地踩上一腳再說話,接下來就算研究也只研究“它的錯誤在哪兒”,不考慮“它也有對的可能性”。在12306這個問題上就是:12306是國企,是鐵總下屬機構,所以它出了問題一定是自身原因。票務系統做不好一定是鐵路方面不懂技術,把該用來請大企業做方案的錢自己貪掉了,一定不可能是大企業都沒信心解決這問題。旅客普遍使用搶票軟體也是12306的責任,不是供應不足的原因……

最後呢?12306還是做到了全球最強的客運票務系統。一貫被認為是因循守舊的國企,在選擇技術方案時放棄沿用多年的小型機/UNIX平臺去擁抱業界還是新鮮事物的基於x86/linux的大規模分佈記憶體資料庫系統,承受住了堪比2012年淘寶雙11的壓力。在這個領域,12306可以自豪地說自己是做的最好的案例。它還在卡,還是偶爾崩潰,頁面還是難看,可是這些遲早會改進。這個過程中也還是會有冷嘲熱諷,還是會有所謂的大牛指點江山,但最終解決春運高峰期一天數百萬張秒殺售票的,還是12306自己。

所以,走自己的路,讓別人去說吧。