1. 程式人生 > >組裝一臺適合深度學習/機器學習的工作站

組裝一臺適合深度學習/機器學習的工作站

構建機器學習/深度學習工作站可能是困難和嚇人的。那裡有太多的選擇。你會不會去NVidia developer box花15000美元?或者你能以更具成本效益的方式建立更好的東西。哪種硬體適合需求?需要多少RAM?問題是無止境的,可能沒有正確或錯誤的答案。

建立工作站的優缺點有哪些?

我相信你們中的一些人會問,為什麼在當今世界建立一個怪物工作站?為什麼不在雲上租一臺機器?真正的答案取決於你的要求。就我們而言,這是讓團隊大規模進行機器學習的最好方法。以下是為什麼構建工作站對我們最有利的原因:

有效利用資源 - 到目前為止,曾經使用膝上型電腦的人有16 GB的RAM。雖然它不壞,但它不是使用資源的最有效的方法。首先,如果資料集需要更高的記憶體,沒辦法,只能租一個更大的機器。其次,並不是每個人都在使用所有的RAM,而是需要高RAM。通過建立工作站,我們可以集中相同的資源,但是如果需要的話,人們可以訪問更大的機器。如果要執行平行計算,則類似的引數適用於核心數量。

使用行動式計算機輕鬆旅行 - 很難找到適合資料科學的機器(具有16 GB RAM的i5 / i7四核處理器),這些機器既輕便又不太貴。由於資源的限制,被迫購買笨重的膝上型電腦。在工作站中,人們可以購買更便宜更輕便的膝上型電腦,並在計算需要時連線到工作站。

實現大規模的深度學習 - 即使我們花費更多的時間在膝上型電腦上工作,也無法在膝上型電腦上獲得類似的GPU功能。移動到工作站使我們能夠訂購NVidia Titan X 2016,這是當今世界上最快的GPU之一!沒有辦法在膝上型電腦上實現這一點,基於雲的GPU本來就太貴了。

大資料傳輸到雲的侷限性 - 雖然獲得雲端計算能力變得便宜,但資料傳輸的麻煩仍然存在。在我們的網際網路計劃中,上傳速度上限為2 Mpbs。所以,如果你有大資料集 - 把它們上傳到雲端可能會花費數天時間。即使從服務提供商獲得未中斷的速度,上傳10 GB資料集也需要12個小時。

很明顯,生活中沒有任何東西可以是免費的。雖然有這些優勢,但也有一些缺點。以下是必須做出的妥協:

投資購買機器 - 由於必須購買機器,不得不花費全部的金額。從長遠來看,這是一個更好的決定,因為雲上的機器將損失更多的成本。在短期內,這基本上影響了現金流。

機器越來越危險 - 雲端計算機的優點之一就是您可以隨時升級。您可以在沒有太多挑戰的情況下更換機器的完整硬體。另一方面,工作站硬體不能輕易替換。所以,幾年之後,這個令人印象深刻的怪物就像是坐在我們辦公室一角的一臺舊笨重的機器!

硬體故障風險 - 使用基於雲的機器,硬體故障不會對您造成太大影響。您的服務提供商通常會為您處理。在這種情況下,現在擁有硬體損壞的風險。

一旦我們決定建立一個工作站,還需要做出更多的決定。這裡推薦博主認為幾個有用的連結,如下:

《如何DIY自己的深度學習工作站》原創 2016-11-23  DataCastle資料城堡 http://mp.weixin.qq.com/s?__biz=MzIwMTgwNjgyOQ==&mid=2247484617&idx=1&sn=ed3ee2b676c10da6bcd5a4ed2d6c26ce

《如何配置一臺適用於深度學習的工作站?》知乎 https://www.zhihu.com/question/33996159/answer/143971704

《碼農的高薪之路,如何組裝一臺適合深度學習的工作站?》subtitle SherpaMan中國 05-19 18:40 https://c.m.163.com/news/a/CKQP405405119VQF.html?spss=newsapp&spsw=1
《初學者深度學習工作站配置》
原創 2017年03月17日 12:01:24 CSDN http://blog.csdn.net/Thriller_wgc/article/details/62885400

《Building a machine learning / deep learning workstation for under $5000》analytics vidhya https://www.analyticsvidhya.com/blog/2016/11/building-a-machine-learning-deep-learning-workstation-for-under-5000/

感謝上述博文幫助。

準備好工作站,就可以開始機器學習或大資料之旅啦……

離線包括:hadoop、hive、flume、azkban、hbase
實時包括:storm、kafka、redis
記憶體計算包括:scala程式設計、spark原理、spark原始碼解析、機器學習