深度學習GPU工作站配置參考

CPU要求:在深度學習任務中,CPU并不負責主要任務,單顯卡計算時只有一個核心達到100%負荷,所以CPU的核心數(shù)量和顯卡數(shù)量一致即可,太多沒有必要,但是處理PCIE的帶寬要到40。

主板要求:需要支持X99架構,支持PCIe3.0,還要支持4通道DDR4內存架構。如果要搞四顯卡并行,PCIE帶寬支持要達到40,并且支持4-Way NVIDA SLI技術。

內存要求:達到顯存的二倍即可,當然有錢的話越大越好。鑒于相對GPU和CPU而言內存所需要的資金投入比較少,建議至少配備32G,總投入大約1500,預算充裕的話,可以直接上64G。由于內存的擴展非常便捷,完全可以先使用32G以后根據(jù)情況考慮是否擴展。當然,前提是,你知道要選擇的都是DDR4的內存。

電源要求:一個顯卡的功率接近300W,四顯卡建議電源在1500W以上,為了以后擴展,選擇了1600W的電源。電源可以根據(jù)GPU和CPU功率來大致算一下,比如i7-6800k的功率大概是150W,GTX1080公版大概是180-200W,如果是單顯卡的話,一個800W的電源就足夠了,當然如果以后有顯卡擴展的需求,你就需要支持更大功率的電源了。比如你要搞四個GPU集成,你可能就需要1500W以上的電源了。

機箱散熱:因為各種部件相當龐大,需要有良好散熱功能的大機箱,選擇了Tt Thermaltake Core V51機箱,標配3個12cm風扇。未來如果需要還可以加裝水冷設備。機箱的空間最好是大一些,畢竟這一堆高性能的東西,要保證足夠好的散熱,當然,有條件還是上水冷吧,那么多錢都花了。

硬盤要求:最好上SSD。大硬盤也是需要的。硬盤還是主流的SSD+HDD配置,SSD是必要的,程序啟動和響應都的需求很大,大文件預處理也快很多。如果只用HDD,很有可能會讓你懷疑人生。但是,對于深度學習來說,當你的輸入維數(shù)很高,不能充分壓縮數(shù)據(jù)時,這才是SSD必需的主要原因。

顯卡:基于CUDA計算(CUDA 是NVIDIA開發(fā)的GPU并行計算環(huán)境),所以一般只推薦NVIDIA 系列的。在英偉達產(chǎn)品系列中,有消費領域的GeForce系列,有專業(yè)繪圖領域的Quadro系列,有高性能計算領域的Tesla系列。太高的精度對于深度學習的錯誤率是沒有提升的,而且大部分的環(huán)境框架都只支持單精度,所以雙精度浮點計算是不必要,Tesla系列沒必要。從顯卡效能的指標看,CUDA核心數(shù)要多,GPU頻率要快,顯存要大,帶寬要高。

TFLOPS(teraFLOPS FLoating-point Operations Per Second每秒浮點運算次數(shù))
VRAM(顯存)
CUDA Cores
目前英偉達產(chǎn)品線主要 GPU 的性能對比

每個 GPU 的 RAM 或內存帶寬等信息都展示在圖表中。注意 Titan XP 和 GTX 1080 Ti 盡管價格相差非常多,但它們的性能卻非常相近。

2017年底推出的Titan V參數(shù)對比

2017年底推出了一款Titan V,性能也是爆炸,不過價格也就水漲船高了。


Titan V

參數(shù)

  • 現(xiàn)存(VRAM):12GB
    內存帶寬:653GB/s
    處理器:5120個CUDA核心@1200MHz
    價格:22999元

Titan V成為新旗艦,性能較XP有了提升,完整的GV100核心,峰值浮點性能高達110TFlops,相當于Titan XP 12Tflops的9倍,同時CUDA核心也向頂配的Tesla V100看齊,擁有5120個。顯存更是使用了12GB的1.7Gbps HBM2,帶寬達到653GB/sec,但價格同時水漲船高,一般人消費不起。


Titan XP

參數(shù):

  • 顯存(VRAM):12 GB
  • 內存帶寬:547.7 GB/s
  • 處理器:3840 個 CUDA 核心 @ 1480 MHz(約 5.49 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:9700 元

Titan XP 曾是目前英偉達消費級顯卡的旗艦產(chǎn)品,正如性能指標所述,12GB 的內存宣示著它并不是為大多數(shù)人準備的,只有當你知道為什么需要它的時候,它才會位列推薦列表。

一塊 Titan XP 的價格可以讓你買到兩塊 GTX 1080,而那意味著強大的算力和 16GB 的顯存。


GTX 1080 Ti

參數(shù):

  • 顯存(VRAM):11 GB
  • 內存帶寬:484 GB/s
  • 處理器:3584 個 CUDA 核心 @ 1582 MHz(約 5.67 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:4600 元

這塊顯卡是一個完美的高端選項,擁有大容量顯存和高吞吐量,物有所值。

如果資金允許,它是一個很好的選擇。GTX 1080 Ti 可以讓你完成計算機視覺任務,并在 Kaggle 競賽中保持強勢。


GTX 1080

參數(shù):

  • 顯存(VRAM):8 GB
  • 內存帶寬:320 GB/s
  • 處理器:2560 個 CUDA 核心 @ 1733 MHz(約 4.44 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:3600 元

作為目前英偉達產(chǎn)品線里的中高端顯卡,GTX 1080 的官方價格從 1080 Ti 的 700 美元降到了 550 美元。8 GB 的內存對于計算機視覺任務來說夠用了。大多數(shù) Kaggle 上的人都在使用這款顯卡。


GTX 1070 Ti

參數(shù):

  • 顯存(VRAM):8 GB
  • 內存帶寬:256 GB/s
  • 處理器:2432 個 CUDA 核心 @ 1683 MHz(約 4.09 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:3000 元

2017年11 月 2 日推出的 GTX 1070 Ti 是英偉達產(chǎn)品線上最新的顯卡。如果你覺得 GTX 1080 超出了預算,1070 Ti 可以為你提供同樣大的 8 GB 顯存,以及大約 80% 的性能,價格也打了八折,看起來不錯。


GTX 1070

參數(shù):

  • 顯存(VRAM):8 GB
  • 內存帶寬:256 GB/s
  • 處理器:1920 個 CUDA 核心 @ 1683 MHz(約 3.23 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:2700 元

這款 GPU 主要用于虛擬貨幣挖礦。它的顯存配得上這個價位,就是速度有些慢。如果你能用較便宜的價格買到一兩個二手的,那就下手吧。


GTX 1060(6 GB 版本)

參數(shù):

  • 顯存(VRAM):6 GB
  • 內存帶寬:216 GB/s
  • 處理器:1280 個 CUDA 核心 @ 1708 MHz(約 2.19 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:2000 元

相對來說比較便宜,但是 6 GB 顯存對于深度學習任務可能不夠用。如果你要做計算機視覺,那么這可能是最低配置。如果做 NLP 和分類數(shù)據(jù)模型,這款還可以。


GTX 1050 Ti

參數(shù):

  • 顯存(VRAM):4 GB
  • 內存帶寬:112 GB/s
  • 處理器:768 個 CUDA 核心 @ 1392 MHz(約 1.07 億 CUDA 核心頻率)
  • 英偉達官網(wǎng)價格:1060 元

這是一款入門級 GPU。如果你不確定是否要做深度學習,那么選擇這款不用花費太多錢就可以體驗一下。


值得注意的問題

上代旗艦 Titan X Pascal 曾是英偉達最好的消費級 GPU 產(chǎn)品,而 GTX 1080 Ti 的出現(xiàn)淘汰了 Titan X Pascal,前者與后者有同樣的參數(shù),但 1080 Ti 便宜了 40%。

英偉達還擁有一個面向專業(yè)市場的 Tesla GPU 產(chǎn)品線,其中包括 K40、K80、P100 和其他型號。雖然你或許很少能夠接觸到,但你可能已經(jīng)通過 Amazon Web Services、谷歌云平臺或其他云供應商在使用這些 GPU 了。

有文章中對 GTX 1080 Ti 和 K40 進行了一些基準測試。1080 的速度是 K40 的 5 倍,是 K80 的 2.5 倍。K40 有 12 GB 顯存,K80 有 24 GB 的顯存。

理論上,P100 和 GTX 1080 Ti 應該性能差不多。但是,之前的對比(https://www.reddit.com/r/NiceHash/comments/77uxe0/gtx_1080ti_vs_nvidia_tesla_p100_xpost_from/)發(fā)現(xiàn) P100 在每個基準中都比較落后。

K40 售價超過了 13,000元,K80 售價超過 20,000 元,P100 售價約 30,000 元。它們的市場正被英偉達自家的桌面級 GPU 無情吞噬。顯然,按照現(xiàn)在的情況,我不推薦你去購買它們。

在挑選的時候要注意的幾個參數(shù)是處理器核心(core)、工作頻率、顯存位寬、單卡or雙卡。我覺得對深度學習計算而言處理器核心數(shù)和顯存大小比較重要。這些參數(shù)越多越高是好,但是程序相應的也要寫好,如果無法讓所有的core都工作,資源就被浪費了。

所以綜合來說,個人推薦 2 路 GPU,直接用上 2 塊 GTX 1080Ti。

選擇多 GPU 有兩個理由:需要并行訓練多個模型,或者對單個模型進行分布式訓練。并行訓練多個模型是一種測試不同原型和超參數(shù)的技術,可縮短反饋周期,你可以同時進行多項嘗試。

分布式訓練,或在多個顯卡上訓練單個模型的效率較低,但這種方式確實越來越受人們的歡迎?,F(xiàn)在,使用 TensorFlow、Keras(通過 Horovod)、CNTK 和 PyTorch 可以讓我們輕易地做到分布式訓練。這些分布式訓練庫幾乎都可以隨 GPU 數(shù)量達成線性的性能提升。例如,使用兩個 GPU 可以獲得 1.8 倍的訓練速度。

PCIe 通道:使用多顯卡時需要注意,必須具備將數(shù)據(jù)饋送到顯卡的能力。為此,每一個 GPU 必須有 16 個 PCIe 通道用于數(shù)據(jù)傳輸。Tim Dettmers 指出,使用兩個有 8 個 PCIe 通道的 GPU,性能應該僅降低「0—10%」。

對于單個 GPU 而言,任何桌面級處理器和芯片組如 Intel i5 7500 和 Asus TUF Z270 需要使用 16 個通道。

然而,對于雙 GPU,你可以使用 8x/8x 通道,或者使用一個處理器和支持 32PCIe 通道的主板。32 個通道超出了桌面級 CPU 的處理能力。使用 Intel Xeon 組合 MSI—X99A SLI PLUS 是可行的方案。

對于 3 個或 4 個 GPU,每個 GPU 可使用 8x 通道,組合支持 24 到 32 個 PCIe 通道的 Xeon。

如果需要使用 3 到 4 個有 16 個 PCIe 通道的 GPU,你得有一個怪獸級處理器。例如 AMD ThreadRipper(64 個通道)和相應的主板。

總之,GPU 越多,需要越快的處理器,還需要有更快的數(shù)據(jù)讀取能力的硬盤。

選好 GPU 后,其他配置有多少錢就買多少菜。

例子(2017):

x299配置

2路GPU配置單
四路GPU配置單

1080ti換成Titan也沒問題。

最后我綜合調研情況和實驗室需求及經(jīng)費,選擇了機架式的GPU服務器,選擇的配置單如下:

機架式四路GPU工作站配置

參考資料:

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容