GTC 2018

GTC 2018 沒有新的消費級顯卡發(fā)布,這個是一個令人失望的地方。對于有錢人來說,到不是問題。在硬件方面,Nvidia 基于V100的架構(gòu)上,發(fā)布了內(nèi)存加倍的Quadro GV100顯卡,新的Telsa V100. DGX-2 世界上計算能力最強的顯卡(2P flops, 512 GB HDM2, 399K$).

圖片發(fā)自簡書App
圖片發(fā)自簡書App

其他可圈可點的主要在軟件上。

在醫(yī)療方面 Clara - Medical Imaging Supercomputer.

琢磨來琢磨去覺得是Nvidia 在DGX workstation 上的software stack, 為了給傳統(tǒng)的醫(yī)療影像行業(yè)注入新的生命力。老黃用了一個超聲設(shè)備為例子:

  • 傳統(tǒng)的超聲設(shè)備。也就是已經(jīng)在醫(yī)院里面部署的舊的設(shè)備。
  • 數(shù)據(jù)傳輸?shù)絅vidia Clara醫(yī)學影像工作站
  • 自動心內(nèi)膜分割 (deep learning, semantic segmentation)
  • 射血分數(shù)計算(AutoEF)
  • 3D 心臟建模和3D繪制 (這個是如何搞得?2D 超聲掃描到3D? 還是至少有雙平面探頭?老黃大概也不懂超聲,沒有講明白。)

如果從software stack 來看的話,GPU server 提供硬件計算能力,GPU containers/VGPU 可以讓GPU server 在云端scale up, 如果數(shù)據(jù)的傳輸不再是瓶頸的話。Cuda 提供通用的高性能計算能力,可以用于傳統(tǒng)的醫(yī)學影像算法。cudnn和tensorrt一起提供AI的推理能力(比如用于semantic segmentation 和建模)。 OpenGL 和RTX 用于3D rendering。 讓超聲這個傳統(tǒng)的成像模式老樹發(fā)新芽。最后這些能力體現(xiàn)在AutoEF 等等自動測量,和通過3D 幫助醫(yī)生更好更快的做判斷。老黃是想給醫(yī)院已經(jīng)大量部署的儀器加點AI的調(diào)料,為醫(yī)生的日常工作提供價值(更快更好的診斷)。

感覺這種把數(shù)據(jù)采集和數(shù)據(jù)的處理分開的做法在商業(yè)上也可能是一個可行的模式:

  • 超聲設(shè)備的開發(fā)硬件較多,開發(fā)周期比較長。重點是信噪比高,基礎(chǔ)圖像質(zhì)量好。
  • GPU 工作站和軟件發(fā)展迅速。通過把數(shù)據(jù)采集和處理分離,可以在軟件端快速迭代。
  • 可以通過多個超聲設(shè)備共享GPU 工作站降低成本。
  • 商業(yè)模式需要逐漸從硬件設(shè)備(超聲儀器),轉(zhuǎn)向軟件和服務(wù)。通過GPU上的軟件升級和功能開發(fā)套利。
  • 如果網(wǎng)絡(luò)速度逐漸不是問題(比如5G的大量部署),GPU工作站可以放在云端,那么對公司而言,就是從云端提供服務(wù)的商業(yè)模式,前端超聲設(shè)備可以非常便宜的推廣到醫(yī)院,甚至可以不用在超聲設(shè)備上盈利。
  • 比較適合于不是傳統(tǒng)設(shè)備商的startup, 所以你可以看到老黃這個項目里面有推想科技,以色列的Zebra Medical, 或者加州的Baylabs這些做醫(yī)療AI的初創(chuàng)企業(yè)/軟件公司。
11Untitled.jpg
16Untitled.jpg
10Untitled.jpg
17Untitled.jpg

TensorRT 4.0

TensorRT3.0 說是支持 tensorflow, caffe 模型,其實仔細調(diào)研發(fā)現(xiàn)功能上還是有不少不完備的。希望TensorRT4.0能夠搞定這些問題。目前TensorRT4.0還不能下載,介紹如下:

TensorRT 4 now provides capabilities to accelerate speech recognition, neural machine translation and recommender systems. The native ONNX parser in TensorRT 4 provides an easy path to import models from frameworks such as PyTorch, Caffe2, MxNet, CNTK and Chainer.

Highlights include:

  • 45x higher throughput vs. CPU with new layers for Multilayer Perceptrons (MLP) and Recurrent Neural Networks (RNN)
  • 50x faster inference performance on V100 vs. CPU-only for ONNX models imported with ONNX parser in TensorRT
  • Support for NVIDIA DRIVE? Xavier - AI Computer for Autonomous Vehicles
  • 3x inference speedup for FP16 custom layers with APIs for running on Volta Tensor Cores

覺得特別有用的就是對ONNX的支持。也就是你可以隨便用自己喜歡的語言做模型的訓(xùn)練,然后用TensorRT做模型的部署。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容