人工智能芯片報告

為什么需要AI芯片

2010年以來大數(shù)據(jù)發(fā)展,傳統(tǒng)計算機架構(gòu)無法支撐深度學習的大規(guī)模計算需求。

  • 傳統(tǒng)的馮·諾依曼結(jié)構(gòu)中,CPU 每執(zhí)行一條指令都需要從存儲器中讀取數(shù)據(jù),根據(jù)指令對數(shù)據(jù)進行相應(yīng)的操作;CPU 的主要職責并不只是數(shù)據(jù)運算,還需要執(zhí)行存儲讀取、指令分析、分支跳轉(zhuǎn)等命令
  • CPU的頻率、內(nèi)存帶寬條件,限制了處理器的性能,而深度學習算法需要海量數(shù)據(jù)處理
  • 人工智能芯片目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計算架構(gòu),加速硬件計算能力,主要以 3 種類型的芯片為代表,即 GPU、FPGA、ASIC,
    但CPU依舊發(fā)揮著不可替代的作用;另一種是顛覆經(jīng)典的馮·諾依曼計算架構(gòu),采用類腦神經(jīng)結(jié)構(gòu)來提升計算能力,以 IBM TrueNorth 芯片為代表

AI芯片定義

AI(Artificial Intelligence)Chip
廣義上:能運行人工智能算法的芯片
通常指:針對人工智能算法做特殊加速設(shè)計的芯片,以深度學習算法為主


image.png

AI芯片分類

image.png

AI芯片發(fā)展經(jīng)歷

image.png

近幾年國內(nèi)也是百花齊放,后續(xù)可以在補充

傳統(tǒng)CPU技術(shù)及其局限性

  • CPU主要由由控制器和運算器組成
    ALU(arithmetic logic unit)用來數(shù)據(jù)計算,其他模塊用來保證指令有序執(zhí)行
    CPU主頻(單位時間內(nèi)執(zhí)行指令的條數(shù))提高可提升速度
  • 深度學習不需要太多程序指令需要海量數(shù)據(jù),受限于功耗,主頻無法無限制提升以滿足需要


    image.png

并行加速計算的GPU

  • GPU 圖像處理器,設(shè)計初衷是為了應(yīng)對圖像處理中的大規(guī)模并行計算
  • 對比CPU結(jié)構(gòu):CPU大部分面積是控制器和寄存器,GPU有更多ALU
  • GPUGPU(general purpose gpu,通用計算圖形處理器)
    image.png

    GPU發(fā)展
  • 第一代(1999年以前):部分功能從CPU分離,實現(xiàn)硬件加速,對3D圖像加速,不具備軟件編程特性
  • 第二代(-2005年):硬件加速和有限編程,將T&L(transform and lighting)等工程從CPU分離,實現(xiàn)快速變化,運算速度超過CPU
  • 第三代(2006年以后):可直接編寫程序,CUDA和CTM(close to the metal),打破圖像語言局限,成為真正并行數(shù)據(jù)處理超級加速器
  • 目前GPU廣泛用于分析圖片、視頻和音頻文件
  • 局限性:
    在推斷中,對于單一輸入進行處理時,并行計算的優(yōu)勢無法發(fā)揮
    不能靈活配置硬件結(jié)構(gòu)、能效低(相對于FPGA)
    image.png

半定制化的FPGA

  • FPGA基于PAL、GAL、CPLD等可編程期間基礎(chǔ)上發(fā)展而來
    用戶可多次燒入配置文件定義門電路及存儲器之間的連線(如可配置成一個微控制器MCU或一個音頻解碼器)
  • FPGA可進行數(shù)據(jù)并行和任務(wù)并行計算
  • FPGA 一次性成本(光刻掩模制作成本)遠低于ASIC,一般在芯片前期未量產(chǎn)需迭代時,是最佳選擇之一
  • FPGA每個邏輯單元功能在重編程(燒入)時已確定,不需要指令,不用共享內(nèi)存,降低單位執(zhí)行的功耗
  • 局限性
    基本單一計算能力有限:大量細顆粒度基本單一,每個基本單元計算能力(依靠LUT查找表)遠低于ALU
    計算資源占比相對較低,大量資源被用于可配置的片上路由與連線
    速度和功耗低于ASIC,價格貴(規(guī)模量產(chǎn)下成本遠高于ASIC)
    image.png

全定制化的ASIC

  • 性能提升明顯
  • 促進下游AI芯片專用化,如無人駕駛、無人機、智能家居等

AI芯片技術(shù)比較(總結(jié)篇)

  • CPU 通用性最強,但延遲嚴重,散熱高,效率最低
  • GPU 通用性強、速度快、效率高,特別適合用在深度學習訓練方面,但是性能功耗比較低
  • FPGA 具有低能耗、高性能以及可編程等特性,相對于 CPU 與 GPU 有明顯的性能或者能耗優(yōu)勢,但對使用者要求高
  • ASIC 可以更有針對性地進行硬件層次的優(yōu)化,從而獲得更好的性能、功耗比。但是ASIC 芯片的設(shè)計和制造需要大量的資金、較長的研發(fā)周期和工程周期,而且深度學習算法仍在快速發(fā)展,若深度學習算法發(fā)生大的變化,F(xiàn)PGA 能很快改變架構(gòu),適應(yīng)最新的變化,ASIC 類芯片一旦定制則難于進行修改
    -GPU配合CPU仍然是AI芯片的主流,F(xiàn)PGA和AISC不斷優(yōu)化逐步占用更多市場份額,類腦芯片是長期發(fā)展方向

AI芯片代表企業(yè)

中科寒武紀

寒武紀是全球第一個成功流片并擁有成熟產(chǎn)品的 AI 芯片公司,擁有終端 AI 處理器 IP和云端高性能 AI 芯片兩條產(chǎn)品線

中星微

2016 年初,中星微推出了全球首款集成了神經(jīng)網(wǎng)絡(luò)處理器(NPU)的SVAC 視頻編解碼 SoC,使得智能分析結(jié)果可以與視頻數(shù)據(jù)同時編碼,形成結(jié)構(gòu)化的視頻碼流。該技術(shù)被廣泛應(yīng)用于視頻監(jiān)控攝像頭,開啟了安防監(jiān)控智能化的新時代。自主設(shè)計的嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)采用了“數(shù)據(jù)驅(qū)動并行計算”架構(gòu),專門針對深度學習算法進行了優(yōu)化,具備高性能、低功耗、高集成度、小尺寸等特點,特別適合物聯(lián)網(wǎng)前端智能的需求

image.png

地平線機器人

BPU(BrainProcessing Unit)是地平線機器人自主設(shè)計研發(fā)的高效人工智能處理器架構(gòu)IP,支持 ARM/GPU/FPGA/ASIC 實現(xiàn),專注于自動駕駛、人臉圖像辨識等專用領(lǐng)域

深鑒科技

深鑒科技將其開發(fā)的基于 FPGA 的神經(jīng)網(wǎng)絡(luò)處理器稱為 DPU。
深鑒公開發(fā)布了兩款 DPU:亞里士多德架構(gòu)和笛卡爾架構(gòu),其中,亞里士多德架構(gòu)是針對卷積神經(jīng)網(wǎng)絡(luò) CNN 而設(shè)計;笛卡爾架構(gòu)專為處DNN/RNN 網(wǎng)絡(luò)而設(shè)計,可對經(jīng)過結(jié)構(gòu)壓縮后的稀疏神經(jīng)網(wǎng)絡(luò)進行極致高效的硬件加速


image.png

靈汐科技

致力于新一代神經(jīng)網(wǎng)絡(luò)處理器(Tianjic)開發(fā),特點在于既能夠高效支撐現(xiàn)有流行的機器學習算法(包括 CNN,MLP,LSTM 等網(wǎng)絡(luò)架構(gòu)),也能夠支撐更仿腦的、更具成長潛力的脈沖神經(jīng)網(wǎng)絡(luò)算法;使芯片具有高計算力、高多任務(wù)并行度和較低功耗等優(yōu)點

啟英泰倫

語音識別芯片研發(fā)商。啟英泰倫的CI1006是基于 ASIC 架構(gòu)的人工智能語音識別芯片,包含了腦神經(jīng)網(wǎng)絡(luò)處理硬件單元,能夠完美支持 DNN 運算架構(gòu),進行高性能的數(shù)據(jù)并行計算,可極大的提高人工智能深度學習語音技術(shù)對大量數(shù)據(jù)的處理效率

百度

2017 年 8 月 Hot Chips 大會上發(fā)布了 XPU,這是一款 256 核、基于 FPGA 的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU 采用新一代 AI 處理架構(gòu),擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對百度的深度學習平臺 PaddlePaddle 做了高度的優(yōu)化和加速。據(jù)介紹,XPU 關(guān)注計算密集型、基于規(guī)則的多樣化計算任務(wù),希望提高效率和性能,并帶來類似 CPU 的靈活性

華為

麒麟 970 搭載的神經(jīng)網(wǎng)絡(luò)處理器 NPU 采用了寒武紀 IP
NPU 采用 HiAI移動計算架構(gòu),在 FP16 下提供的運算性能可以達到 1.92 TFLOPs,相比四個 Cortex-A73 核心,處理同樣的 AI 任務(wù),有大約具備 50 倍能效和 25 倍性能優(yōu)勢

英偉達(NVIDIA)

英偉達發(fā)明了 GPU,重新定義了現(xiàn)代計算機圖形技術(shù),徹底改變了并行計算
英偉達的 GPU 芯片可以讓大量處理器并行運算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發(fā)者的首選。
自從 Google Brain 采用 1.6 萬個 GPU 核訓練 DNN 模型,并在語音和圖像識別等領(lǐng)域獲得巨大成功以來,英偉達已成為 AI 芯片市場中無可爭議的領(lǐng)導者

AMD

美國 AMD 半導體公司專門為計算機、通信和消費電子行業(yè)設(shè)計和制造各種創(chuàng)新的微處理器(CPU、GPU、APU、主板芯片組、電視卡芯片等),以及提供閃存和低功率處理器解決方案
AMD 擁有針對 AI 和機器學習的高性能 Radeon Instinc 加速卡,開放
式軟件平臺 ROCm 等

Google

2016 年宣布獨立開發(fā)一種名為 TPU 的全新的處理系統(tǒng)。TPU 是專門為機器學習應(yīng)用而設(shè)計的專用芯片。通過降低芯片的計算精度,減少實現(xiàn)每個計算操作所需晶體管數(shù)量的方式,讓芯片的每秒運行的操作個數(shù)更高,這樣經(jīng)過精細調(diào)優(yōu)的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結(jié)果。在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯杰的阿爾法狗,就是采用了谷歌的 TPU 系列芯片

高通

在智能手機芯片市場占據(jù)絕對優(yōu)勢的高通公司,其在人工智能方面已投資了 Clarifai 公司和中國“專注于物聯(lián)網(wǎng)人工智能服務(wù)”的云知聲

Nervana Systems

推出的 The Nervana Engine 是一個為深度學習專門定制和優(yōu)化的 ASIC 芯片。這個方案的實現(xiàn)得益于一項叫做 High Bandwidth Memory 的新型內(nèi)存技術(shù),這項技術(shù)同時擁有高容量和高速度,提供 32GB 的片上儲存和 8TB 每秒的內(nèi)存訪問速度。該公司目前提供一個人工智能服務(wù)“in the cloud”,他們聲稱這是世界上最快的且目前已被金融服務(wù)機構(gòu)、醫(yī)療保健提供者和政府機構(gòu)所使用的服務(wù)

Movidius(被 Intel 收購)

2016 年 9 月,Intel 發(fā)表聲明收購了 Movidius。Movidius 專注于研發(fā)高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以 DSP 架構(gòu)為基礎(chǔ)的視覺處理器,在視覺相關(guān)的應(yīng)用領(lǐng)域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統(tǒng)中。該芯片已被大量應(yīng)用在 Google 3D 項目的 Tango 手機、大疆無人機、FLIR 智能紅外攝像機、??瞪铐盗袛z像機、華睿智能工業(yè)相機等產(chǎn)品中

IBM

IBM 很早以前就發(fā)布過 watson,投入了很多的實際應(yīng)用。除此之外,還啟動了類腦芯片的研發(fā),即 TrueNorth。
TrueNorth 是 IBM 參與 DARPA 的研究項目 SyNapse 的最新成果。SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應(yīng)可塑可伸縮電子神經(jīng)系統(tǒng),而 SyNapse 正好是突觸的意思),其終極目標是開發(fā)出打破馮·諾依曼體系結(jié)構(gòu)的計算機體系結(jié)構(gòu)

ARM

ARM 推出全新芯片架構(gòu) DynamIQ,通過這項技術(shù),AI 芯片的性能有望在未來三到五年內(nèi)提升 50 倍
ARM的新CPU架構(gòu)將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為 AI 算法設(shè)計的處理器。芯片廠商將可以為新處理器配置最多 8 個核心。同時為了能讓主流 AI 在自己的處理器上更好地運行,ARM 還將推出一系列軟件庫

CEVA

專注于 DSP 的 IP 供應(yīng)商,擁有眾多的產(chǎn)品線。其中,圖像和計算機視覺 DSP產(chǎn)品CEVA-XM4是第一個支持深度學習的可編程DSP,而其發(fā)布的新一代型號 CEVA-XM6,具有更優(yōu)的性能、更強大的計算能力以及更低的能耗

MIT/Eyeriss

MIT 的一個項目,還不是一個公司,從長遠來看,如果進展順利,很
可能孵化出一個新的公司。
Eyeriss 是一個高效能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)加速器硬件,該芯片內(nèi)建 168 個核心,專門用來部署神經(jīng)網(wǎng)路(neural network),效能為一般 GPU 的 10 倍。其技術(shù)關(guān)鍵在于最小化 GPU 核心和記憶體之間交換數(shù)據(jù)的頻率(此運作過程通常會消耗大量的時間與能量):一般 GPU 內(nèi)的核心通常共享單一記憶體,但 Eyeriss 的每個核心擁有屬于自己的記憶
體。
目前,Eyeriss 主要定位在人臉識別和語音識別,可應(yīng)用在智能手機、穿戴式設(shè)備、機器人、自動駕駛車與其他物聯(lián)網(wǎng)應(yīng)用裝置上

Apple

Axx處理器集成了一個專用于機器學習的硬件——“神經(jīng)網(wǎng)絡(luò)引擎(Neural Engine)”

三星

三星已經(jīng)研發(fā)了許多種類的人工智能芯片。三星還投資了 Graphcore、深
鑒科技等人工智能芯片企業(yè)

AI芯片應(yīng)用

image.png

智能手機

如華為麒麟搭載了寒武紀的NPU,蘋果手機內(nèi)置AXX Bionic芯片

ADAD(高級輔助駕駛系統(tǒng))

  • ADAS需要處理海量由激光雷達、毫米波雷達、攝像頭等傳感器采集的實時數(shù)據(jù)
  • ADAS 的中樞大腦——ADAS 芯片市場的主要廠商包括被英特爾收購的 Mobileye、2017 年被高通以 470 億美元驚人價格收購的 NXP,以及汽車電子的領(lǐng)軍企業(yè)英飛凌。隨著英偉達推出自家基于 GPU 的 ADAS 解決方案 DrivePX2,英偉達也加入到戰(zhàn)團之中
  • 相對于傳統(tǒng)的車輛控制方法,智能控制方法主要體現(xiàn)在對控制對象模型的運用和綜合信息學習運用上,包括神經(jīng)網(wǎng)絡(luò)控制和深度學習方法等,得益于 AI 芯片的飛速發(fā)展,這些算法已逐步在車輛控制中得到應(yīng)用

CV(computer vision)計算機視覺設(shè)備

如智能攝像頭、無人機、行車記錄儀、人臉識別迎賓機器人以及智能手寫板等設(shè)備,往往都具有本地端推斷的需要
計算機視覺領(lǐng)域全球領(lǐng)先的芯片提供商 Movidius,目前已被英特爾收購,大疆無人機、海康威視和大華股份的智能監(jiān)控攝像頭均使用了 Movidius 的 Myriad 系列芯片
國內(nèi)做計算機視覺技術(shù)的公司以初創(chuàng)公司為主,如商湯科技、曠視、騰訊優(yōu)圖,以及云從、依圖等,部分公司會自然轉(zhuǎn)入CV芯片研發(fā)中

VR設(shè)備

代表為 HPU 芯片,是微軟為自身 VR 設(shè)備 Hololens 研發(fā)定制的

語音交互設(shè)備

國內(nèi)有啟英泰倫以及云知聲兩家公司,其提供的芯片方案均內(nèi)置了為語音識別而優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)加速方案,實現(xiàn)設(shè)備的語音離線識別

機器人

無論是家居機器人還是商用服務(wù)機器人均需要專用軟件+芯片的人工智能解決方案,公司如地平線機器人

發(fā)展趨勢

目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation,乘加計算)加速陣列來實現(xiàn)對 CNN(卷積神經(jīng)網(wǎng)絡(luò))中最主要的卷積運算的加速

問題

  1. 數(shù)據(jù)量大,內(nèi)存帶寬成為瓶頸,“memory wall”問題
  2. 內(nèi)存大量訪問和MAC陣列的大量運算,AI芯片功耗增加
  3. 深度度學習算法的發(fā)展也是日新月異,新的算法可能在已經(jīng)固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題

趨勢

  1. 更高效的大卷積解構(gòu)/復用
    標準 SIMD 的基礎(chǔ)上,CNN 由于其特殊的復用機制,可以進一步減少總線上的數(shù)據(jù)通信,如何合理地分解、映射這些超大卷積到有效的硬件上成為了一個值得研究的方向
    分解卷積可降低消耗


    image.png
  2. 更低的 Inference 計算/存儲位寬
    神經(jīng)網(wǎng)絡(luò)參數(shù)/計算位寬的迅速減少——從 32 位浮點到 16 位浮點/定點、8 位定點,甚至是 4 位定點。在理論計算領(lǐng)域,2 位甚至 1 位參數(shù)位寬,都已經(jīng)逐漸進入實踐領(lǐng)域
    逐層動態(tài)定點方法


    image.png
  3. 更多樣的存儲器定制設(shè)計
    當計算部件不再成為神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節(jié)的成本也越高,同時容量也越受限,因此新型的存儲結(jié)構(gòu)也將應(yīng)運而生
  4. 更稀疏的大規(guī)模向量實現(xiàn)
    神經(jīng)網(wǎng)絡(luò)雖然大,但是,實際上有很多以零為輸入的情況,此時稀疏計算可以高效的減少無用能效
    五級流水線結(jié)構(gòu),在 Activation層后對下一次計算的必要性進行預先判斷,如果發(fā)現(xiàn)這是一個稀疏節(jié)點,則觸發(fā) SKIP 信號,避免乘法運算的功耗,以達到減少無用功耗的


    image.png

    5.計算和存儲一體化
    計算和存儲一體化(process-in-memory)技術(shù),其要點是通過使用新型非易失性存儲(如ReRAM)器件,在存儲陣列里面加上神經(jīng)網(wǎng)絡(luò)計算功能,從而省去數(shù)據(jù)搬移操作,即實現(xiàn)了計算存儲一體化的神經(jīng)網(wǎng)絡(luò)處理,在功耗性能方面可以獲得顯著提升

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容