一、人工智能的研究領(lǐng)域和分支

二、主流深度學(xué)習(xí)框架

如果走學(xué)術(shù)路線,果斷PyTorch,如果想走部署,TensorFLow+PaddlePaddle+Caffe。
1.TensorFlow
TensorFlow是Google開(kāi)發(fā)的一款開(kāi)源軟件庫(kù),專為深度學(xué)習(xí)或人工神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)。TensorFlow允許你可以使用流程圖創(chuàng)建神經(jīng)網(wǎng)絡(luò)和計(jì)算模型。它是可用于深度學(xué)習(xí)的最好維護(hù)和最為流行的開(kāi)源庫(kù)之一。TensorFlow框架可以使用C++也可以使用Python。你可以使用TensorBoard進(jìn)行簡(jiǎn)單的可視化并查看計(jì)算流水線。其靈活的架構(gòu)允許你輕松部署在不同類型的設(shè)備上。不利的一面是,TensorFlow沒(méi)有符號(hào)循環(huán),不支持分布式學(xué)習(xí)。此外,它還不支持Windows。
- 出生地:Google
- 特點(diǎn):計(jì)算圖、分布式訓(xùn)練效果強(qiáng)、底層C構(gòu)建速度快,生態(tài)強(qiáng)大
- 主要調(diào)包語(yǔ)言:Python、C/C++、JS
- 評(píng)價(jià):對(duì)標(biāo)PyTorch、學(xué)術(shù)界沒(méi)市場(chǎng)了、部署更加的方便
- 入門推薦:建議做工程的小伙伴入門,學(xué)術(shù)界真的馬上被PyTorch壟斷
2.PyTorch
PyTorch是臉書(shū)的框架,前身是Torch,支持動(dòng)態(tài)圖,而且提供了Python接口。是一個(gè)以Python優(yōu)先的深度學(xué)習(xí)框架,不僅能夠?qū)崿F(xiàn)強(qiáng)大的GPU加速,同時(shí)還支持動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。Python是現(xiàn)在學(xué)術(shù)界的霸主,對(duì)于想要做學(xué)術(shù)的同學(xué)絕對(duì)首推(重點(diǎn))。
- 出生地:FaceBook
- 特點(diǎn):生態(tài)強(qiáng)大、入門爽歪歪、代碼量少(重點(diǎn))
- 主要調(diào)包語(yǔ)言:Python、C/C++
- 評(píng)價(jià):入門很快、速度有點(diǎn)慢、部署很垃圾、學(xué)術(shù)界的霸主
- 入門推薦:想要做學(xué)術(shù)的童鞋絕對(duì)首選,幾乎現(xiàn)在頂會(huì)論文的代碼都是這個(gè)框架寫的,不過(guò)想要做部署的還是看看TensorFLow或者PaddlePaddle吧。
3.PaddlePaddle
PaddlePaddle是百度推出的深度學(xué)習(xí)框架,算是國(guó)人最火的深度學(xué)習(xí)框架了。跟新了2.0的高級(jí)API與動(dòng)態(tài)圖后,Paddle更加的強(qiáng)大。百度有很多PaddlePaddle的教程,對(duì)于初學(xué)者來(lái)說(shuō)還是相當(dāng)不錯(cuò)的。PaddlePaddle有很多便捷的工具,比如detection、cv、nlp、GAN的工具包,也有專門的可視化工具(遠(yuǎn)離tensorboard的支配)。
- 出生地:百度
- 特點(diǎn):計(jì)算圖動(dòng)態(tài)圖都支持、有高級(jí)API、速度快、部署方便、有專門的平臺(tái)
- 主要調(diào)包語(yǔ)言:Python、C/C++、JS
- 入門推薦:如果沒(méi)有卡那就非常適合,如果算力不缺,建議先看看PyTorch,當(dāng)然也可以PaddlePaddle。
4.Keras
Keras可以當(dāng)成一種高級(jí)API,它的后端可以是Theano和tensorFlow(可以想成把TF的很多打包了)。由于是高級(jí)API非常的方便,非常適合科研人員上手。
- 作者:Google AI 研究人員 Francois Chollet
- 特點(diǎn):生態(tài)強(qiáng)大、入門爽歪歪、代碼量少(重點(diǎn))
- 主要調(diào)包語(yǔ)言:Python、C/C++、JS
- 評(píng)價(jià):太適合入門了、速度有點(diǎn)慢、版本得匹配后端框架的版本
- 入門推薦:強(qiáng)推入門首選,但是后續(xù)一定要看看算法的底層是怎樣工作的。
5.Caffe/Caffe2
Caffe是頂級(jí)高校UCB的賈揚(yáng)清博士開(kāi)發(fā)的,主要是適用于深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)的應(yīng)用。使用Caffe做算法代碼量很少,經(jīng)常就是修修改改就能用,神經(jīng)網(wǎng)絡(luò)模型的管理非常的方便,而且算是比較早的部署在各種落地場(chǎng)景中。Caffe2可以理解為一個(gè)新版本的Caffe,但是有很多不同,Caffe2后來(lái)并入了PyTorch。該工具支持Ubuntu,Mac OS X和Windows等操作系統(tǒng)。
- 作者:UCB 賈揚(yáng)清博士
- 特點(diǎn):計(jì)算圖、部署方便、訓(xùn)練方便、cuDnn與MKL均支持
- 主要調(diào)包語(yǔ)言:Python、Matlab腳本、C++
- 評(píng)價(jià):卷積人的大愛(ài)、環(huán)境不好配置、感覺(jué)偏底層、Caffe2還是PyTorch
- 入門推薦:不是很建議,真的想了解可以先入門PyTorch
6.MXNet
MXNet 是一個(gè)社區(qū)維護(hù)起來(lái)的深度學(xué)習(xí)框架,后來(lái)被亞馬遜看上了。有類似于 Theano 和 TensorFlow 的計(jì)算圖,也有靈活的動(dòng)態(tài)圖,摒棄有高級(jí)接口方便調(diào)用。MXNet的底層為C構(gòu)建,優(yōu)化的很好,很多推理框架都能直接轉(zhuǎn)換,非常方便。
- 出生地:社區(qū)
- 特點(diǎn):計(jì)算圖動(dòng)態(tài)圖都支持、有高級(jí)API、速度快、部署方便
- 主要調(diào)包語(yǔ)言:Python、C/C++、JS(js用的相對(duì)少)
- 評(píng)價(jià):一定意義上是國(guó)人的框架、小團(tuán)體整的社區(qū)維護(hù)、文檔少生態(tài)不行
- 入門推薦:一般。
7.Theano
Theano是07年左右開(kāi)發(fā)的一個(gè)多維數(shù)組的計(jì)算庫(kù),支持GPU計(jì)算,當(dāng)時(shí)很多人當(dāng)成“支持GPU的Numpy”,底層優(yōu)化的非常好,支持導(dǎo)出C的腳本。
- 出生地:蒙特利爾大學(xué)
- 特點(diǎn):計(jì)算圖、Python+Numpy、源于學(xué)術(shù)界
- 主要調(diào)包語(yǔ)言:Python
- 評(píng)價(jià):很臃腫、不支持分布式、被后面的TensorFlow打擊的很大
- 入門推薦:絕對(duì)不建議,真的要用的話,先學(xué)習(xí)別的框架再看Github就行了
8.Torch
Torch是一款針對(duì)ML算法且又簡(jiǎn)單易用的開(kāi)源計(jì)算框架。該工具提供了高效的GPU支持,N維數(shù)組,數(shù)值優(yōu)化例程,線性代數(shù)例程以及用于索引、切片和置換的例程。基于Lua的腳本語(yǔ)言,該工具帶有大量預(yù)先訓(xùn)練好的模型。這款靈活高效的ML研究工具支持諸如Linux,Android,Mac OS X,iOS和Windows等主流平臺(tái)。
9.CNTK
Microsoft Cognitive Toolkit是具有C#/C++/Python接口支持的最快的深度學(xué)習(xí)框架之一。此款開(kāi)源框架帶有強(qiáng)大的C++ API,比TensorFlow更快、更準(zhǔn)確。該工具還支持內(nèi)置數(shù)據(jù)讀取器的分布式學(xué)習(xí)。它支持諸如前饋,CNN,RNN,LSTM和序列到序列等算法。該工具支持Windows和Linux。
- 出生地:微軟
- 特點(diǎn):非常嚴(yán)謹(jǐn)、語(yǔ)音上有一些優(yōu)勢(shì)、難度有點(diǎn)高
- 調(diào)包語(yǔ)言:C++、Python
- 評(píng)價(jià):語(yǔ)音上不錯(cuò)呀、微軟推不下去了、感覺(jué)不如TensorFlow、有點(diǎn)復(fù)古
- 入門推薦:不建議,看看就好。
10.ONNX
ONNX是一種針對(duì)機(jī)器學(xué)習(xí)所設(shè)計(jì)的開(kāi)放式的文件格式,用于存儲(chǔ)訓(xùn)練好的模型。它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存儲(chǔ)模型數(shù)據(jù)并交互。用大白話說(shuō)就是是一個(gè)中間件,比如你PyTorch的模型想轉(zhuǎn)換別的,就得通過(guò)ONNX,現(xiàn)在有的框架可以直接轉(zhuǎn),但是在沒(méi)有專門支持的時(shí)候,ONNX就非常重要了,萬(wàn)物先轉(zhuǎn)ONNX,ONNX再轉(zhuǎn)萬(wàn)物。ONNX本身也有自己的模型庫(kù)以及很多開(kāi)源的算子,所以用起來(lái)門檻不是那么高。

- 出生地:有點(diǎn)多,很多大廠一起整的
- 特點(diǎn):萬(wàn)能轉(zhuǎn)換
- 主要調(diào)包語(yǔ)言:Python、C/C++
- 入門推薦:感覺(jué)不用刻意去學(xué)習(xí),用到了再看就可以的
三、深度學(xué)習(xí)移動(dòng)端推理框架
一些框架是面向算力有限的設(shè)備上做模型部署的,比如嵌入式設(shè)備、機(jī)器人或者移動(dòng)設(shè)備上。
1.TensorRT
TensorRT是NVIDIA公司推出的面向GPU算力的推理框架,在服務(wù)端和嵌入式設(shè)備上都有非常好的效果,但是底層不開(kāi)源。TensorRT的合作方非常的多,主流的框架都支持。如果有GPU的話,傳統(tǒng)的算子可以用CUDA,深度學(xué)習(xí)搞成TensorRT。
- 出生地:NVIDIA
- 特點(diǎn):自產(chǎn)自銷NVIDIA不多解釋,框架支持很多,生態(tài)很棒,穩(wěn)定性高
- 主要調(diào)包語(yǔ)言:Python、C/C++
- 推薦平臺(tái):NVIDIA Jetson系列的嵌入式、NVIDIA的GPU(一條龍)
- 支持模型:TensorFlow1.x、TensorFlow2.x、PyTorch、ONNX、PaddlePaddle、MXNet、Caffe、Theano,Torch,Lasagne,Blocks。
- 入門推薦:非常適合入門,畢竟直接在自己的GPU上做測(cè)試就行。
2.TF-Lite
TF-Lite是谷歌針對(duì)移動(dòng)端的推理框架,非常的強(qiáng)大。強(qiáng)大的原因在于Keras、TensorFlow的模型都能使用,而且有專門的TPU和安卓平臺(tái),這種一條龍的服務(wù)讓TensorFlow在部署方面還在稱霸。TF-Lite如果用Keras、TensorFlow的模型去轉(zhuǎn)換一般來(lái)說(shuō)都是腳本直接開(kāi)搞,自己重構(gòu)的部分相對(duì)少很多。
- 出生地:Google
- 特點(diǎn):一條龍的服務(wù)專屬平臺(tái)
- 主要調(diào)包語(yǔ)言:Python、C/C++、Java
- 支持模型:Keras、TensorFlow、ONNX
- 推薦平臺(tái):幾乎所有的ARM處理器和微控制器(樹(shù)莓派,甚至單片機(jī))、TPU專享
- 入門推薦:TFboys(TensorFlow使用者)的必備,畢竟一條龍,還有機(jī)會(huì)了解TPU,非常貼心。
3.OpenVINO
OpenVINO是Intel的推理框架,一個(gè)超級(jí)強(qiáng)的推理部署工具。工具包中提供了很多便利的工具,例如OpenVINO提供了深度學(xué)習(xí)推理套件(DLDT),該套件可以將各種開(kāi)源框架訓(xùn)練好的模型進(jìn)行線上部署,除此之外,還包含了圖片處理工具包OpenCV,視頻處理工具包Media SDK。如果是針對(duì)Intel的加速棒或者工控機(jī)上部署真的是非常不錯(cuò)的。
- 出生地:Intel
- 特點(diǎn):面向Intel設(shè)備的加速,便捷使用,安裝和SDK很方便
- 主要調(diào)包語(yǔ)言:C/C++、Python
- 支持模型:TensorFlow、PyTorch、ONNX、MXNet、PaddlePaddle
- 推薦平臺(tái):自己的電腦、Intel神經(jīng)網(wǎng)絡(luò)加速棒、Intel的FPGA
- 入門推薦:作為入門的不啊還是不錯(cuò)的,只是落地場(chǎng)景有點(diǎn)少,畢竟現(xiàn)在是邊緣設(shè)備的時(shí)代
因?yàn)楣I(yè)上工控機(jī)多但是深度學(xué)習(xí)模型用的還是少,很多都是傳統(tǒng)的算法,很多落地場(chǎng)景中上Intel的處理器并不占優(yōu)勢(shì)。
4.CoreML
CoreML是蘋果公司推出針對(duì)ios以及macOS系統(tǒng)部署的機(jī)器學(xué)習(xí)平臺(tái),底層不開(kāi)源。在蘋果設(shè)備上,CoreML的速度是最快的,但是也只能用于蘋果的設(shè)備上?,F(xiàn)在開(kāi)發(fā)apple app主要是Swift,受到Swift出的特性,真的是各種語(yǔ)言各種粘,很好入門。
- 出生地:Apple
- 特點(diǎn):面向蘋果設(shè)備,專業(yè)設(shè)備上速度第一,穩(wěn)定、入門簡(jiǎn)單
- 主要調(diào)包語(yǔ)言:C/C++、Python、Obj-C、Swift
- 支持模型:TensorFlow、ONNX、PyTorch、ONNX、MXNet、Caffe
- 推薦平臺(tái):iMac、MacBook、iPhone、iPad、AppleWatch
- 入門推薦:針對(duì)Apple的開(kāi)發(fā)者,業(yè)余選手得買個(gè)MBP
5.NCNN
NCNN是騰訊推出的推理框架,一定意義上是之前使用非常廣的一個(gè)推理框架,社區(qū)做的也非常棒。NCNN的速度是超過(guò)TFLite的,但是有點(diǎn)麻煩的是之前得經(jīng)常自己用C去復(fù)現(xiàn)一些算子(框架起步都這樣),現(xiàn)在因?yàn)槭褂玫娜藬?shù)很多,因此算子很多。NCNN對(duì)于X86、GPU均有支持,在嵌入式、手機(jī)上的表現(xiàn)非常好。
- 出生地:騰訊優(yōu)圖實(shí)驗(yàn)室
- 特點(diǎn):面向移動(dòng)端的加速、手機(jī)處理器的加速單元支持很棒
- 主要調(diào)包語(yǔ)言:C/C++、Python
- 支持模型:TensorFlow、ONNX、PyTorch、ONNX、MXNet、DarkNet、Caffe
- 推薦平臺(tái):安卓/蘋果手機(jī)、ARM處理器設(shè)備
- 入門推薦:對(duì)于嵌入式或者APP開(kāi)發(fā)有經(jīng)驗(yàn)的同學(xué)絕對(duì)首推的
6.MNN
MNN是阿里巴巴推出的移動(dòng)端框架,現(xiàn)在也支持模型訓(xùn)練,支持OpenCL,OpenGL,Vulkan和Metal等。同樣的設(shè)備,MNN的部署速度是非常快的,樹(shù)莓派3B上cpu的加速是NCNN速度的3被以上,而且文檔非常的全,代碼整潔清晰,非常適合開(kāi)發(fā)者使用。
- 出生地:阿里巴巴多部門合作
- 特點(diǎn):面向移動(dòng)端的加速、應(yīng)該是現(xiàn)在速度之最
- 主要調(diào)包語(yǔ)言:C/C++、Python
- 支持模型:TensorFlow、ONNX、PyTorch、MXNet、NCNN、Caffe、TF-Lite
- 推薦平臺(tái):安卓/蘋果手機(jī)、ARM處理器設(shè)備
- 入門推薦:首推的部署推理框架,絕對(duì)的好用,在蘋果設(shè)備上的速度也很棒。MNN框架感覺(jué)比NCNN穩(wěn)定一些,而且源碼非常整潔,研究底層也是非常方便。
7.Tenigne
Tenigne-Lite是OpenAILab推出的邊緣端推理部署框架,OpenCV官方在嵌入式上的部署首推Tenigne-Lite?,F(xiàn)在對(duì)于RISC-V、CUDA、TensorRT、NPU的支持非常不錯(cuò)。Tengine是現(xiàn)在來(lái)說(shuō)感覺(jué)安裝環(huán)境中bug最少的框架,幾乎安按照文檔走不會(huì)出問(wèn)題的。
- 出生地:OpenAILab
- 特點(diǎn):面向移動(dòng)端的加速、速度和MNN不相上下、對(duì)于嵌入式的支持非常好
- 主要調(diào)包語(yǔ)言:C/C++、Python
- 支持模型:TensorFlow、ONNX、DarkNet、MXNet、NCNN、Caffe、TF-Lite、NCNN
- 推薦平臺(tái):安卓手機(jī)、ARM處理器設(shè)備、RISC-V
- 入門推薦:嵌入式開(kāi)發(fā)的小伙伴還等什么,干就完了
Tengine-Lite是個(gè)朝氣蓬勃的框架,雖然出的時(shí)間并沒(méi)有其他框架早,但是框架性能、易用性還是非常適合嵌入式玩家的。
8.NNIE
NNIE 即 Neural Network Inference Engine,是海思 SVP 開(kāi)發(fā)框架中的處理單元之一,主要針對(duì)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)加速處理的硬件單元,可用于圖片分類、目標(biāo)檢測(cè)等 AI 應(yīng)用場(chǎng)景。

支持現(xiàn)有大部分公開(kāi)的卷積神經(jīng)網(wǎng)絡(luò)模型,如 AlexNet、VGG16、ResNet18、ResNet50、GoogLeNet 等分類網(wǎng)絡(luò),F(xiàn)aster R-CNN、YOLO、SSD、RFCN 等檢測(cè)目標(biāo)網(wǎng)絡(luò),以及 FCN 、SegNet 等分割場(chǎng)景網(wǎng)絡(luò)。目前 NNIE 配套軟件及工具鏈僅支持以 Caffe 框架,使用其他框架的網(wǎng)絡(luò)模型需要轉(zhuǎn)化為 Caffe 框架下的模型。

華為海思NNIE非常強(qiáng)大,之前移動(dòng)端真的快霸主,但是現(xiàn)在受制約芯片停產(chǎn)。
9.RKNN
Rockchip提供RKNN-Toolkit開(kāi)發(fā)套件進(jìn)行模型轉(zhuǎn)換、推理運(yùn)行和性能評(píng)估。
模型轉(zhuǎn)換:支持 Caffe、Tensorflow、TensorFlow Lite、ONNX、Darknet 模型,支持RKNN 模型導(dǎo)入導(dǎo)出,后續(xù)能夠在硬件平臺(tái)上加載使用。
模型推理:能夠在 PC 上模擬運(yùn)行模型并獲取推理結(jié)果,也可以在指定硬件平臺(tái)RK3399Pro Linux上運(yùn)行模型并獲取推理結(jié)果。
性能評(píng)估:能夠在 PC 上模擬運(yùn)行并獲取模型總耗時(shí)及每一層的耗時(shí)信息,也可以通過(guò)聯(lián)機(jī)調(diào)試的方式在指定硬件平臺(tái) RK3399Pro Linux上運(yùn)行模型,并獲取模型在硬件上運(yùn)行時(shí)的總時(shí)間和每一層的耗時(shí)信息。
四、卷積神經(jīng)網(wǎng)絡(luò) – CNN
https://easyai.tech/ai-definition/cnn/#zuoyong
CNN 的基本原理:
- 卷積層 – 主要作用是保留圖片的特征
- 池化層 – 主要作用是把數(shù)據(jù)降維,可以有效的避免過(guò)擬合
- 全連接層 – 根據(jù)不同任務(wù)輸出我們想要的結(jié)果
CNN 的實(shí)際應(yīng)用:
- 圖像分類、檢索
- 目標(biāo)檢測(cè)
- 目標(biāo)分割(語(yǔ)義分割、實(shí)例分割、全景分割)
- 人臉識(shí)別
- 骨骼識(shí)別
1.目標(biāo)檢測(cè)模型
判斷是圖片里面有什么,分別在哪里。
https://github.com/hoya012/deep_learning_object_detection

模型性能對(duì)比表
| Detector | VOC07 (mAP@IoU=0.5) | VOC12 (mAP@IoU=0.5) | COCO (mAP@IoU=0.5:0.95) | Published In |
|---|---|---|---|---|
| R-CNN | 58.5 | - | - | CVPR'14 |
| SPP-Net | 59.2 | - | - | ECCV'14 |
| MR-CNN | 78.2 (07+12) | 73.9 (07+12) | - | ICCV'15 |
| Fast R-CNN | 70.0 (07+12) | 68.4 (07++12) | 19.7 | ICCV'15 |
| Faster R-CNN | 73.2 (07+12) | 70.4 (07++12) | 21.9 | NIPS'15 |
| YOLO v1 | 66.4 (07+12) | 57.9 (07++12) | - | CVPR'16 |
| G-CNN | 66.8 | 66.4 (07+12) | - | CVPR'16 |
| AZNet | 70.4 | - | 22.3 | CVPR'16 |
| ION | 80.1 | 77.9 | 33.1 | CVPR'16 |
| HyperNet | 76.3 (07+12) | 71.4 (07++12) | - | CVPR'16 |
| OHEM | 78.9 (07+12) | 76.3 (07++12) | 22.4 | CVPR'16 |
| MPN | - | - | 33.2 | BMVC'16 |
| SSD | 76.8 (07+12) | 74.9 (07++12) | 31.2 | ECCV'16 |
| GBDNet | 77.2 (07+12) | - | 27.0 | ECCV'16 |
| CPF | 76.4 (07+12) | 72.6 (07++12) | - | ECCV'16 |
| R-FCN | 79.5 (07+12) | 77.6 (07++12) | 29.9 | NIPS'16 |
| DeepID-Net | 69.0 | - | - | PAMI'16 |
| NoC | 71.6 (07+12) | 68.8 (07+12) | 27.2 | TPAMI'16 |
| DSSD | 81.5 (07+12) | 80.0 (07++12) | 33.2 | arXiv'17 |
| TDM | - | - | 37.3 | CVPR'17 |
| FPN | - | - | 36.2 | CVPR'17 |
| YOLO v2 | 78.6 (07+12) | 73.4 (07++12) | - | CVPR'17 |
| RON | 77.6 (07+12) | 75.4 (07++12) | 27.4 | CVPR'17 |
| DeNet | 77.1 (07+12) | 73.9 (07++12) | 33.8 | ICCV'17 |
| CoupleNet | 82.7 (07+12) | 80.4 (07++12) | 34.4 | ICCV'17 |
| RetinaNet | - | - | 39.1 | ICCV'17 |
| DSOD | 77.7 (07+12) | 76.3 (07++12) | - | ICCV'17 |
| SMN | 70.0 | - | - | ICCV'17 |
| Light-Head R-CNN | - | - | 41.5 | arXiv'17 |
| YOLO v3 | - | - | 33.0 | arXiv'18 |
| SIN | 76.0 (07+12) | 73.1 (07++12) | 23.2 | CVPR'18 |
| STDN | 80.9 (07+12) | - | - | CVPR'18 |
| RefineDet | 83.8 (07+12) | 83.5 (07++12) | 41.8 | CVPR'18 |
| SNIP | - | - | 45.7 | CVPR'18 |
| Relation-Network | - | - | 32.5 | CVPR'18 |
| Cascade R-CNN | - | - | 42.8 | CVPR'18 |
| MLKP | 80.6 (07+12) | 77.2 (07++12) | 28.6 | CVPR'18 |
| Fitness-NMS | - | - | 41.8 | CVPR'18 |
| RFBNet | 82.2 (07+12) | - | - | ECCV'18 |
| CornerNet | - | - | 42.1 | ECCV'18 |
| PFPNet | 84.1 (07+12) | 83.7 (07++12) | 39.4 | ECCV'18 |
| Pelee | 70.9 (07+12) | - | - | NIPS'18 |
| HKRM | 78.8 (07+12) | - | 37.8 | NIPS'18 |
| M2Det | - | - | 44.2 | AAAI'19 |
| R-DAD | 81.2 (07++12) | 82.0 (07++12) | 43.1 | AAAI'19 |
| ScratchDet | 84.1 (07++12) | 83.6 (07++12) | 39.1 | CVPR'19 |
| Libra R-CNN | - | - | 43.0 | CVPR'19 |
| Reasoning-RCNN | 82.5 (07++12) | - | 43.2 | CVPR'19 |
| FSAF | - | - | 44.6 | CVPR'19 |
| AmoebaNet + NAS-FPN | - | - | 47.0 | CVPR'19 |
| Cascade-RetinaNet | - | - | 41.1 | CVPR'19 |
| HTC | - | - | 47.2 | CVPR'19 |
| TridentNet | - | - | 48.4 | ICCV'19 |
| DAFS | 85.3 (07+12) | 83.1 (07++12) | 40.5 | ICCV'19 |
| Auto-FPN | 81.8 (07++12) | - | 40.5 | ICCV'19 |
| FCOS | - | - | 44.7 | ICCV'19 |
| FreeAnchor | - | - | 44.8 | NeurIPS'19 |
| DetNAS | 81.5 (07++12) | - | 42.0 | NeurIPS'19 |
| NATS | - | - | 42.0 | NeurIPS'19 |
| AmoebaNet + NAS-FPN + AA | - | - | 50.7 | arXiv'19 |
| SpineNet | - | - | 52.1 | arXiv'19 |
| CBNet | - | - | 53.3 | AAAI'20 |
| EfficientDet | - | - | 52.6 | CVPR'20 |
| DetectoRS | - | - | 54.7 | arXiv'20 |
2.圖像分類模型
圖像分類是對(duì)圖像判斷出所屬的分類,比如在學(xué)習(xí)分類中數(shù)據(jù)集有人(person)、羊(sheep)、狗(dog)和貓(cat)四種。
https://github.com/weiaicunzai/awesome-image-classification
| ConvNet | ImageNet top1 acc | ImageNet top5 acc | Published In |
|---|---|---|---|
| Vgg | 76.3 | 93.2 | ICLR2015 |
| GoogleNet | - | 93.33 | CVPR2015 |
| PReLU-nets | - | 95.06 | ICCV2015 |
| ResNet | - | 96.43 | CVPR2015 |
| PreActResNet | 79.9 | 95.2 | CVPR2016 |
| Inceptionv3 | 82.8 | 96.42 | CVPR2016 |
| Inceptionv4 | 82.3 | 96.2 | AAAI2016 |
| Inception-ResNet-v2 | 82.4 | 96.3 | AAAI2016 |
| Inceptionv4 + Inception-ResNet-v2 | 83.5 | 96.92 | AAAI2016 |
| RiR | - | - | ICLR Workshop2016 |
| Stochastic Depth ResNet | 78.02 | - | ECCV2016 |
| WRN | 78.1 | 94.21 | BMVC2016 |
| SqueezeNet | 60.4 | 82.5 | arXiv2017(rejected by ICLR2017) |
| GeNet | 72.13 | 90.26 | ICCV2017 |
| MetaQNN | - | - | ICLR2017 |
| PyramidNet | 80.8 | 95.3 | CVPR2017 |
| DenseNet | 79.2 | 94.71 | ECCV2017 |
| FractalNet | 75.8 | 92.61 | ICLR2017 |
| ResNext | - | 96.97 | CVPR2017 |
| IGCV1 | 73.05 | 91.08 | ICCV2017 |
| Residual Attention Network | 80.5 | 95.2 | CVPR2017 |
| Xception | 79 | 94.5 | CVPR2017 |
| MobileNet | 70.6 | - | arXiv2017 |
| PolyNet | 82.64 | 96.55 | CVPR2017 |
| DPN | 79 | 94.5 | NIPS2017 |
| Block-QNN | 77.4 | 93.54 | CVPR2018 |
| CRU-Net | 79.7 | 94.7 | IJCAI2018 |
| ShuffleNet | 75.3 | - | CVPR2018 |
| CondenseNet | 73.8 | 91.7 | CVPR2018 |
| NasNet | 82.7 | 96.2 | CVPR2018 |
| MobileNetV2 | 74.7 | - | CVPR2018 |
| IGCV2 | 70.07 | - | CVPR2018 |
| hier | 79.7 | 94.8 | ICLR2018 |
| PNasNet | 82.9 | 96.2 | ECCV2018 |
| AmoebaNet | 83.9 | 96.6 | arXiv2018 |
| SENet | - | 97.749 | CVPR2018 |
| ShuffleNetV2 | 81.44 | - | ECCV2018 |
| IGCV3 | 72.2 | - | BMVC2018 |
| MnasNet | 76.13 | 92.85 | CVPR2018 |
| SKNet | 80.60 | - | CVPR2019 |
| DARTS | 73.3 | 91.3 | ICLR2019 |
| ProxylessNAS | 75.1 | 92.5 | ICLR2019 |
| MobileNetV3 | 75.2 | - | arXiv2019 |
| Res2Net | 79.2 | 94.37 | arXiv2019 |
| EfficientNet | 84.3 | 97.0 | ICML2019 |
3.語(yǔ)義分割模型
語(yǔ)義分割(semantic segmentation)就是需要區(qū)分到圖中每一點(diǎn)像素點(diǎn),而不僅僅是矩形框框住了。但是同一物體的不同實(shí)例不需要單獨(dú)分割出來(lái)。對(duì)下圖左,標(biāo)注為人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5等。
- FCN
- SegNet
- U-Net
- Dilated Convolutions
- DeepLab (v1 & v2)
- RefineNet
- PSPNet
- Large Kernel Matters
- DeepLab v3