AI技術(shù)之一:視覺識別&人臉識別

當(dāng)前技術(shù):★★★★?
未來潛力:★★★★?
應(yīng)用落地:★★★??

視覺識別是機(jī)器學(xué)習(xí)比較早突破的領(lǐng)域, 這是由于之前的符號派主要使用模式識別的方法,對變化多端的圖像編碼識別能力是各大應(yīng)用領(lǐng)域里最弱的,而機(jī)器學(xué)習(xí)的本質(zhì)適合大量的不確定的素材分類,非常適合視覺識別領(lǐng)域。

模式識別就像是自上而下的方法,現(xiàn)有模式后識別匹配度,而機(jī)器學(xué)習(xí)更像是自下而上的方法,先有大量素材,機(jī)器自己學(xué)習(xí)一個多層復(fù)雜模式(大部分情況下不能解釋)來判定分類。

ImageNet&CNN

視覺識別領(lǐng)域不得不提ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)比賽。從2010年開始每年舉辦一屆,2012年多倫多大學(xué)Geoffrey Hinton學(xué)生的AlexNet取得突破的16%后,紐約大學(xué)LeCun團(tuán)隊,牛津大學(xué),谷歌,微軟紛紛參賽大幅提高正確率,涌現(xiàn)了AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet等經(jīng)典網(wǎng)絡(luò),最終2017年達(dá)到了29支隊伍的錯誤率在5%以下,所以之后大賽停辦。

ImageNet也指由李飛飛李飛飛領(lǐng)導(dǎo)的圖片數(shù)據(jù)集,李飛飛團(tuán)隊從2007年開始,耗費大量人力,通過各種方式(網(wǎng)絡(luò)抓取,人工標(biāo)注,亞馬遜眾包平臺)收集制作而成,作為論文在CVPR-2009發(fā)布。目前是一個超過15 million的圖像數(shù)據(jù)集,大約有22,000類,參見http://www.image-net.org/。ImageNet的道理是很簡單的,所以當(dāng)時有很多計算機(jī)大牛并不屑做此類基礎(chǔ)沒說明智慧含量的工作。我不知道李飛飛當(dāng)時是出于何種動力,是確實看到深度學(xué)習(xí)的前景缺少數(shù)據(jù)集“喂養(yǎng)”,還是因為在硅谷,氛圍適合做一些大項目,也或是因為手下的年輕研究生多。而當(dāng)時數(shù)據(jù)集發(fā)布以后人們還很懷疑通過更多數(shù)據(jù)就能改進(jìn)算法的看法,而且對于只是做了苦活建立了數(shù)據(jù)集就能發(fā)表論文表示不滿。

時至今日,我們已經(jīng)知道了新一輪的人工智能浪潮就是由機(jī)器學(xué)習(xí)一路引領(lǐng)的,而最重要的就是要由高質(zhì)量的數(shù)據(jù)集,如果沒有數(shù)據(jù)集,研究算法無從談起,因為從本質(zhì)上來說,機(jī)器學(xué)習(xí)是自下而上的。ImageNet的誕生產(chǎn)生了很多影響,全世界的研究員,程序員都可以使用ImageNet
數(shù)據(jù)集來訓(xùn)練自己的算法。

ILSVRC比賽使用的數(shù)據(jù)集是ImageNet數(shù)據(jù)集的一個子集,一般說的ImageNet(數(shù)據(jù)集)實際上指的是ImageNet的這個子集,總共有1000類,每類大約有1000張圖像。具體地,有大約1.2 million的訓(xùn)練集,5萬驗證集,15萬測試集。

CNN模型時1998 年深度學(xué)習(xí)三巨頭之一的 Lecun 正式提出了,并設(shè)計了 LeNet-5 模型用于手寫字符識別等領(lǐng)域,取得了不錯的結(jié)果。十多年后的 ImageNet 比賽中,基于 CNN 的 AlexNet 在比賽中大放異彩,并引領(lǐng)了 CNN 的復(fù)興,目前,CNN 是計算機(jī)視覺領(lǐng)域最重要的算法,在很多問題上都取得了良好的效果。

人臉識別

目前視覺識別中比較成熟的應(yīng)用模塊是人臉識別,靜態(tài)照片和動態(tài)視頻都可,主要應(yīng)用領(lǐng)域有:安防,金融,美顏三大場景,技術(shù)上已趨于成熟。

安防場景主要應(yīng)用于反恐、邊檢、公安等多個監(jiān)管部門。在金融領(lǐng)域,主要提供人臉識別登錄功能支持。在移動互聯(lián)網(wǎng)方面,提供美顏,動態(tài)美化等技術(shù)。

國內(nèi)主要公司:商湯/曠視/依圖,云從,格靈深瞳

視覺識別領(lǐng)域的獨角獸比較多,國內(nèi)的商湯和曠視算是第一梯隊,業(yè)務(wù)重疊也較大。云從是唯一的國家隊,依圖除了三大場景還宣布進(jìn)入醫(yī)療領(lǐng)域,格靈深瞳曾想在識別技術(shù)上突破,從2D到3D。

商湯SenseTime科技由香港中文大學(xué)工程學(xué)院團(tuán)隊創(chuàng)立,2016年曾拿過ImageNet一個分賽的冠軍。在融資上表現(xiàn)極佳,曾連續(xù)獲得4.1億,6億,10億美金,估值抬至60億美金。商湯原本只是為其他行業(yè)提供算法的,但拿了很多錢以后,應(yīng)該是錢其實是過多了,也開始做再投資相關(guān)業(yè)務(wù)和視覺識別的商業(yè)化落地等延申工作。2016年和2017年是國內(nèi)互聯(lián)網(wǎng)金融最熱的時候,為金融服務(wù)提供人臉識別智能語音等技術(shù)是當(dāng)時最大的業(yè)務(wù),安防是第二大重點,通過智能視頻解決反恐、罪犯抓捕和保障公共安全,當(dāng)然也提供手機(jī)相機(jī)的算法。

曠視Face++,從名字上看就知道開始主要做人臉識別的,主要班底是清華姚班,商業(yè)上也比較明確,以人臉識別為主要技術(shù)的場景擴(kuò)展,在安防領(lǐng)域落地提供一整套方案,以智能攝像頭硬件為基礎(chǔ)的,涵蓋了包括人臉識別門禁、天眼監(jiān)控系統(tǒng)、動態(tài)人臉識別監(jiān)控、人證合一等多個應(yīng)用方向,應(yīng)用于反恐、邊檢、公安等多個監(jiān)管部門。在金融領(lǐng)域,曠視背靠投資方阿里巴巴,為支付寶客戶端提供人臉識別登錄功能支持。在移動互聯(lián)網(wǎng)方面,曠視為美圖提供技術(shù)。

云從科技孵化于中科院重慶研究院,是唯一一個沒有阿里系和外資入股的人臉識別獨角獸,目前銀行業(yè)人臉識別第一大供應(yīng)商。由于目前視覺識別的主要場景安防,金融客戶都是國家居多,云從科技也是有很大的機(jī)會的。

依圖YITU有上海交通大學(xué)背景,與上述三家不同的是,2016 年下半年率先將人工智能技術(shù)應(yīng)用于醫(yī)學(xué)影像的AI獨角獸公司。當(dāng)然也有常規(guī)的安防,金融業(yè)務(wù)。

格靈深瞳曾經(jīng)也是第一梯隊的,創(chuàng)始人趙勇是Google Glass 的七位設(shè)計者之一,但過于強(qiáng)調(diào)先進(jìn)技術(shù),和商業(yè)決策上的失誤脫離了第一梯隊,具體可以參看36Kr的小敗局:https://36kr.com/p/5226977

安防,金融幾乎是所有視覺識別公司的最大業(yè)務(wù),而從技術(shù)層面說,從2017年開始其實大家都已經(jīng)差不多了,更多的其實是商業(yè)競爭。依圖參與醫(yī)療視覺識別是個我個人覺得很有社會責(zé)任感的事情,不過有時候商業(yè)不一定會回報,短期有可能不會太有成效。格靈深瞳技術(shù)追求是深遠(yuǎn)的,可惜3D攝像頭并不普及,而且市場并不買賬最佳,而是最佳性價比,格靈深瞳的遭遇不在技術(shù)問題,而在對經(jīng)濟(jì)規(guī)律的理解上,但是我還是希望他們能繼續(xù)走下去。

個人職業(yè)選擇

目前視覺識別機(jī)器學(xué)習(xí)的算法已經(jīng)比較成熟,如果作為頂尖研究者,能改進(jìn)的方面有限,空間也不大(5%)。但只是進(jìn)入視覺識別領(lǐng)域做工程師還是有一定機(jī)會,因為具體場景結(jié)合的應(yīng)用非常多。

傳統(tǒng)行業(yè)也在梳理自己已有業(yè)務(wù),希望能應(yīng)用機(jī)器學(xué)習(xí)進(jìn)行商業(yè)落地,雖然視覺識別的算法比較成熟,但不同場景下的操作細(xì)節(jié)還是需要經(jīng)驗來調(diào)適,這一塊也需要大量人才,需要略懂機(jī)器學(xué)習(xí)和相關(guān)領(lǐng)域知識的復(fù)合人才,是項目經(jīng)理,商業(yè)人才,其他可應(yīng)用視覺識別算法領(lǐng)域人才很好的職業(yè)選擇,從職業(yè)發(fā)展上來說不會有爆炸式成長,但算是個安穩(wěn)的方向。

想要學(xué)習(xí)視覺識別機(jī)器學(xué)習(xí)課程,首選斯坦福的兩個課程:

CS231N:Convolutional Neural Networks for Visual Recognition《用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò)》 :
課程主頁:http://cs231n.stanford.edu/
視頻鏈接:https://www.youtube.com/playlist?list=PLzUTmXVwsnXod6WNdg57Yc3zFx_f-RYsq

Coursera上的斯坦?!稒C(jī)器學(xué)習(xí)》課程:
https://www.coursera.org/learn/machine-learning

更多的擴(kuò)展和深入的編程課程可以參看:
Khan Academy可汗學(xué)院:https://www.khanacademy.org/
LeetCode力扣:https://leetcode-cn.com/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容