機(jī)器人是怎么知道如何抓握杯子的?

姓名:韓宜真

學(xué)號:17020120095

轉(zhuǎn)載自:http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650802504&idx=4&sn=f7bad9bcf4ab0225eb88bf9a22539fdf&chksm=84e5cd36b3924420413405a3e4070d9366594d9fce9d0dcf6e8640656666cd4b9c1b9aa36e94&mpshare=1&scene=23&srcid=1117JD7sbcHYMfhbifSxGBpU&sharer_sharetime=1605622777651&sharer_shareid=3f1a3081900d54d7638a82ca5b9e8a0d#rd

【嵌牛導(dǎo)讀】人類對于杯子的用途和如何把它拿起來是很容易理解的,但這件事對于機(jī)器人來說卻不然。

【嵌牛鼻子】視覺任務(wù) 神經(jīng)網(wǎng)絡(luò)?

【嵌牛提問】機(jī)器人是怎么抓住杯子的呢?

【嵌牛正文】如何推理一個(gè)物體的 Affordance 是機(jī)器人相關(guān)研究的一個(gè)重點(diǎn)關(guān)注方向。在具體的 Affordance 中,抓?。╣rasping)又是格外重要的一個(gè)功能。

前言

作為最早提出 Affordance 這一概念的學(xué)者,James Gibson 在他的書 [1] 中正式定義了 Affordance:

Affordance 是環(huán)境所允許個(gè)人能實(shí)現(xiàn)的功能(Affordance is what the environment offers the individual)。

不過 Affordance 所最為人知的定義應(yīng)該是在他幾年后出版的書 [2] 中的定義:

Afford 是在字典中存在的一個(gè)詞,但 Affordance 不是。Affordance 是我個(gè)人創(chuàng)造出來的一個(gè)詞。Affordance 指代環(huán)境為動物 / 人類提供的一種功能。我想用這個(gè)詞來表達(dá)環(huán)境和動物 / 人類的互補(bǔ)性。

在中文語境下,Affordance 可以大致理解為物體 / 環(huán)境的直觀功能。雖然語意上比較難以理解,Affordance 卻是每個(gè)人在日常生活中下意識便會應(yīng)用的技能。舉例來說,當(dāng)人類看到一個(gè)馬克杯的時(shí)候,他 / 她立刻就能夠理解杯子是可以用來盛物體的——不論是咖啡等液體還是固體——并且馬克的杯柄可以被抓握。除此之外,假如人類看到茶杯、玻璃杯、酒杯等任何非馬克杯的物體,也不會因此而無法推斷該物體是否還能夠盛物體。人類幾乎天然就理解小型物體上的柄可以被抓握和應(yīng)該從那個(gè)角度抓握。人類也可以輕易理解門上的把手是用來推或拉的,掛鉤上的鉤子是用來掛東西的、家用電器上的按鈕是用來按(或者扭)的。設(shè)計(jì)師在設(shè)計(jì)產(chǎn)品時(shí)也必須將物體的 Affordance (直觀功能)和如何引導(dǎo)用戶理解物體的 Affordance 納入考慮中。不信?請移步設(shè)計(jì)師 Katerina Kamprani 精心設(shè)計(jì)的「不舒服」的產(chǎn)品一覽究竟。

設(shè)計(jì)師 Katerina Kamprani 設(shè)計(jì)的一系列讓人感覺「不舒服」的產(chǎn)品,其實(shí)就是違反了一個(gè)物件應(yīng)該有的 Affordance(圖源:https://www.theuncomfortable.com)

雖然 Affordance 是人類與生俱來的技能點(diǎn),機(jī)器人卻沒有這樣的「運(yùn)氣」。由于機(jī)器人本質(zhì)上只是在運(yùn)行人類開發(fā)的軟件而不能進(jìn)行真正的推理——至少目前還是這樣——機(jī)器人對 Affordance 的理解取決于人類在這一領(lǐng)域的研究進(jìn)展。實(shí)際上,機(jī)器人領(lǐng)域的研究已經(jīng)證明了 Affordance 遠(yuǎn)遠(yuǎn)不止是只存在于書本中的心理學(xué)概念。具體來說,物體的抓取和操縱中,機(jī)器人需要通過視覺線索和經(jīng)驗(yàn)中學(xué)習(xí)周圍環(huán)境中物體的 Affordance,包括是否可以操縱物體、如何抓握物體以及學(xué)習(xí)操作對象以達(dá)到特定目標(biāo)。?

不難看出,如何推理一個(gè)物體的 Affordance 是相關(guān)研究的一個(gè)重點(diǎn)關(guān)注方向。在具體的 Affordance 中,抓?。╣rasping)又是格外重要的一個(gè)功能。這兩點(diǎn)將是本文的討論重點(diǎn)。

推理

推理(reasoning)Affordance 很好理解,即推斷一個(gè)物體的 Affordance —— 不論是通過視覺上的線索,還是通過過去的經(jīng)驗(yàn)知識。機(jī)器人需要理解有柄的物體可以抓握,帶有凹陷的物體可以盛物品。

推理物體的 Affordance 可以簡單分為推理單一物體的 Affordance 和推理多個(gè)物體的 Affordance。由于多個(gè)物體間可能存在互動 (interaction),Affordance 的推理很容易就會變得非常復(fù)雜。本文將集中于單一物體的 Affordance 推理。

兩個(gè)物體之間可能有互動(interaction),從而改變了物體的 Affordance。(圖源:https://www.theuncomfortable.com)

具體來說,學(xué)習(xí)推理單一物體 Affordance 的方法可以分為三類:通過模擬(simulation)、通過視覺特征(visual features)、和通過構(gòu)建知識圖譜(knowledge graph)。

通過模擬(simulation)

在 [3] 中,Hongtao Wu 和 Gregory S. Chirikjian 利用模擬物體落入容器中的物理過程來對開放式容器——即無蓋的容器,杯子、碗、碟等——的容納性 (containability affordance)進(jìn)行推理。還是用水杯舉例,當(dāng)機(jī)器人面對一個(gè)水杯時(shí),需要模擬從水杯上方傾倒物體的結(jié)果——物體是會落到桌面上還是會落到水杯內(nèi)?假如機(jī)器人面對的是一個(gè)沒有杯底的水杯,結(jié)果是什么?

整個(gè)實(shí)驗(yàn)中,作者使用了一個(gè)具有抓握功能的機(jī)器手,并在其上安裝了 RGB-D 攝像機(jī)來對推理對象進(jìn)行掃描。在 RGB-D 攝像機(jī)下有一個(gè)透明的平臺,被推理的物體將會被放置在其上。具體設(shè)置如下圖所示。

實(shí)驗(yàn)設(shè)計(jì)(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)

實(shí)驗(yàn)過程中,不同的物體會被隨機(jī)放置在透明平臺上,機(jī)器手會依次移動到 24 個(gè)預(yù)先設(shè)定好的位置上,利用腕上安裝的 RGB-D 攝像機(jī)捕獲場景的深度圖像。接下來作者使用? TSDF Fusion [12] 密集地重建場景。由于平臺是透明的,相機(jī)的深度傳感器不會捕捉到該平臺,被建模物體的 3D 重建會比較簡單 —— 只要在重建的場景中剪切(crop)即可。生成的 3D 模型會被用于接下來的模擬中,如下圖中間所示,算法需要模擬類似于 M&M 豆大小的灰色的小顆粒物體向被推理對象掉落的物理過程,并計(jì)算究竟有多少顆粒會進(jìn)入到該物體內(nèi)并被容納以量化一個(gè)物體的容納性,即判斷一個(gè)物體是否是開放式容器。若模擬結(jié)果顯示被推理物體內(nèi)不保有任何顆粒,則該物體不是開放式容器。在下圖例子中,算法對紙杯和一卷膠帶分別進(jìn)行了模擬,結(jié)果顯示只有紙杯是開放式物體。若一個(gè)物體被判斷為開放式容器,機(jī)器手還會再次進(jìn)行模擬,以推斷自己應(yīng)該倒入的位置和方向,然后將之付諸于行動。

機(jī)器手對紙杯和膠帶的容納性進(jìn)行推理。(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)

作者利用 11 個(gè)物體對整個(gè)模擬算法(以 Imagination 代指)進(jìn)行了校準(zhǔn),然后將其與利用深度學(xué)習(xí)對 RGB 圖像進(jìn)行學(xué)習(xí)的 AffordanceNet [11] 進(jìn)行了比較。測試集包含 51 個(gè)物體——23 個(gè)開放式容器和 28 個(gè)非開放式容器,測試表現(xiàn)用 accuracy 和 AUC (area under curve)進(jìn)行衡量。下表中可以看出 AffordanceNet 和 作者所提出的模擬方法都在測試集上取得了非常好的表現(xiàn)。Imagination 的準(zhǔn)確度稍差,主要是因?yàn)閷Ρ煌评砦矬w的 3D 建模不夠準(zhǔn)確,從而導(dǎo)致生成的 3D 模型上出現(xiàn)了輕微凹陷,而凹陷部位可以容納小顆粒物體從而導(dǎo)致了物體被誤判為開放式容器。另一些失敗的情況則比較模棱兩可,如湯匙,這種爭議在人類標(biāo)注者上也存在。另一方面,由于使用了 RGB-D 相機(jī),Imagination 算法可以利用深度信息,這對推理和執(zhí)行傾倒這個(gè)動作是有優(yōu)勢的。作者在之后進(jìn)行的一些實(shí)驗(yàn)也證明了這一點(diǎn)。


利用模擬來對物體的 Affordance 進(jìn)行學(xué)習(xí)的優(yōu)勢主要在于可解釋度高、對未知物體的魯棒性好,難點(diǎn)則在于嵌入式開發(fā)中的硬件設(shè)施、計(jì)算能力、模擬算法的準(zhǔn)確性等。比如本文的實(shí)驗(yàn)中 (1)被推理物體需要一直處于深度傳感器的測量范圍內(nèi);(2)只能對物體的頂部和側(cè)面進(jìn)行建模,因?yàn)闊o法機(jī)器手無法從被推理物體的下方進(jìn)行掃描;(3)模擬算法模擬的是離散的剛性顆粒,其他物體——比如水——?jiǎng)t具有完全不同的物理特性;(4)Affordance 的推理局限于物體的容納性,如果想要將該研究延伸到新的 Affordance 如物體的抓握性,則需要完全的不同的模擬算法。

通過視覺特征(visual features)

由于人類主要通過視覺線索對物體的 Affordance 進(jìn)行推理,利用 RGB 照片建模的研究并不少見,比如前文提到的 AffordanceNet。隨著深度學(xué)習(xí)的流行,不少研究會訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來取代傳統(tǒng)的特征工程。[4] 就是典型的一例。這篇研究有意思的地方在于作者特意選擇了專家演示的視頻組成數(shù)據(jù)集,利用人類理解物體 Affordance 的線索訓(xùn)練模型。如果 [4] 也使用的視頻中也有水杯,那么 CNN 就需要對專家演示中將茶水傾倒到水杯中和抓握杯柄將水杯端起來的片段理解水杯的容納功能和抓握功能。

專家演示的視頻來自互聯(lián)網(wǎng)上充斥著的大量的產(chǎn)品評論視頻 (product review videos),其中很多視頻中會有一名「專家」——比如產(chǎn)品評論者——通過對產(chǎn)品對象的一系列操作來詳細(xì)演示產(chǎn)品功能。除了為消費(fèi)者們拔草種草外,這些視頻還為作者提供了新思路——用這些視頻組成能夠?yàn)闄C(jī)器人提供有關(guān) affordance 以及人們?nèi)绾闻c產(chǎn)品交互的大規(guī)模、高質(zhì)量數(shù)據(jù)。

產(chǎn)品評論視頻中往往有一名「專家」在對產(chǎn)品進(jìn)行演示(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)

這種方法雖然從邏輯上看非??尚?,但卻面臨兩個(gè)挑戰(zhàn):第一,這些視頻中的產(chǎn)品和機(jī)器人要面對的產(chǎn)品在外觀上可能有非常大的差異,如何保證機(jī)器人學(xué)到的 affordance 對產(chǎn)品外觀是穩(wěn)健的;第二,在視頻中「專家」和產(chǎn)品的交互并不頻繁,比如在上圖例子中幾乎只有第三幀中「專家」有對產(chǎn)品進(jìn)行操作,還是在有大量的背景信息下進(jìn)行的,機(jī)器人需要在其中辨別并學(xué)習(xí)真正有用的信息。

作者提出的解決辦法是將模型(Demo2Vec)分解為演示編碼器(Demonstration encoder)和 affordance 預(yù)測器(affordance prediction),演示編碼器負(fù)責(zé)將演示視頻通過「演示嵌入」(demonstration embedding) 總結(jié)為了人類動作和被推理物體外觀的低維向量,這里的需要解決的問題主要是如何提取關(guān)于人與物體交互的有用視覺提示,如前文提到的,這種交互在視頻中比較稀疏 (「sparse」), 且存在許多其他無關(guān)物體。作者提出用卷積 LSTM 網(wǎng)絡(luò)(ConvLSTM)和 soft-attention 來組成演示編碼器。卷積 LSTM 網(wǎng)絡(luò)使用兩組信息作為輸入,一組是視頻幀,即正常的 RGB 圖像,另一組則是當(dāng)前的視頻幀和前一幀的差值(?x_t = x_t -x_{t-1})用以捕捉兩幀之間的動態(tài)變化, 從而捕捉手部動作的變化訊息。

接下來,卷積 LSTM 網(wǎng)絡(luò)的兩組輸出(RGB 特征和動態(tài)特征)將會被輸入到 soft attention 模塊中,最終得到的注意力權(quán)重會與 RGB 特征相乘,并對所有幀求和,從而生成 demonstration embedding。利用 demonstration embedding,affordance 預(yù)測器 (predictor)將知識轉(zhuǎn)移到目標(biāo)圖像上預(yù)測被推理物體的交互區(qū)域和動作標(biāo)簽。

(a)模型概述。Demo2Vec 模型由一個(gè)演示編碼器和一個(gè) affordance 預(yù)測器組成。(b)演示編碼器。演示編碼器將輸入的演示視頻嵌入到低維向量,輸入圖像包括 RGB 圖像和 運(yùn)動圖像 (motion modality),然后用 soft attention 將兩部分信息融合起來。affordance 預(yù)測器然后利用嵌入向量來預(yù)測目標(biāo)圖像中展示的物體的 affordance 和熱力圖(heat map)。(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)

訓(xùn)練后的模型在面對同一個(gè)演示視頻的不同時(shí)段,根據(jù)演示者的不同操作會對同一個(gè)物體推理出不同的 affordance。在下圖給出的例子中,演示者在制作奶昔,并依次涉及到了四個(gè) affordance:拿住(hold)、拿起(pick up)、推(push)、拿起(pick up)。該視頻被分為 4 個(gè)短片(由不同顏色表示),模型能夠正確的根據(jù)演示理解 affordance 并且識別每個(gè) affordance 對應(yīng)的部位。這和人類的表現(xiàn)更相似,能夠讓機(jī)器人更自然一些。

不同的演示可以令模型對同一物體推理出不同的 affordance(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)

但是,不可避免地,當(dāng)演示視頻中出現(xiàn)許多雜物或其他和被推理物體十分相似的物體時(shí),模型很容易受到誤導(dǎo)。如下圖所示,演示人站在攝像機(jī)前占據(jù)了大部分畫面,并且遮擋了被推理物體,此時(shí)模型錯(cuò)誤的將物體的 Affordance 預(yù)測為 Hold(如圖中紅色方框所示), 而實(shí)際上應(yīng)該是 Rotate(如圖中綠色方框所示)。

當(dāng)演示人遮擋了被推理物體時(shí)推理結(jié)果會出錯(cuò)(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)

此外,每次對物體的 affordance 進(jìn)行判斷時(shí),演示視頻是必不可少的。而人類只需要對演示視頻觀看幾次就能夠直接對未知物體進(jìn)行推理。從這一點(diǎn)看利用模擬(simulation)的 [3] 的泛化能力要更好一點(diǎn)。但利用視覺線索仍然是最接近人類推理 Affordance 的方法之一。算力方面,根據(jù)模型的不同——比如 [5] 直接用 RGB-D 圖像 3D 建?!锌赡軐τ?jì)算能力有很高的要求。

通過構(gòu)建知識圖譜(knowledge graph)

可以看出,利用視覺信息 + CNN 的方法主要是試圖模擬人類學(xué)習(xí) Affordance 的過程,但是由于 CNN 是黑箱模型,訓(xùn)練出來的模型可解釋性差。除此之外,絕大多數(shù)訓(xùn)練好的 CNN 本質(zhì)上仍是一個(gè)分類器,因而其能夠推理的 Affordance 也局限于訓(xùn)練數(shù)據(jù)所包含的 Affordance。使用構(gòu)建知識庫的方法則不一樣,由于物品的各項(xiàng)特征都被單獨(dú)標(biāo)記了出來用于最后的推理,模型在可解釋性方面更有優(yōu)勢,使用基于知識的表示形式便于對學(xué)習(xí)范圍進(jìn)行擴(kuò)展。如果利用知識圖譜對水杯的 Affordance 進(jìn)行學(xué)習(xí),得到的規(guī)則可能是「有柄的物體可以被抓握,有開口并且有底的物體可以容納」。

[6] 利用圖像和其他元數(shù)據(jù)源中獲取物品的各種信息,然后使用馬爾可夫邏輯網(wǎng)絡(luò)(MLN)學(xué)習(xí)知識圖譜。在對未知物品進(jìn)行推理時(shí)只依賴于已習(xí)得的知識庫而無需訓(xùn)練單獨(dú)的分類器,包括 zero-shot affordance prediction。

作者通過從圖像以及諸如 Amazon 和 eBay 之類的在線文本源中提取信息來抽取物品的屬性和 Affordance, 然后從中學(xué)習(xí)知識圖譜。每一個(gè)物品都有三類屬性:視覺屬性(Visual attributes)、物理屬性(Physical attributes)和分類屬性(Categorical attributes)。視覺屬性對應(yīng)于從視覺感知中獲得的信息,包括物品的形狀和材質(zhì)等;物理屬性包括物體的重量和大??;分類屬性則反映物體所屬于的更抽象的類別,比如動物、機(jī)器、器械、電器等等。

相應(yīng)地,每個(gè)物品也有三類標(biāo)簽:Affordance 標(biāo)簽、人體姿勢(Human poses)和人與物品的相對位置(Human-object relative locations)。后兩者分別用于描述人體的姿勢和人與物品交互過程中人與物體之間的空間關(guān)系。

在數(shù)據(jù)收集好之后,就可以利用馬爾可夫邏輯網(wǎng)絡(luò)(MLN)從中學(xué)習(xí)關(guān)系即通用規(guī)則的權(quán)重來構(gòu)建知識圖譜。下圖可視化了作者所構(gòu)建的知識圖譜的一部分。在下圖中,每個(gè)節(jié)點(diǎn)包含了某一類屬性或標(biāo)簽,連接兩個(gè)節(jié)點(diǎn)的線段則代表兩個(gè)節(jié)點(diǎn)之間的邏輯公式——比如既是 vehicle 又是 animal,MLN 需要學(xué)習(xí)相應(yīng)的權(quán)重,其中正權(quán)重表示兩者可能同時(shí)出現(xiàn),由綠色實(shí)線表示,負(fù)權(quán)重表示兩者是負(fù)相關(guān)的,由紅色虛線表示。在本例中 vehicle 和 animal 是由紅色虛線連接的,即兩者不大可能出現(xiàn)在同一物體上。

構(gòu)造的 KB 的圖形化顯示。?(圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.)

在執(zhí)行推理時(shí),模型首先根據(jù)提供的圖像抽取物體的視覺屬性,然后推測其物理和分類屬性。利用這些屬性模型可以在習(xí)得的知識圖譜中對物體的 Affordance 進(jìn)行查詢。下圖給出了? zero-shot affordance prediction 的例子。

zero shot affordance prediction 的推理過程。給定一個(gè)未知對象的圖像,模型通過 hierarchical model 估算對象屬性。這些屬性可作為知識圖譜查詢的線索,從而對 Affordance 進(jìn)行預(yù)測,并估計(jì)人體姿勢和人體的相對位置。(圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.)

由于推理是運(yùn)用多個(gè)線索綜合完成的,模型的穩(wěn)健性較好,不容易出現(xiàn)缺少某一個(gè)屬性的信息就推理失敗的情況。靈活性也好,可以比較容易的對模型進(jìn)行擴(kuò)展。不便之處則在于模型的質(zhì)量很大程度上依靠于知識圖譜的質(zhì)量,而后者又依靠于數(shù)據(jù)集的質(zhì)量。如果數(shù)據(jù)集中有很強(qiáng)的偏置(bias),比如紅色的物體剛好都可以被抓握,所生成的模型表現(xiàn)也會受到影響。

當(dāng)然,許多研究會將上述的方法混合起來,比如 [9] 和 [10] 就使用了 CNN 抽取特征用于構(gòu)建知識圖譜。

抓握(grasping)

抓握(grasping)是人類生活最常用到的動作之一,而機(jī)器人的任務(wù)就是根據(jù)已經(jīng)學(xué)習(xí)過的物體推斷未知物體的 grasping affordance,即一個(gè)物體是否能被抓握。抓握和推理任務(wù)在一定程度上有重合。在機(jī)器人領(lǐng)域內(nèi),有很多研究會將推斷物體是否能被抓握和識別物體具體能夠被抓握的位置放在一個(gè)學(xué)習(xí)任務(wù)中。另一方面,抓握也可以分為學(xué)習(xí) simple-task affordance 和 task-specific affordance。本文的重點(diǎn)會更偏向于推理未知物體能否被抓握,借用 zero-shot learning 的概念——在上文中的知識圖譜中也有簡要提到——這一領(lǐng)域也被叫做 zero-shot (grasp) affordance。這也算是推理抓握功能的難點(diǎn)之一,其他難點(diǎn)還包括實(shí)時(shí)推理、數(shù)據(jù)收集等。

早期的一些研究會利用本地特征抽取器(local feature extractors )來學(xué)習(xí)一個(gè)物體是否能被抓握,如 [7]。雖然隨著深度學(xué)習(xí)的流行手工設(shè)計(jì)的特征已經(jīng)不再吃香,這篇文章還是在一定程度上解決了如何面對未知物體的問題:只尋找物體上是否有具有已知能夠抓握的部位。[8] 則使用了神經(jīng)網(wǎng)絡(luò)來判斷一個(gè)物體可能的 Affordance,包括正面吸取(suction down)、側(cè)面吸取(suction side)、抓握(grasp down)和齊平抓握(flush grasp)。四種 Affordance 如下圖所示,抓握和齊平抓握的區(qū)別主要是后者具有在目標(biāo)對象和墻壁之間滑動一根手指的附加行為。

神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的四種 Affordance(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)

在訓(xùn)練過程中,作者使用到兩個(gè)全卷積殘差網(wǎng)絡(luò)(FCN) —— ResNet101 —— 中分別判斷物體的吸取和抓握的 Affordance。為判斷物體是否能夠被吸取,下圖中上排的 FCN 使用多視角 RGB-D 圖像作為輸入,然后對每個(gè)像素的 吸取 Affordance 進(jìn)行預(yù)測,預(yù)測值越接近 1,則代表該部位越容易被吸取。隨后,模型需要將所有視角的的預(yù)測匯集到 3D 點(diǎn)云(3D point cloud)上。

圖中下排的 FCN 則負(fù)責(zé)抓握 Affordance 的推理。作者假設(shè)一個(gè)物體可抓握與否取決于該物體是否有可抓握區(qū)域,并且可抓握區(qū)域可以從物體具備的幾何形狀和外觀推斷,即 [7] 的思想。首先,RGB-D 圖像將被合并到場景的正交 RGB-D 高度圖(orthographic RGB-D heightmap)中,來生成場景的高度圖。圖中的每個(gè)像素代表垂直方向——即重力方向——上的 2mm*2mm 的空間。FCN 需要對圖中的每個(gè)像素的抓握 Affordance 進(jìn)行判斷(0-1 的概率),由于作者假設(shè)機(jī)器手的位置是與生成的高度圖在垂直方向上平行的,生成的 Affordance heatmap 可以直接用于機(jī)器手在該方向上抓握該物體某一個(gè)部位的可能性。通過將高度旋轉(zhuǎn) 16 次到不同的角度,并用 FCN 對其進(jìn)行預(yù)測,則可以得出在不同方向上對該物體抓握的可能性,即預(yù)測結(jié)果直接包含了 16 種不同的自上而下的抓取角度的概率圖。

在后處理(post-processing)時(shí),根據(jù)最佳抓握點(diǎn)在生成的 3D 點(diǎn)云中的位置,算法會計(jì)算機(jī)器手兩根手指的最佳寬度。同時(shí),如果最佳抓握點(diǎn)過于靠近墻壁,算法會推薦執(zhí)行齊平抓握,否則執(zhí)行一般的抓握。

作者所提出的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)

由于在進(jìn)行推理時(shí),訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)有可能遇到未知的物體,作者提出了跨領(lǐng)域圖像匹配(cross-domain image matching)模型來通過通過檢索一組產(chǎn)品圖像中的最佳匹配來解決此識別問題。該模型由兩組 ConvNet (two-stream ConvNet)組成,一個(gè)用來對已知的圖像計(jì)算 2048 維特征,另一個(gè)則為用于檢索的圖像——即未知物品的圖像——計(jì)算 2048 維特征。在訓(xùn)練時(shí)作者從已知的物體中提供一系列匹配和不匹配的圖像對來提供平衡的正例和反例,然后用 Triplet Loss 作為損失函數(shù)。這樣可以有效地優(yōu)化網(wǎng)絡(luò),從而最大程度地減小匹配對特征之間的 l2 距離,同時(shí)拉開不匹配對特征之間的 l2 距離。在測試過程中,已知對象和未知對象的圖像都被映射到公共特征空間上,模型通過將觀察到的圖像映射到相同的特征空間并找到可能性最高的匹配來識別它們。本質(zhì)上[8] 是把未知物體的推理簡化成了搜索任務(wù)。

未知物體的識別框架(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)

[9] 和 [6] 有一定相似度,但 [9] 中的 CNN 是為了構(gòu)建知識圖譜然后用 MLN 進(jìn)行學(xué)習(xí)而服務(wù)的。其提出的模型如下圖所示,在學(xué)習(xí)階段(紫色方框)根據(jù)已經(jīng)給出的一系列物體屬性、抓握功能 以及依次創(chuàng)造出的規(guī)則(rules),作者使用 MLN 來學(xué)習(xí)物品的屬性、位置和抓握功能之間的語意關(guān)系。學(xué)習(xí)完成后得到白色方框內(nèi)所示例的知識圖譜。在推理階段(藍(lán)色方框),作者使用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)從被推理的 RGB 圖像中提取被推理物品的屬性,即形狀、紋理、材料、位置等。為了從訓(xùn)練好的知識圖譜中查詢具體的抓握功能,作者使用吉布斯抽樣(Gibbs sampling),在計(jì)算量允許的情況下遍歷盡可能多的可能性來生成后驗(yàn)樣本。

[9]中的抓握功能推理框架,由學(xué)習(xí)(learn),查詢(query)和映射(mapping)組成。學(xué)習(xí)的模型(由白色矩形標(biāo)注)使用彩色線段對節(jié)點(diǎn)之間的關(guān)系進(jìn)行編碼(圖源:Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)

相對于 [6], [9] 專注于解決抓握功能的推理,同時(shí)對其進(jìn)行了很多細(xì)分。在此之后, [9] 將一組細(xì)分后的掌握功能與一個(gè)物體相關(guān)聯(lián)。下圖描繪了在不同室內(nèi)場景中,不同形狀的物體可能對應(yīng)的抓握功能。三個(gè)箭頭按照顏色代表物體上不同位置更可能或更不可能擁有的抓握功能。所有的可能性都已經(jīng)經(jīng)過了歸一化處理,在(+1,-1)內(nèi)分布,數(shù)值越高,則代表可能性越大。

有趣的是,可以看到,在不同的抓握功能中,與性狀最無關(guān)的功能是移交(hand over)。而其他功能,如盛納(contain)則與物體的形狀關(guān)聯(lián)度很大。開放式容器更有可能具有盛納功能而其他形狀如螺絲刀等則最不可能具有盛納功能。

對物體的形狀和抓握功能之間的可能性進(jìn)行可視化(圖源:Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)

結(jié)論

不難看出,Affordance 的研究重點(diǎn)之一是發(fā)展機(jī)器人的泛化能力。正如人類能夠?qū)π螤蠲黠@不同但 Affordance 相同的物體——比如玻璃杯 vs 葡萄酒杯——成功進(jìn)行推理,同時(shí)還不會混淆形狀相同但 Affordance 不同的物體,比如杯子和蠟燭。我們離人類的水平目前還有一段距離,但得益于深度學(xué)習(xí)的發(fā)展,Affordance 的推理也取得了很多突破。特別是 CNN 結(jié)合知識圖譜的路線,已經(jīng)提供不少非常有希望的結(jié)果。

但另一方面,硬件仍然是這個(gè)領(lǐng)域內(nèi)的一個(gè)挑戰(zhàn)。相較于普通的視覺任務(wù)(vision task),深度信息對于 Affordance 的學(xué)習(xí)至關(guān)重要。想象一下上文中兩個(gè)杯子交纏的例子,若沒有深度信息模型就無法正確推理。雖然這個(gè)例子比較極端,但當(dāng)機(jī)器人需要和真實(shí)世界——一個(gè)有很多靜止和非靜止物體的世界——進(jìn)行交互時(shí),深度信息絕對是必不可少的。此外,如果模型不能被部署在云端上,算力也是對目前機(jī)器人身上的硬件的一個(gè)挑戰(zhàn)。使用模擬或者使用神經(jīng)網(wǎng)絡(luò),這兩個(gè)方法對算力的要求都比較高,并且很多研究在推理并定位了 Affordance 還需要將結(jié)果投射到 3D 模型上,又進(jìn)一步加大了硬件算力方面的挑戰(zhàn)。

總的來說,筆者對機(jī)器人這一領(lǐng)域的發(fā)展充滿信心,期待能夠盡快看到更多研究上的突破落實(shí)到實(shí)際生產(chǎn)中。也許在不遠(yuǎn)的將來,我們就能在海底撈看到機(jī)器人服務(wù)員為你端茶倒水、為你表演扯面了呢? :-)

參考文獻(xiàn)

[1] J. J. Gibson (1966). The Senses Considered as Perceptual Systems. Allen and Unwin, London.

[2] J. J. Gibson (1975). 'Affordances and behavior'. In E. S. Reed & R. Jones (eds.), Reasons for Realism: Selected Essays of James J. Gibson, pp. 410-411. Lawrence Erlbaum, Hillsdale, NJ, 1 edn.

[3] H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.

[4] K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018). Demo2Vec: Reasoning Object Affordances from Online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[5] Y. Zhu, C. Jiang, Y. Zhao, D. Terzopoulos, and S.-C. Zhu.(2016).? Inferring forces and learning human utilities from videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3823–3833.

[6] Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge Base Representation. ECCV.

[7] Montesano L. and Lopes M. (2009).,Learning grasping affordances from local visual descriptors. 2009 IEEE 8th International Conference on Development and Learning

[8] Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.

[9] Ardón P., Pairet è. , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.

[10] Ardón P., Pairet è., Petrick R., Ramamoorthy S., Lohan K. (2019) Reasoning on Grasp-Action Affordances. Towards Autonomous Robotic Systems. TAROS 2019. Lecture Notes in Computer Science, vol 11649.?

[11] Do, T.-T., Anh N., and Ian R. (2018). Affordancenet: An end-to-end deep learning approach for object affordance detection. 2018 IEEE international conference on robotics and automation (ICRA).?

[12] B. Curless and M. Levoy. (1996) A volumetric method for building complex models from range images. Proceedings of the 23rd annual conference on Computer graphics and interactive techniques, pp. 303–312.?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • https://ntrs.nasa.gov/archive/nasa/casi.ntrs.nasa.gov/200...
    hydro閱讀 1,316評論 0 0
  • 一種高仿仿擬人機(jī)器人手臂的人造肢體再生設(shè)計(jì) Zhe Xu和Emanuel Todorov “摘要 - 從機(jī)器人...
    hydro閱讀 979評論 0 0
  • 久違的晴天,家長會。 家長大會開好到教室時(shí),離放學(xué)已經(jīng)沒多少時(shí)間了。班主任說已經(jīng)安排了三個(gè)家長分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,868評論 16 22
  • 創(chuàng)業(yè)是很多人的夢想,多少人為了理想和不甘選擇了創(chuàng)業(yè)來實(shí)現(xiàn)自我價(jià)值,我就是其中一個(gè)。 創(chuàng)業(yè)后,我由女人變成了超人,什...
    亦寶寶閱讀 2,019評論 4 1
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友。感恩相遇!感恩不離不棄。 中午開了第一次的黨會,身份的轉(zhuǎn)變要...
    余生動聽閱讀 10,916評論 0 11

友情鏈接更多精彩內(nèi)容