理解AI智能體的四大能力

一:感知能力

階段1、單純的大模型是依靠海量的文本數(shù)據(jù)訓練出啦的,基礎的感知方式就是接收用戶輸入的文本

階段2、間接多模態(tài)感知:利用OCR這種中間工具,把圖片、PDF等轉化為文本輸入給大模型

階段3、端到端視覺感知:第2種方式有明顯的問題比如:識別不到圖片的背景顏色、聲音的語氣語調;GPT4有了Vision版本開啟了多模態(tài)模型的初階狀態(tài)

階段4、端到端多模態(tài)感知:能夠理解聲音中語氣、語調以及圖片細節(jié)等信息,甚至能視頻 時序的多模態(tài)大模型 此時大模型有了其:耳朵、眼睛、嘴巴都有啦

二:規(guī)劃能力

Agent規(guī)劃能力演變:

階段1、初步規(guī)劃能力的萌芽(CoT與ToT)

COT思維鏈模式:讓模型在給出最終答案之前,先主動去拆解一下問題

比如:第一步考慮該干什么,第二步再干什么…最后再把以上這些步驟綜合起來得出結論

思維樹:讓大模型想好幾種不同的思路,選最好的那個

階段2、工作流和多智能體架構:各個AI各司其職、協(xié)作來完成任務 人為干預(Workflow和多智能體架構)———治標不治本

階段3、專門推理模型(OpenAI的O1和R1)

讓大模型內化的學會了在每一次回答問題之前都有一個自主的推理過程

階段4、模型即Agent;端到端訓練的“模型即Agent”(DeepResearch)

模型自主決定,什么時候需要去搜一下信息,什么時候應該整理一下信息,什么時候應該進入深度的搜索…再分析總結,整個過程完全是它自己控制的,并不是依賴預先設計好的工作流或者是人為指定的步驟

搜索和閱讀是怎么來的呢?

三:行動能力

1、監(jiān)督微調(SFT),提供一些示例做監(jiān)督微調,讓模型學會了去調用工具

監(jiān)督微調:通過人工標注的高質量數(shù)據(jù)來訓練預訓練大模型,使其更好的完成特定任務

Function Calling(大模型函數(shù)調用)——插件功能、代碼解釋器等所依賴的就是自己有不少的API工具

2、直接學人類用電腦

Authropic發(fā)布了Computer use,訓練大模型從視覺上就能看懂這個電腦屏幕,可以點擊和操作電腦(原理:直接去訓練模型來理解屏幕像素的一個能力)

如果只讓大模型去控制瀏覽器會更好搞定Brower use,用傳統(tǒng)的網(wǎng)頁自動化工具(Play white)間接讓模型控制瀏覽器的能力 比如:OpenAI的Operator

3、MCP(Model Context Protocal) 模型上下文協(xié)議,由Authropic推出;

簡單來說,原本大模型調用API是一個工具就需要單獨配一把鑰匙對著一個鎖(鑰匙和鎖還需要自己造),MCP就相當于一個多孔Type-C轉接頭,要求所有人都按這個規(guī)格來做接口,用什么工具,直接往上插就行

簡單來說MCP就是AI大模型的標準化工具箱,大模型可以利用這些工具與外界互動,獲取信息并且完成具體任務

AI與外部工具的中間層,代替人類訪問并且操作外部工具

每個MCP Server都專精于一類的工作,比如:有的負責讀寫本地文件,有的負責讀寫瀏覽器,有的操作Git倉庫

MCP通常就是運行在本地的一段nodejs或Python程序,大模型通過操作系統(tǒng)的stdio也就是標準輸入通道調用某個MCP Server

MCP接口請求后,通過代碼功能或者使用API請求訪問外部工具完成任務

MCP其實與function call功能相似,其最大優(yōu)點是整合了之前各家大模型不同的function call的標準,整合成統(tǒng)一的標準協(xié)議

包括OpenAI剛發(fā)布的Agent SDK以及新的response API,并且還內置了OpenAI自己開發(fā)的工具

四:記憶能力

LLM早期的上下文非常短(或者說短期記憶力很差),光上下文長度不夠,有時候還是希望永遠不要忘記,所以還有另一個方案叫RAG(Retriveal-Augmentd Generation)檢索增強生成

簡單理解就是把大模型需要記憶的知識,事先存到一個外部的一個向量數(shù)據(jù)庫里,每次需要的時候,再去數(shù)據(jù)庫里找有沒有相關的內容

記憶模塊:Agent需要在中途對前面發(fā)生的事做一定的總結,存起來,自己偶爾去回顧一下,這樣就形成了一個記憶模塊

NSA(Sparse Attention Mechanism)稀疏注意力機制;是一個用于超快長上下文訓練和推斷的本地可訓練的稀疏注意力機制,并且還具有與硬件對齊的特點。論文地址

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容