讓我們猜猜看,下一代操作系統(tǒng)和三方應(yīng)用會是什么樣?

類似于gpt4o這種多模態(tài)實時大模型AI,最適合的硬件載體不是手機,而是AR眼鏡。預(yù)測一下,google glass會不會復(fù)活?

就像smart phone取代pc,進入移動互聯(lián)網(wǎng)時代,LLM也將帶來新一代的操作系統(tǒng)和應(yīng)用:

1、以VR眼鏡為主要硬件載體

2、LLM將作為操作系統(tǒng)級底層,以agent思想為核心,交互設(shè)計以多模交互為主(眼鏡攝像頭、麥克風(fēng)、手勢識別、基于AR的互動),memory有保存至本地的,也有cloud端的,總之會記錄用戶的各種關(guān)鍵信息,7x24私人助理,貼身還懂你。

3、操作系統(tǒng)之上的應(yīng)用層,分為action和agent兩類。action部分,比如計算器、天氣、記事本,是傳統(tǒng)的編程模式,輸入輸出非常明確的硬編碼,不涉及LLM。agent是更智能的部分,一個個垂直的專家,比如電子化辦公的、編程的、設(shè)計的,agent由LLM驅(qū)動,用ReAct方式調(diào)用action,進一步解放人腦。

操作系統(tǒng)的agent是超級大管家,和人類接觸的入口,超級大管家接受用戶指令后調(diào)用action或其他專家agent。os層面內(nèi)置了一些action和agent,同時也支持調(diào)用三方公司提供的action和agent。

action有帶GUI界面的,也有純api的,比如返回個json什么的。而agent才是終極形態(tài),比如說,旅行網(wǎng)站可以提供一個旅行agent。當(dāng)用戶向操作系統(tǒng)的大管家agent說“請幫我安排一下下周四去東京的旅游行程”,大管家agent會向用戶詢問一些細(xì)節(jié),幾個人去啊,預(yù)算多少啊什么的,然后調(diào)用旅行專家agent(比如攜程提供的agent),旅行專家會給出幾個具體方案給管家agent,比如機票、酒店、旅游線路、時間行程排、費用明細(xì)之類,然后讓用戶確認(rèn)。用戶可以追加細(xì)節(jié),旅行agent調(diào)整方案,反復(fù)幾輪后,確定了詳細(xì)計劃。用戶確認(rèn)后,機票、酒店、門票等等自動下單,系統(tǒng)自帶的用戶日程自動更新,到點提醒。

這里的關(guān)鍵點就在于用戶由“員工”變成了“boss”,只需要發(fā)出指示,然后等agent給出詳細(xì)方案,再批示接受哪個方案,只做選擇題和判斷題。

os層面向三方開發(fā)者提供的sdk,本質(zhì)上和之前的時代并無不同,最大的區(qū)別在于action多了api這種形式,而agent則需要調(diào)用LLM。至于多模交互方面,一定會弱化GUI,強化語音和手勢,畢竟LLM時代的os,硬件可能是任何形式,不一定帶鍵盤和屏幕。

以上純猜想,3、5年內(nèi)應(yīng)該就能判斷這個猜想離不離譜了。現(xiàn)在做通用大模型的公司,未來是有機會角逐操作系統(tǒng)級競爭的(鴻蒙加油,百度加油)。做各行業(yè)應(yīng)用的,趕緊研究下LLM編程,準(zhǔn)備下api接口和agent,早做準(zhǔn)備,未來這個方向肯定又有一波流量紅利和程序員稀缺行情,參考2010、2011年的移動互聯(lián)網(wǎng)。而做垂直大模型的,你們自求多福吧,方向一定錯了。。。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容