
頭條
Claude Opus 4.5
https://www.anthropic.com/news/claude-opus-4-5
Claude Opus 4.5 是首個在 SWE-bench Verified 測試中得分超 80% 的模型。它在編碼、工具使用和推理基準測試中都取得了頂尖成績。該模型定價為每百萬Token 5 美元/25 美元,比之前的 Opus 定價有所降低。它新增了“努力”參數(shù),讓開發(fā)者可以在速度和性能之間做權(quán)衡;具備自動上下文壓縮功能,能實現(xiàn)無限長對話;Claude for Chrome 和 Claude for Excel 的使用范圍也擴大了。
ChatGPT 推出購物研究功能
https://openai.com/index/chatgpt-shopping-research
正值假期,OpenAI推出了一個交互式產(chǎn)品發(fā)現(xiàn)功能,它能搜索網(wǎng)絡(luò)、詢問澄清問題,還能生成個性化的購買指南。用戶可以通過標記產(chǎn)品“不感興趣”或“類似的產(chǎn)品”來實時引導(dǎo)搜索。該系統(tǒng)借助ChatGPT的記憶實現(xiàn)個性化推薦。它由專門針對購物任務(wù)訓練的GPT - 5迷你模型提供支持。
深度分析
Nano Banana Pro 力推太空船工程
https://angadh.com/inkhaven-23
Nano Banana Pro 能根據(jù)論文做出不錯的圖表。就算是免費版,它也能做出相當不錯的演示文稿。這篇文章展示了給該模型輸入宇宙飛船工程學論文后會有什么效果。雖然幻燈片里的內(nèi)容仍需核實,但很明顯,這項技術(shù)正朝著令人驚艷的方向發(fā)展,以后只會越來越好。
成本海嘯
https://betterthanrandom.substack.com/p/a-tsunami-of-cogs
人工智能行業(yè)正在調(diào)整。OpenAI、Anthropic和Cursor正以負利潤率補貼需求。谷歌被人工智能熱潮打了個措手不及,花了一段時間才重整旗鼓,不過現(xiàn)在它強勢回歸了。它資金充裕,更有能力打負利潤率這場仗。要是挑戰(zhàn)者不想被成本的海嘯淹沒,就得做出改變。
通用大語言模型(LLM)記憶并不存在
https://fastpaca.com/blog/memory-isnt-one-thing
語義記憶負責記錄偏好、長期經(jīng)歷和融洽關(guān)系。工作記憶負責記錄文件路徑、變量名和即時錯誤日志。語義記憶在跨會話個性化方面表現(xiàn)出色,但在處理任務(wù)執(zhí)行狀態(tài)時效果不佳。要把語義記憶和工作記憶當作有不同需求的獨立系統(tǒng)。
工程
Claude 開發(fā)者平臺推出高級工具使用功能
https://www.anthropic.com/engineering/advanced-tool-use
Anthropic為開發(fā)者推出了三項測試版功能?!肮ぞ咚阉鞴ぞ摺笨砂葱璨檎夜ぞ撸瑹o需提前加載所有定義,能減少85%的Toekn消耗?!熬幊淌焦ぞ哒{(diào)用”能讓Claude通過Python代碼編排多個工具,而非單獨調(diào)用API,可減少37%的令牌使用?!肮ぞ呤褂檬纠蹦芴峁㎎SON模式之外的具體使用模式,處理復(fù)雜參數(shù)的準確率從72%提升至90%。
組建以人工智能為核心的工程團隊
https://developers.openai.com/codex/guides/build-ai-native-engineering-team/
AI編碼智能體正在革新軟件開發(fā)流程,能處理從規(guī)劃、原型設(shè)計到實施和運維分診等任務(wù),讓工程師專注于架構(gòu)和產(chǎn)品設(shè)計?,F(xiàn)在,這些智能體可以進行長達數(shù)小時的推理,在規(guī)劃、設(shè)計、開發(fā)、測試、代碼審查和部署等環(huán)節(jié)都能發(fā)揮作用。采用編碼智能體處理明確任務(wù)的團隊,無需大幅改變現(xiàn)有工作流程,就能更快交付成果,提高效率。
其他
認真對待參差不齊的狀況
https://helentoner.substack.com/p/taking-jaggedness-seriously
人工智能能力提升不均衡的情況會持續(xù)下去。因為有些任務(wù)有明確、可驗證的獎勵,可用于強化學習,但大多數(shù)實際工作沒有。大多數(shù)工作需要從不同系統(tǒng)和人際關(guān)系中收集并整合信息。圍繞人工智能現(xiàn)有最強能力重新設(shè)計工作流程的機構(gòu),將比那些等待業(yè)內(nèi)所承諾的“全能遠程員工”的機構(gòu)更有優(yōu)勢。
Meta超大型新數(shù)據(jù)中心:人工智能與激進會計手段相遇
https://www.wsj.com/tech/meta-ai-data-center-finances-d3a6b464
Meta正舉債建設(shè)一座價值270億美元的數(shù)據(jù)中心。這座數(shù)據(jù)中心和相關(guān)債務(wù)都不會計入其資產(chǎn)負債表。從2029年開始,Meta將租賃該數(shù)據(jù)中心,最長可達20年。初始租期為4年,之后每4年可續(xù)租。這種租賃結(jié)構(gòu)能讓Meta確認的租賃負債和相關(guān)資產(chǎn)降至最低。
人工智能真的在吞噬世界嗎?
https://philippdubach.com/2025/11/23/is-ai-really-eating-the-world/
目前的證據(jù)表明正在走向商品化,因為價值正向上游流動,而非流向模型供應(yīng)商。
大語言模型(LLM)擴展的慘痛教訓
https://www.sawyerhood.com/blog/llm-extension
我們從簡單的系統(tǒng)提示,發(fā)展到復(fù)雜的客戶端 - 服務(wù)器協(xié)議,現(xiàn)在又繞了回來。
阿爾特曼稱,他們終于有了一款人工智能硬件原型。
https://www.theverge.com/news/827607/openai-hardware-prototype-chatgpt-jony-ive-sam-altman
OpenAI的首款硬件設(shè)備可能在兩年內(nèi)推出。
超火的國產(chǎn)編程應(yīng)用
https://www.businessinsider.com/chinese-vibe-coding-app-lingguang-ant-group-china-viral-2025-11
螞蟻集團的靈犀代碼協(xié)作應(yīng)用在六天內(nèi)下載量突破200萬(達到首個100萬下載量的速度比ChatGPT或Sora還快)。
在埃爾德什問題網(wǎng)站上,人工智能輔助現(xiàn)已成為常規(guī)操作
https://mathstodon.xyz/@tao/115591487350860999
頂尖數(shù)學家正用人工智能來推導(dǎo)證明和解決問題。
亞馬遜($AMZN)旗下的 AWS 今年夏天遭遇 AI 算力短缺問題
https://threadreaderapp.com/thread/1992908857870520450.html
AWS Bedrock 達到了關(guān)鍵容量限制,導(dǎo)致一些客戶轉(zhuǎn)投谷歌云等競爭對手。