
頭條
Google I/O
https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/
谷歌在 2024 年 I/O 大會(huì)上發(fā)布了許多新功能,包括 Gemini Flash、Veo 視頻生成、Imagen 3 以及最新的助手 Project Astra。總之,谷歌的改進(jìn)令人印象深刻,包括 2 米令牌上下文長(zhǎng)度、大幅便宜的機(jī)型和改進(jìn)的多模態(tài)功能。
Anthropic Is Expanding To Europe And Raising More Money
https://techcrunch.com/2024/05/13/anthropic-is-expanding-to-europe-and-raising-more-money/
Anthropic 已將其人工智能助手 Claude 擴(kuò)展到歐洲??藙诘轮С侄喾N語(yǔ)言。Anthropic 正在其網(wǎng)站、iOS 應(yīng)用程序和面向團(tuán)隊(duì)的商業(yè)計(jì)劃中提供這項(xiàng)服務(wù)。公司正在開始籌集更多資金。
研究
Mamba 對(duì)視覺任務(wù)的適用性
https://arxiv.org/abs/2405.07992v1
研究人員對(duì)通常用于具有長(zhǎng)序列和自回歸特征任務(wù)的 Mamba 架構(gòu)及其在視覺任務(wù)中的應(yīng)用進(jìn)行了研究,發(fā)現(xiàn)雖然 Mamba 在圖像分類方面效果不佳,但在檢測(cè)和分割任務(wù)中卻大有可為。
A New State-Free Sequence Parallel Inference
https://arxiv.org/abs/2405.06147v1
為深度學(xué)習(xí)開發(fā)了一種使用雙轉(zhuǎn)移函數(shù)表示法的新狀態(tài)空間模型。它采用無狀態(tài)序列并行推理算法。
工程
Ollama on Google Firebase
https://firebase.google.com/docs/genkit/plugins/ollama
Genkit 是 Firebase 用于構(gòu)建和部署生成式產(chǎn)品的新工具集。它可用于啟動(dòng)開源語(yǔ)言模型的服務(wù)器。
Image Deraining
https://github.com/mingtian99/esdnet
ESDNet 是一種尖峰神經(jīng)網(wǎng)絡(luò) (SNN),專為圖像推導(dǎo)任務(wù)而設(shè)計(jì)。它利用雨點(diǎn)像素值的獨(dú)特屬性來增強(qiáng)尖峰信號(hào)強(qiáng)度。
雜七雜八
OpenAI 做了什么
https://www.oneusefulthing.org/p/what-openai-did
GPT-4o 的多模態(tài)能力整合了視覺和語(yǔ)音,有望在人工智能與世界的交互方式上取得重大進(jìn)展,為人工智能在日常生活中更加普及鋪平道路。
Fine-Tune PaliGemma
https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb
谷歌在今天的發(fā)布會(huì)上發(fā)布并預(yù)告了幾個(gè)開源模型。其中一個(gè)實(shí)際發(fā)布的模型是基于 SigLIP 的視覺語(yǔ)言模型。它非常容易調(diào)整和擴(kuò)展到各種任務(wù)中。這本 Colab Notebook 展示了如何通過簡(jiǎn)潔、可讀性強(qiáng)的代碼實(shí)現(xiàn)這一點(diǎn)。
xAI 接近 100 億美元租用甲骨文服務(wù)器
https://www.reuters.com/technology/elon-musks-xai-nears-10-bln-deal-rent-oracles-ai-servers-information-reports-2024-05-14/
埃隆-馬斯克(Elon Musk)的人工智能初創(chuàng)公司xAI正在洽談一項(xiàng)可能價(jià)值100億美元的交易,向甲骨文租用云服務(wù)器,旨在成為甲骨文最大的客戶之一,并與OpenAI和谷歌的人工智能產(chǎn)品相抗衡。
Gemini Flash
https://deepmind.google/technologies/gemini/flash/
Gemini Flash 是谷歌推出的一種新型輕量級(jí)模型,具有多模態(tài)推理功能和長(zhǎng)達(dá)一百萬(wàn)個(gè)代幣的長(zhǎng)上下文窗口。
Veo
https://deepmind.google/technologies/veo/
Veo 是谷歌 Deepmind 推出的全新視頻生成人工智能模型,可生成 1080p 分辨率的視頻,時(shí)長(zhǎng)可達(dá)一分鐘以上。