找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

谷歌新模型釜底抽薪:你还在费力拼接多模态AI吗?一个API已经终结了比赛

[复制链接]

11

主题

0

回帖

33

积分

新手上路

积分
33
发表于 3 小时前 | 显示全部楼层 |阅读模式
【谷歌新模型釜底抽薪:你还在费力拼接多模态AI吗?一个API已经终结了比赛】


快速导读:谷歌发布Gemini Embedding 2,一个能将文本、图像、视频、音频、PDF统一编码的“怪物”。关键是,它原生理解音频视频,不再需要先转录成文字。对于构建RAG或多模态应用的团队来说,这意味着大量复杂的“管道工程”一夜之间被废弃了。

---

一家名为Sparkonomy的初创公司说,他们换上谷歌一个新模型后,系统延迟直接砍掉70%,图文和视频的语义匹配准确率从0.4飙升到0.8。

另一家公司Mindlid说,在他们的对话式App里,新模型让关键信息的召回率提升了20%。

这背后是谷歌刚刚发布的Gemini Embedding 2,一个可能让许多AI工程师感到后背发凉的模型。

你以为的多模态AI应用,是不是还在做着痛苦的“拼接”工作?为文本、图像、音频分别找不同的Embedding模型,然后写一堆复杂的代码,祈祷它们能在同一个向量空间里奇迹般地对齐。最麻烦的是处理音频和视频,你得先用语音识别模型把它们转成文字,这个过程不仅慢,还丢失了大量的情感和背景噪音信息。

现在,谷歌说这场“管道工”的游戏可以结束了。

Gemini Embedding 2的核心是一次釜底抽薪式的升级:它将文本(最长8192 token)、图像、视频(最长120秒)、音频乃至PDF文档,全部压缩进同一个统一的向量空间。更致命的是,它能“原生消化”音频和视频,不再需要中间转录成文本的那一步。

这意味着,过去那个由多个模型、转录服务和对齐策略组成的、摇摇欲坠的复杂系统,现在被一个干净利落的API调用取代了。你甚至可以在一次请求里同时塞进图片和文字,让模型理解它们之间的微妙关系。

如果你是一个正在构建RAG(检索增强生成)系统的工程师,或者你的产品需要理解用户上传的各种格式文件,这件事的意义就很明确了:你用来“对齐”不同模态数据的那些“独门绝技”,正在迅速贬值。过去需要一个团队数周才能搭好的架构,现在可能一个下午就能搞定。

旧的问题——我们如何费力地把不同模态的数据对齐?——已经消失了。新的问题是:当理解图像、声音和文字的成本几乎为零时,什么才是真正有价值的应用?

---

简评:

谷歌这次没开发布会,但扔下的这颗“嵌入”炸弹,威力比一场发布会大得多。它没有创造什么全新的概念,而是把一件极其困难、极其昂贵的事情,变得极其简单、极其廉价。AI领域最大的颠覆,往往不是加法,而是这种让复杂性归零的除法。

---

ref: ai.google/discover/geminiblog/gemini-embedding-2/

##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-11 23:40 , Processed in 0.269462 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表