刚发的Gemini Embedding 2，算是把多模态检索这事重新做了一遍。

科菲地板

2026-03-13 17:44:53

刚发的Gemini Embedding 2，算是把多模态检索这事重新做了一遍。

以前的模型处理视频音频，得先拆开处理——视频抽帧、语音转文字、图片单独过一遍模型，最后再拼起来。信息损耗不说，流程也啰嗦。

这个新模型的特点是：一个向量空间，通吃文字、图片、视频、音频。你不用再管中间那些转换步骤，直接把原始素材丢进去就行。

举个实际场景。监控视频里找“穿红衣服的人拿走了快递”，以前得先识别红衣服、识别快递、识别动作，存成文字再搜。现在直接拿整段视频去匹配，搜的是特征本身，不是文字标签。

再看研报和合同里的图表。以前PDF里的饼图折线图是RAG的噩梦，得OCR文字再单独过图模型。现在直接把整个页面扔进去，问“去年Q3研发占比多少”，模型能自己看懂图里的数字。

还有个玩法：用户上传一张跑车照片，想听这车的引擎声。因为音频和图片在同一个向量空间，用照片的向量可以直接匹配到声音特征。
#

相关阅读