刚发的Gemini Embedding 2,算是把多模态检索这事重新做了一遍。
以前的模型处理视频音频,得先拆开处理——视频抽帧、语音转文字、图片单独过一遍模型,最后再拼起来。信息损耗不说,流程也啰嗦。
这个新模型的特点是:一个向量空间,通吃文字、图片、视频、音频。你不用再管中间那些转换步骤,直接把原始素材丢进去就行。
举个实际场景。监控视频里找“穿红衣服的人拿走了快递”,以前得先识别红衣服、识别快递、识别动作,存成文字再搜。现在直接拿整段视频去匹配,搜的是特征本身,不是文字标签。
再看研报和合同里的图表。以前PDF里的饼图折线图是RAG的噩梦,得OCR文字再单独过图模型。现在直接把整个页面扔进去,问“去年Q3研发占比多少”,模型能自己看懂图里的数字。
还有个玩法:用户上传一张跑车照片,想听这车的引擎声。因为音频和图片在同一个向量空间,用照片的向量可以直接匹配到声音特征。
#