谷歌刚刚发布最新模型:Gemini Embedding 2,首款基于Gemini架构的完全多模态嵌入模型
核心是它把文本、图片、视频、音频、文档映射到统一的嵌入空间中,支持跨模态检索和分类,覆盖100+语言
还支持混合输入(比如图片+文字一起传),模型能捕捉不同媒体之间的语义关联
音频也是直接嵌入,不需要先ASR再embedding,直接吃音频出向量
统一到一个模型里,多模态数据处理流程简化多了
可用于RAG、语义搜索、情感分析、数据聚类等场景
#谷歌最新模型##Gemini Embedding2##Embedding模型# http://t.cn/AXVCfnlV