嵌入模型榜单大洗牌:谷歌登顶,阿里开源方案紧追不舍

2周前 科技 7观看
摘要 谷歌正式将其新的高性能Gemini嵌入模型推向正式商用,目前在备受推崇的大规模文本嵌入基准测试(MTEB)中排名第一。该模型(gemini-embedding-001)现已成为Gemini API和Vertex AI的核心组成部分,

谷歌正式将其新的高性能Gemini嵌入模型推向正式商用,目前在备受推崇的大规模文本嵌入基准测试(MTEB)中排名第一。该模型(gemini-embedding-001)现已成为Gemini API和Vertex AI的核心组成部分,使开发者能够构建语义搜索和检索增强生成(RAG)等应用。dsS喜好网-记录每日喜好的科技时尚娱乐生活

虽然第一名的排名标志着强势亮相,但嵌入模型市场竞争异常激烈。谷歌的专有模型正面临强大开源替代方案的直接挑战。这为企业带来了新的战略选择:采用排名第一的专有模型,还是选择性能接近但提供更多控制权的开源挑战者。dsS喜好网-记录每日喜好的科技时尚娱乐生活

谷歌Gemini嵌入模型的核心技术dsS喜好网-记录每日喜好的科技时尚娱乐生活

从本质上讲,嵌入技术将文本(或其他数据类型)转换为数值列表,捕获输入的关键特征。具有相似语义含义的数据在数值空间中的嵌入值更接近。这使得强大的应用超越了简单的关键词匹配,例如构建智能检索增强生成(RAG)系统,为大语言模型提供相关信息。dsS喜好网-记录每日喜好的科技时尚娱乐生活

嵌入技术还可以应用于图像、视频和音频等其他模态。例如,电商公司可能利用多模态嵌入模型为产品生成统一的数值表示,同时融合文本描述和图像信息。dsS喜好网-记录每日喜好的科技时尚娱乐生活

对于企业而言,嵌入模型可以驱动更精确的内部搜索引擎、复杂的文档聚类、分类任务、情感分析和异常检测。嵌入技术也正成为智能体应用的重要组成部分,AI智能体需要检索和匹配不同类型的文档和提示。dsS喜好网-记录每日喜好的科技时尚娱乐生活

Gemini嵌入模型的关键特性之一是其内置的灵活性。它通过俄罗斯套娃表示学习(MRL)技术进行训练,允许开发者获得高度详细的3072维嵌入,同时也可以截断为1536或768等较小尺寸,同时保留最相关的特征。这种灵活性使企业能够在模型准确性、性能和存储成本之间取得平衡,这对于高效扩展应用至关重要。dsS喜好网-记录每日喜好的科技时尚娱乐生活

谷歌将Gemini嵌入模型定位为统一模型,设计为在金融、法律和工程等不同领域"开箱即用",无需微调。这为需要通用解决方案的团队简化了开发流程。该模型支持100多种语言,定价具有竞争力,每百万输入Token收费0.15美元,旨在实现广泛的可访问性。dsS喜好网-记录每日喜好的科技时尚娱乐生活

专有模型与开源挑战者的竞争格局dsS喜好网-记录每日喜好的科技时尚娱乐生活

MTEB排行榜显示,虽然Gemini领先,但差距很小。它面临着OpenAI等成熟模型的挑战,OpenAI的嵌入模型被广泛使用,还有Mistral等专业化挑战者,后者提供专门针对代码检索的模型。这些专业化模型的出现表明,对于某些特定任务,针对性工具可能优于通用工具。dsS喜好网-记录每日喜好的科技时尚娱乐生活

另一个关键参与者Cohere直接瞄准企业市场,推出Embed 4模型。虽然其他模型在通用基准测试中竞争,Cohere强调其模型处理企业文档中常见"噪音现实世界数据"的能力,如拼写错误、格式问题,甚至扫描的手写内容。它还提供虚拟私有云或本地部署,为金融和医疗等受监管行业提供了直接吸引力的数据安全水平。dsS喜好网-记录每日喜好的科技时尚娱乐生活

对专有模型主导地位最直接的威胁来自开源社区。阿里巴巴的Qwen3-Embedding模型在MTEB上仅次于Gemini,并采用宽松的Apache 2.0许可证(可用于商业目的)。对于专注于软件开发的企业,Qodo的Qodo-Embed-1-1.5B提供了另一个令人瞩目的开源替代方案,专门为代码设计,声称在特定领域基准测试中优于更大的模型。dsS喜好网-记录每日喜好的科技时尚娱乐生活

对于已经基于Google Cloud和Gemini模型系列构建的公司,采用原生嵌入模型可以带来多项优势,包括无缝集成、简化的MLOps流水线,以及使用顶级通用模型的保证。dsS喜好网-记录每日喜好的科技时尚娱乐生活

然而,Gemini是一个封闭的、仅API的模型。对于优先考虑数据主权、成本控制或在自有基础设施上运行模型能力的企业,现在在Qwen3-Embedding中有了可信的顶级开源选择,或者可以使用特定任务的嵌入模型之一。dsS喜好网-记录每日喜好的科技时尚娱乐生活

展开全文
猜你感兴趣
那些大牌商场,正被本土商超“摁在地上摩擦”

那些大牌商场,正被本土商超“摁在

几大高奢商场在上半年的业绩都不

11-19 111阅读
曝iPhone 17全系首发3nm A19系列芯片:无缘台积电2nm工艺制程

曝iPhone 17全系首发3nm A19系列

11月19日

11-19 111阅读
睿蓝8七座纯电MPV上市,起售价13.78万元

睿蓝8七座纯电MPV上市,起售价13.7

11-19 99阅读
收到500万份垄断诉讼,谷歌要被拆分?

收到500万份垄断诉讼,谷歌要被拆

谷歌

11-19 101阅读
又一百亿独角兽申请破产了

又一百亿独角兽申请破产了

近日,

11-19 130阅读
《永夜星河》三折叠剧情,怎么「折」都有面儿

《永夜星河》三折叠剧情,怎

作者 / 郑容和编辑 / 朱   婷运营

11-19 103阅读
写意锦官城(写意锦官城)

写意锦官城(写意锦官城)

写意锦官城 作者:解朝侠 一直

11-19 94阅读
于谦因釜山行爆红, 啥梗真没想到讲相声的他竟出演过这么多作品

于谦因釜山行爆红, 啥梗真

于谦明明就是一个讲相声的人,怎么

11-19 106阅读
长江文化艺术季闭幕式圆满落幕 平安携手金莎合唱《何以家国》

长江文化艺术季闭幕式圆满

  4日晚,长江文化艺术季闭幕式在宜昌

11-19 101阅读
《猫眼三姐妹》动画将重制!童年三女神高清归来!

《猫眼三姐妹》动画将重制

近日有报道称,北

11-19 100阅读
《GTA三部曲》开发者不满名字被删 实际只修改了开场

《GTA三部曲》开发者不满

《GTA三部曲》开发商 Grove Street Ga

11-19 104阅读
原子之心医院区域所有死者位置详细介绍

原子之心医院区域所有死者

在原子之心游戏里面想要达成招魂问卜奖

11-19 109阅读
原子之心能量不回复怎么办?原子之心恢复能量的方法分享

原子之心能量不回复怎么办

原子之心能量不回复怎么办?原子之心游戏

11-19 124阅读
饥荒所有魔杖制作方法详细介绍

饥荒所有魔杖制作方法详细

饥荒游戏里面拥有非常丰富的魔杖种类,不

11-19 109阅读
原神赤王时代的沙漠与大赤沙海任务全流程攻略

原神赤王时代的沙漠与大赤

赤王时代的沙漠与大赤沙海是原神须弥地

11-19 115阅读