voyage-3-large 是 Voyage AI 于 2025 年 1 月最新发布的最先进通用和多语言 embedding 模型，在横跨 100 个数据集的 8 个评估领域（包括法律、金融和代码）中排名第一。

性能优势

voyage-3-large 在多个维度上超越竞争对手：

vs OpenAI text-embedding-3-large：平均性能提升 9.74%
vs Cohere Embed v3-English：平均性能提升 20.71%
vs voyage-3：平均性能提升 4.14%
vs voyage-3-lite：平均性能提升 7.68%

在法律、金融、代码等专业领域表现尤为突出，是 2025 年最新的检索性能基准。

核心特性

灵活的维度支持

支持以下输出维度值：

2048 维：最高质量
1024 维（默认）：平衡性能和成本
512 维：更快推理，降低存储
256 维：极致压缩

量化支持

通过 Matryoshka 学习和量化感知训练，voyage-3-large 支持更小的维度和 int8 及二进制量化，可以大幅降低向量数据库成本，且对检索质量影响最小。

int8 量化：存储成本降低 4 倍
二进制量化：存储成本降低高达 200 倍，质量损失最小

长上下文支持

上下文长度：32K tokens
Matryoshka 学习实现灵活大小调整

多种数据类型

voyage-3-large 支持 int8、uint8、binary 和 ubinary 数据类型，提供极致的存储和计算优化选项。

性能指标

延迟和吞吐量

延迟：单个查询（最多 100 tokens）90 毫秒
吞吐量：在 ml.g6.xlarge 上每小时 1260 万 tokens（$0.22 / 百万 tokens）

专业领域优势

在法律、金融、医疗、代码等专业领域，voyage-3-large 展现出显著优势，超越通用 embedding 模型。

适用场景

专业领域检索：法律、金融、医疗、代码等领域的高精度检索
大规模向量数据库：利用量化技术显著降低存储和计算成本
高性能要求：需要最先进检索性能的应用
成本优化：通过二进制量化降低 200 倍存储成本
长文档处理：32K token 上下文长度支持

定价

根据 AWS Marketplace 数据：

基础定价：$0.22 / 百万 tokens（在 ml.g6.xlarge 实例上）
具体定价可能因部署方式和规模而异

优缺点

优点：

2025 年 SOTA 性能：在 100 个数据集中排名第一
专业领域优势：法律、金融、代码等领域表现突出
极致量化：二进制量化降低 200 倍存储成本
灵活维度：支持 256-2048 维多种选择
长上下文：32K tokens 支持

缺点：

较新模型：2025 年 1 月发布，社区生态相对较新
定价：相比开源模型需要 API 费用
文档和案例：作为新模型，文档和最佳实践仍在积累

成本优化策略

二进制量化收益

使用二进制量化时，10 亿个 2048 维向量的存储成本：

未量化：~8TB 存储
二进制量化：~40GB 存储（降低 200 倍）

对于大规模向量数据库，这种成本降低是革命性的。

总结

voyage-3-large 是追求最先进检索性能的首选，特别适合：

法律、金融、医疗等专业领域应用
大规模向量数据库需要极致成本优化
对检索质量有最高要求的场景
处理长文档（32K tokens）的应用

对于通用场景，OpenAI text-embedding-3-large 提供更成熟的生态系统。对于多语言和开源需求，BGE-M3 是更好的选择。但对于专业领域和最高性能要求，voyage-3-large 是 2025 年的最佳选择。

voyage-3-large

性能优势

核心特性

灵活的维度支持

量化支持

长上下文支持

多种数据类型

性能指标

延迟和吞吐量

专业领域优势

适用场景

定价

优缺点

成本优化策略

二进制量化收益

总结

评论

相关工具

text-embedding-3-large

BGE-M3

Cohere Embed v3

相关洞察

别再把 AI 助手塞进聊天框了：Clawdbot 选错了战场

低代码平台的黄昏：为什么 Claude Agent SDK 会让 Dify 们成为历史

Obsidian + Claude Skills：真正让你的知识管理效率起飞