text-embedding-3-large icon

text-embedding-3-large

打开

OpenAI 最先进的 embedding 模型,支持 3072 维向量,在 MIRACL 基准测试中得分 54.9%,采用 Matryoshka 学习支持灵活的维度缩减。

分享:

text-embedding-3-large 是 OpenAI 于 2024 年 1 月发布的旗舰 embedding 模型,支持最高 3072 维向量,是 OpenAI "性能最佳的新型 embedding 模型"。

性能提升

相比前代模型 text-embedding-ada-002,text-embedding-3-large 在性能上实现了显著提升:

  • MIRACL 基准测试:平均得分从 31.4% 跃升至 54.9%,提升 74%
  • MTEB 基准测试:平均得分从 61.0% 提升至 64.6%

这使其成为 2024-2025 年性能最佳的商业 embedding 模型之一。

核心特性

Matryoshka 表示学习

采用 Matryoshka 表示学习技术,开发者可以指定从 256 到 3072 的输出维度。使用 1024 维可以节省 67% 的存储空间,同时保持 95%+ 的检索质量。

多语言支持

虽然主要针对英语优化,但 text-embedding-3-large 在 100+ 种语言上表现出色,适合多语言搜索和跨语言检索任务。

生态系统集成

作为 OpenAI 原生模型,与 ChatGPT、GPT-4 和整个 OpenAI API 生态系统无缝集成,速率限制、计费和错误处理遵循相同模式。

适用场景

  • RAG 系统:为 GPT-4 和其他 LLM 提供检索支持
  • 语义搜索:构建理解用户意图的智能搜索引擎
  • 推荐引擎:基于语义相似性查找相似产品、文章或内容
  • 文档聚类:按主题或主题自动组织大型文档集合
  • 问答系统:在知识库中匹配用户问题与最相关答案

定价

  • 标准定价:$0.13 / 百万 tokens
  • 促销定价:某些报告显示为 $0.065 / 百万 tokens(需在官网确认当前费率)

成本对比

  • text-embedding-3-small:$0.02 / 百万 tokens(便宜 87%,性能达 95%)
  • Cohere Embed v3:$0.10 / 百万 tokens
  • 开源模型(BGE-M3、E5):免费自托管,但需承担基础设施成本

优缺点

优点

  • 检索性能顶尖,MIRACL 得分 54.9%
  • Matryoshka 灵活维度可节省 67% 存储成本
  • OpenAI 生态系统原生集成
  • 支持 100+ 种语言

缺点

  • 大规模使用成本较高($0.13 / 百万 tokens)
  • 多语言性能不如专用模型(如 BGE-M3
  • 仅云端部署,存在供应商锁定
  • 无法针对特定领域进行微调

对于已使用 OpenAI LLM 构建 RAG 和语义搜索应用的团队,text-embedding-3-large 是优先选择。对于成本敏感或多语言为主的工作负载,建议评估 BGE-M3 等开源替代方案。

评论

还没有评论。成为第一个评论的人!