text-embedding-3-large 是 OpenAI 于 2024 年 1 月发布的旗舰 embedding 模型,支持最高 3072 维向量,是 OpenAI "性能最佳的新型 embedding 模型"。
性能提升
相比前代模型 text-embedding-ada-002,text-embedding-3-large 在性能上实现了显著提升:
- MIRACL 基准测试:平均得分从 31.4% 跃升至 54.9%,提升 74%
- MTEB 基准测试:平均得分从 61.0% 提升至 64.6%
这使其成为 2024-2025 年性能最佳的商业 embedding 模型之一。
核心特性
Matryoshka 表示学习
采用 Matryoshka 表示学习技术,开发者可以指定从 256 到 3072 的输出维度。使用 1024 维可以节省 67% 的存储空间,同时保持 95%+ 的检索质量。
多语言支持
虽然主要针对英语优化,但 text-embedding-3-large 在 100+ 种语言上表现出色,适合多语言搜索和跨语言检索任务。
生态系统集成
作为 OpenAI 原生模型,与 ChatGPT、GPT-4 和整个 OpenAI API 生态系统无缝集成,速率限制、计费和错误处理遵循相同模式。
适用场景
- RAG 系统:为 GPT-4 和其他 LLM 提供检索支持
- 语义搜索:构建理解用户意图的智能搜索引擎
- 推荐引擎:基于语义相似性查找相似产品、文章或内容
- 文档聚类:按主题或主题自动组织大型文档集合
- 问答系统:在知识库中匹配用户问题与最相关答案
定价
- 标准定价:$0.13 / 百万 tokens
- 促销定价:某些报告显示为 $0.065 / 百万 tokens(需在官网确认当前费率)
成本对比
- text-embedding-3-small:$0.02 / 百万 tokens(便宜 87%,性能达 95%)
- Cohere Embed v3:$0.10 / 百万 tokens
- 开源模型(BGE-M3、E5):免费自托管,但需承担基础设施成本
优缺点
优点:
- 检索性能顶尖,MIRACL 得分 54.9%
- Matryoshka 灵活维度可节省 67% 存储成本
- OpenAI 生态系统原生集成
- 支持 100+ 种语言
缺点:
- 大规模使用成本较高($0.13 / 百万 tokens)
- 多语言性能不如专用模型(如 BGE-M3)
- 仅云端部署,存在供应商锁定
- 无法针对特定领域进行微调
对于已使用 OpenAI LLM 构建 RAG 和语义搜索应用的团队,text-embedding-3-large 是优先选择。对于成本敏感或多语言为主的工作负载,建议评估 BGE-M3 等开源替代方案。
评论
还没有评论。成为第一个评论的人!
相关工具
BGE-M3
huggingface.co/BAAI/bge-m3
BAAI 开发的顶级开源多语言 embedding 模型,支持 100+ 种语言、8192 tokens 输入长度,同时支持密集检索、多向量检索和稀疏检索三种检索方式。
voyage-3-large
www.voyageai.com
Voyage AI 最新的 SOTA 通用 embedding 模型,在 8 个评估领域的 100 个数据集中排名第一,平均超越 OpenAI 和 Cohere 9.74% 和 20.71%。
Shap-e
openai.com
一个由 OpenAI 开发的生成模型,可以根据文本生成 3D 对象,能够直接生成隐函数的参数,这些参数可以渲染为带纹理的网格和神经辐射场。
