text-embedding-3-large icon

text-embedding-3-large

開く

OpenAIの最先進embeddingモデル。3072次元をサポートし、MIRACLベンチマークで54.9%を達成。Matryoshka学習による柔軟な次元削減が可能。

共有:

text-embedding-3-largeは、2024年1月にリリースされたOpenAIのフラッグシップembeddingモデルで、最大3072次元をサポートし、OpenAIの「新しい最高性能embeddingモデル」を表しています。

性能向上

text-embedding-ada-002と比較して、text-embedding-3-largeは大幅な性能向上を実現:

  • MIRACLベンチマーク: 平均スコアが31.4%から54.9%に上昇(74%改善)
  • MTEBベンチマーク: 平均スコアが61.0%から64.6%に上昇

これにより、2024-2025年の最高性能な商用embeddingモデルの1つとなっています。

核心機能

Matryoshka表現学習

Matryoshka表現学習を使用することで、開発者は256から3072までの出力次元を指定できます。1024次元を使用すると、検索品質の95%以上を維持しながら67%のストレージを節約できます。

多言語サポート

主に英語用に最適化されていますが、text-embedding-3-largeは100以上の言語で優れたパフォーマンスを示し、多言語検索やクロスリンガル検索タスクに適しています。

エコシステム統合

OpenAIネイティブモデルとして、ChatGPT、GPT-4、およびOpenAI APIエコシステム全体とシームレスに統合されます。

使用シーン

  • RAGシステム: GPT-4や他のLLMのための検索をサポート
  • セマンティック検索: ユーザーの意図を理解するインテリジェント検索エンジンの構築
  • 推薦エンジン: セマンティック類似性に基づく類似コンテンツの検索
  • ドキュメントクラスタリング: トピック別の大規模ドキュメントコレクションの整理
  • Q&Aシステム: ナレッジベースで質問と関連回答のマッチング

価格

  • 標準価格: $0.13 / 100万tokens
  • プロモーション価格: 一部レポートでは$0.065 / 100万tokens(現在のレートを確認してください)

コスト比較

  • text-embedding-3-small: $0.02 / 100万tokens(87%安価、性能95%)
  • Cohere Embed v3: $0.10 / 100万tokens
  • オープンソース(BGE-M3、E5): セルフホスト無料、インフラコストあり

長所と短所

長所:

  • 最先端の検索性能(MIRACL 54.9%)
  • Matryoshkaの柔軟性で67%のストレージコスト削減
  • OpenAIエコシステムとのネイティブ統合
  • 100以上の言語をサポート

短所:

  • 大規模使用時のコストが高い($0.13 / 100万tokens)
  • 多言語性能が専用モデルに劣る
  • クラウドのみのデプロイでベンダーロックイン
  • ドメイン固有のニーズに対するファインチューニング不可

OpenAIインフラストラクチャ上でRAGとセマンティック検索を構築するチームにとって、text-embedding-3-largeは自然な選択です。コストに敏感または多言語中心のワークロードの場合は、BGE-M3などのオープンソース代替を評価してください。

コメント

まだコメントがありません。最初のコメントを投稿してください!