BGE-M3 icon

BGE-M3

開く

BAAIが開発したトップクラスのオープンソース多言語embeddingモデル。100以上の言語、8192トークンの入力長をサポートし、密検索、多ベクトル検索、疎検索の3つの検索方式を統合。

共有:

BGE-M3(BAAI General Embedding M3)は、北京人工知能研究院(BAAI)が開発したオープンソース多言語embeddingモデルで、「3つのM」——多機能(Multi-Functionality)、多言語(Multi-Linguality)、多粒度(Multi-Granularity)で知られています。

3つの核心特性

1. 多機能(Multi-Functionality)

BGE-M3は3つの検索方法を同時にサポートする初のembeddingモデルです:

  • 密検索(Dense Retrieval):従来のベクトル類似度検索
  • 多ベクトル検索(Multi-Vector Retrieval):より細かい粒度のセマンティックマッチング
  • 疎検索(Sparse Retrieval):BM25のようなキーワードマッチング

2. 多言語(Multi-Linguality)

100以上の作業言語をサポートし、170以上の異なる言語を含む複数のデータセットでトレーニングされており、真のグローバルembeddingソリューションです。

3. 多粒度(Multi-Granularity)

短い文から最大8192トークンの長文書まで、さまざまな粒度の入力を処理でき、ほとんどのembeddingモデルの512-1024トークン制限をはるかに超えています。

技術仕様

  • アーキテクチャ: XLM-RoBERTaベース
  • パラメータ数: 568M(5億6800万)
  • Embedding次元: 1024
  • 最大入力長: 8192トークン
  • ライセンス: MITライセンス(完全オープンソース)

性能

MIRACLベンチマーク

BGE-M3はクロスリンガル検索で最高の平均ランキングスコア(nDCG@10 = 70.0)を達成し、最高の多言語embedder mE5(~65.4)を上回りました。

MKQAベンチマーク

BGE-M3は75.5%のリコールを達成し、最強のベースライン(~70.9%)を大幅に上回り、このベンチマークでOpenAIの最新textembeddingモデルを超えました

英語とその他の言語の性能

複数のベンチマークで、BGE-M3は英語とその他の言語の両方でトップパフォーマンスを達成し、OpenAIなどのモデルを上回っています。

ベストプラクティス

BGE-M3はハイブリッド検索 + リランキングを使用すると最適な結果を達成します。ハイブリッド検索は、さまざまな方法の強みを活用し、より高い精度とより強力な汎化能力を提供します。

使用シーン

  • 多言語ナレッジベース検索: 複数の言語をサポートするグローバルアプリケーション
  • 長文書処理: 法律文書、学術論文、技術文書などの長文検索
  • クロスリンガル検索: 異なる言語間のセマンティック検索
  • コストに敏感なアプリケーション: 完全オープンソースでAPI料金なし
  • 高いプライバシー要件: ローカルデプロイ可能、データが外部に出ない

デプロイオプション

セルフホスト

  • Hugging Face Transformersライブラリを使用してロード
  • NVIDIA NIM、Ollama、DeepInfraなど複数のデプロイプラットフォームをサポート
  • ローカルまたはクラウドGPUインスタンスで実行

クラウドサービス

一部のクラウドプロバイダーがホストされたBGE-M3 APIサービスを提供。

長所と短所

長所:

  • 完全無料オープンソース: API料金なし、MITライセンス
  • トップクラスの多言語性能: 100以上の言語をサポート、OpenAI、Cohereを上回る
  • 長文書サポート: 8192トークン、競合他社をはるかに超える
  • 3つの検索方式: 密、多ベクトル、疎検索を1つのモデルで
  • データプライバシー: 完全ローカルデプロイ可能

短所:

  • セルフデプロイが必要: GPUリソースと技術的専門知識が必要
  • 推論速度: セルフホストの推論は商用APIより遅い可能性
  • インフラストラクチャコスト: API料金はないがGPUサーバーコストが必要

コスト比較

月間100Mトークンの場合:

  • OpenAI text-embedding-3-large: $13,000/年(API料金)
  • Cohere Embed v3: $12,000/年(API料金)
  • BGE-M3セルフホスト: ~$3,000/年(GPUインスタンスコスト、例:AWS g4dn.xlarge)

高ボリュームアプリケーションでは、BGE-M3セルフホストでコストを70-80%削減できます。

まとめ

BGE-M3はオープンソースコミュニティのトップチョイスの多言語embeddingであり、特に以下に適しています:

  • 多言語サポートを必要とするグローバルアプリケーション
  • 長文書処理シナリオ
  • コストに敏感な高ボリュームアプリケーション
  • データプライバシー要件のある企業

OpenAIエコシステムを使用している、または開発者体験を優先するチームには、OpenAI text-embedding-3-largeがより適切かもしれません。しかし、多言語、長文書、コスト最適化のニーズには、BGE-M3が議論の余地のない最良の選択です。

コメント

まだコメントがありません。最初のコメントを投稿してください!