BGE-M3(BAAI General Embedding M3)は、北京人工知能研究院(BAAI)が開発したオープンソース多言語embeddingモデルで、「3つのM」——多機能(Multi-Functionality)、多言語(Multi-Linguality)、多粒度(Multi-Granularity)で知られています。
3つの核心特性
1. 多機能(Multi-Functionality)
BGE-M3は3つの検索方法を同時にサポートする初のembeddingモデルです:
- 密検索(Dense Retrieval):従来のベクトル類似度検索
- 多ベクトル検索(Multi-Vector Retrieval):より細かい粒度のセマンティックマッチング
- 疎検索(Sparse Retrieval):BM25のようなキーワードマッチング
2. 多言語(Multi-Linguality)
100以上の作業言語をサポートし、170以上の異なる言語を含む複数のデータセットでトレーニングされており、真のグローバルembeddingソリューションです。
3. 多粒度(Multi-Granularity)
短い文から最大8192トークンの長文書まで、さまざまな粒度の入力を処理でき、ほとんどのembeddingモデルの512-1024トークン制限をはるかに超えています。
技術仕様
- アーキテクチャ: XLM-RoBERTaベース
- パラメータ数: 568M(5億6800万)
- Embedding次元: 1024
- 最大入力長: 8192トークン
- ライセンス: MITライセンス(完全オープンソース)
性能
MIRACLベンチマーク
BGE-M3はクロスリンガル検索で最高の平均ランキングスコア(nDCG@10 = 70.0)を達成し、最高の多言語embedder mE5(~65.4)を上回りました。
MKQAベンチマーク
BGE-M3は75.5%のリコールを達成し、最強のベースライン(~70.9%)を大幅に上回り、このベンチマークでOpenAIの最新textembeddingモデルを超えました。
英語とその他の言語の性能
複数のベンチマークで、BGE-M3は英語とその他の言語の両方でトップパフォーマンスを達成し、OpenAIなどのモデルを上回っています。
ベストプラクティス
BGE-M3はハイブリッド検索 + リランキングを使用すると最適な結果を達成します。ハイブリッド検索は、さまざまな方法の強みを活用し、より高い精度とより強力な汎化能力を提供します。
使用シーン
- 多言語ナレッジベース検索: 複数の言語をサポートするグローバルアプリケーション
- 長文書処理: 法律文書、学術論文、技術文書などの長文検索
- クロスリンガル検索: 異なる言語間のセマンティック検索
- コストに敏感なアプリケーション: 完全オープンソースでAPI料金なし
- 高いプライバシー要件: ローカルデプロイ可能、データが外部に出ない
デプロイオプション
セルフホスト
- Hugging Face Transformersライブラリを使用してロード
- NVIDIA NIM、Ollama、DeepInfraなど複数のデプロイプラットフォームをサポート
- ローカルまたはクラウドGPUインスタンスで実行
クラウドサービス
一部のクラウドプロバイダーがホストされたBGE-M3 APIサービスを提供。
長所と短所
長所:
- 完全無料オープンソース: API料金なし、MITライセンス
- トップクラスの多言語性能: 100以上の言語をサポート、OpenAI、Cohereを上回る
- 長文書サポート: 8192トークン、競合他社をはるかに超える
- 3つの検索方式: 密、多ベクトル、疎検索を1つのモデルで
- データプライバシー: 完全ローカルデプロイ可能
短所:
- セルフデプロイが必要: GPUリソースと技術的専門知識が必要
- 推論速度: セルフホストの推論は商用APIより遅い可能性
- インフラストラクチャコスト: API料金はないがGPUサーバーコストが必要
コスト比較
月間100Mトークンの場合:
- OpenAI text-embedding-3-large: $13,000/年(API料金)
- Cohere Embed v3: $12,000/年(API料金)
- BGE-M3セルフホスト: ~$3,000/年(GPUインスタンスコスト、例:AWS g4dn.xlarge)
高ボリュームアプリケーションでは、BGE-M3セルフホストでコストを70-80%削減できます。
まとめ
BGE-M3はオープンソースコミュニティのトップチョイスの多言語embeddingであり、特に以下に適しています:
- 多言語サポートを必要とするグローバルアプリケーション
- 長文書処理シナリオ
- コストに敏感な高ボリュームアプリケーション
- データプライバシー要件のある企業
OpenAIエコシステムを使用している、または開発者体験を優先するチームには、OpenAI text-embedding-3-largeがより適切かもしれません。しかし、多言語、長文書、コスト最適化のニーズには、BGE-M3が議論の余地のない最良の選択です。
コメント
まだコメントがありません。最初のコメントを投稿してください!
関連ツール
text-embedding-3-large
platform.openai.com/docs/models/embeddings
OpenAIの最先進embeddingモデル。3072次元をサポートし、MIRACLベンチマークで54.9%を達成。Matryoshka学習による柔軟な次元削減が可能。
voyage-3-large
www.voyageai.com
Voyage AIの最新SOTA汎用embeddingモデル。法律、金融、コードを含む100データセットにわたる8つの評価ドメインで第1位、OpenAIとCohereを平均9.74%と20.71%上回る。
Qwen2.5-72B
qwenlm.github.io
アリババのフラッグシップLLM。18兆トークンで事前学習され、Llama-3-405Bと同等の性能(サイズは1/5)を実現し、知識、推論、数学、コーディングのベンチマークで優れた性能を発揮。
関連インサイト

Anthropic Subagent: マルチエージェント時代のアーキテクチャ革命
Anthropicのマルチエージェントアーキテクチャ設計を徹底解説。Subagentによるコンテキストウィンドウ制限の突破、90%のパフォーマンス向上、Claude Codeでの実際の応用について学びます。
Claude Skills 完全ガイド - 必須10大 Skills 徹底解説
Claude Skills の拡張メカニズムを深掘りし、10の中核スキルと Obsidian 連携を詳しく解説。高効率な AI ワークフロー構築を支援します
Skills + Hooks + Plugins:AnthropicによるAIコーディングツールの拡張性の再定義
Claude CodeのSkills、Hooks、Pluginsという三位一体アーキテクチャを深く分析し、なぜこの設計がGitHub CopilotやCursorよりも先進的なのか、そしてオープンスタンダードを通じてAIコーディングツールの拡張性をどのように再定義しているかを探ります。