BGE-M3（BAAI General Embedding M3）は、北京人工知能研究院（BAAI）が開発したオープンソース多言語embeddingモデルで、「3つのM」——多機能（Multi-Functionality）、多言語（Multi-Linguality）、多粒度（Multi-Granularity）で知られています。

3つの核心特性

1. 多機能（Multi-Functionality）

BGE-M3は3つの検索方法を同時にサポートする初のembeddingモデルです：

密検索（Dense Retrieval）：従来のベクトル類似度検索
多ベクトル検索（Multi-Vector Retrieval）：より細かい粒度のセマンティックマッチング
疎検索（Sparse Retrieval）：BM25のようなキーワードマッチング

2. 多言語（Multi-Linguality）

100以上の作業言語をサポートし、170以上の異なる言語を含む複数のデータセットでトレーニングされており、真のグローバルembeddingソリューションです。

3. 多粒度（Multi-Granularity）

短い文から最大8192トークンの長文書まで、さまざまな粒度の入力を処理でき、ほとんどのembeddingモデルの512-1024トークン制限をはるかに超えています。

技術仕様

アーキテクチャ: XLM-RoBERTaベース
パラメータ数: 568M（5億6800万）
Embedding次元: 1024
最大入力長: 8192トークン
ライセンス: MITライセンス（完全オープンソース）

性能

MIRACLベンチマーク

BGE-M3はクロスリンガル検索で最高の平均ランキングスコア（nDCG@10 = 70.0）を達成し、最高の多言語embedder mE5（~65.4）を上回りました。

MKQAベンチマーク

BGE-M3は75.5%のリコールを達成し、最強のベースライン（~70.9%）を大幅に上回り、このベンチマークでOpenAIの最新textembeddingモデルを超えました。

英語とその他の言語の性能

複数のベンチマークで、BGE-M3は英語とその他の言語の両方でトップパフォーマンスを達成し、OpenAIなどのモデルを上回っています。

ベストプラクティス

BGE-M3はハイブリッド検索 + リランキングを使用すると最適な結果を達成します。ハイブリッド検索は、さまざまな方法の強みを活用し、より高い精度とより強力な汎化能力を提供します。

使用シーン

多言語ナレッジベース検索: 複数の言語をサポートするグローバルアプリケーション
長文書処理: 法律文書、学術論文、技術文書などの長文検索
クロスリンガル検索: 異なる言語間のセマンティック検索
コストに敏感なアプリケーション: 完全オープンソースでAPI料金なし
高いプライバシー要件: ローカルデプロイ可能、データが外部に出ない

デプロイオプション

セルフホスト

Hugging Face Transformersライブラリを使用してロード
NVIDIA NIM、Ollama、DeepInfraなど複数のデプロイプラットフォームをサポート
ローカルまたはクラウドGPUインスタンスで実行

クラウドサービス

一部のクラウドプロバイダーがホストされたBGE-M3 APIサービスを提供。

長所と短所

長所:

完全無料オープンソース: API料金なし、MITライセンス
トップクラスの多言語性能: 100以上の言語をサポート、OpenAI、Cohereを上回る
長文書サポート: 8192トークン、競合他社をはるかに超える
3つの検索方式: 密、多ベクトル、疎検索を1つのモデルで
データプライバシー: 完全ローカルデプロイ可能

短所:

セルフデプロイが必要: GPUリソースと技術的専門知識が必要
推論速度: セルフホストの推論は商用APIより遅い可能性
インフラストラクチャコスト: API料金はないがGPUサーバーコストが必要

コスト比較

月間100Mトークンの場合：

OpenAI text-embedding-3-large: $13,000/年（API料金）
Cohere Embed v3: $12,000/年（API料金）
BGE-M3セルフホスト: ~$3,000/年（GPUインスタンスコスト、例：AWS g4dn.xlarge）

高ボリュームアプリケーションでは、BGE-M3セルフホストでコストを70-80%削減できます。

まとめ

BGE-M3はオープンソースコミュニティのトップチョイスの多言語embeddingであり、特に以下に適しています：

多言語サポートを必要とするグローバルアプリケーション
長文書処理シナリオ
コストに敏感な高ボリュームアプリケーション
データプライバシー要件のある企業

OpenAIエコシステムを使用している、または開発者体験を優先するチームには、OpenAI text-embedding-3-largeがより適切かもしれません。しかし、多言語、長文書、コスト最適化のニーズには、BGE-M3が議論の余地のない最良の選択です。

BGE-M3

3つの核心特性

1. 多機能（Multi-Functionality）

2. 多言語（Multi-Linguality）

3. 多粒度（Multi-Granularity）

技術仕様

性能

MIRACLベンチマーク

MKQAベンチマーク

英語とその他の言語の性能

ベストプラクティス

使用シーン

デプロイオプション

セルフホスト

クラウドサービス

長所と短所

コスト比較

まとめ

コメント

関連ツール

Cohere Embed v3

EmbeddingGemma

Jina Embeddings v4

関連インサイト

AI アシスタントをチャットボックスに押し込むな：Clawdbot は戦場を間違えた

ローコードプラットフォームの黄昏：なぜClaude Agent SDKがDifyを歴史にするのか

Anthropic Subagent: マルチエージェント時代のアーキテクチャ革命