NVIDIA nv-rerankqa-mistral-4b-v3

NVIDIAのnv-rerankqa-mistral-4b-v3は、質問応答(Q&A)シナリオ専用に最適化されたリランキングモデルで、2024年12月にリリースされました。32768トークンの超長コンテキストサポートとNVIDIA TensorRT加速が特徴で、QAリランキングタスクで優れたパフォーマンスを発揮します。

主要機能

32768トークンコンテキスト: 業界最高レベル、ほとんどのモデルの4倍
QA最適化: 質問応答専用に学習と最適化
MRR@10: QAリランキングタスクで0.82
TensorRT: NVIDIA GPUで2-3倍高速化
Mistralベース: 効率とパフォーマンスのバランスを取る4Bパラメータ
低レイテンシ: A100/H100で100ms以下

パフォーマンス

QAリランキング: MRR@10: 0.82、NDCG@10: 0.78
推論: 50-80msレイテンシ、200+ QPS スループット (A100)
長文ドキュメント: >8Kトークンのドキュメントで特に優秀

クイックスタート

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('nvidia/nv-rerankqa-mistral-4b-v3')
tokenizer = AutoTokenizer.from_pretrained('nvidia/nv-rerankqa-mistral-4b-v3')

pairs = [[query, answer] for answer in candidates]
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
scores = model(**inputs).logits.squeeze()

最適な用途

✅ QAシステム ✅ NVIDIA A100/H100 GPUユーザー ✅ 長文ドキュメント処理(技術、法律、医療) ✅ 低レイテンシのリアルタイムQA ✅ エンタープライズナレッジQA

適していない用途

❌ 一般的なリランキング(一般モデルを検討) ❌ NVIDIA GPUなし(TensorRTの利点を活用できない) ❌ 強い多言語ニーズ(主に英語最適化) ❌ 非常に限られた予算(ハイエンドGPUが必要)

代替案

Voyage Rerank 2: 一般RAG、16Kコンテキスト、マネージドサービス
Cohere Rerank v3.5: 一般シナリオ、API
Jina Reranker v3: 多言語ニーズ

NVIDIA nv-rerankqa-mistral-4b-v3

NVIDIA nv-rerankqa-mistral-4b-v3

主要機能

パフォーマンス

クイックスタート

最適な用途

適していない用途

代替案

コメント

関連ツール

Voyage AI Rerank 2

BAAI bge-reranker-v2.5-gemma2-lightweight

Cohere Rerank 3.5

関連インサイト

AI アシスタントをチャットボックスに押し込むな：Clawdbot は戦場を間違えた

ローコードプラットフォームの黄昏：なぜClaude Agent SDKがDifyを歴史にするのか

Anthropic Subagent: マルチエージェント時代のアーキテクチャ革命