NVIDIA nv-rerankqa-mistral-4b-v3 logo

NVIDIA nv-rerankqa-mistral-4b-v3

開く

NVIDIAの質問応答専用リランキングモデル。32768トークンの超長コンテキストをサポート、Mistralアーキテクチャベース、TensorRT加速対応。

共有:

NVIDIA nv-rerankqa-mistral-4b-v3

NVIDIAのnv-rerankqa-mistral-4b-v3は、質問応答(Q&A)シナリオ専用に最適化されたリランキングモデルで、2024年12月にリリースされました。32768トークンの超長コンテキストサポートとNVIDIA TensorRT加速が特徴で、QAリランキングタスクで優れたパフォーマンスを発揮します。

主要機能

  • 32768トークンコンテキスト: 業界最高レベル、ほとんどのモデルの4倍
  • QA最適化: 質問応答専用に学習と最適化
  • MRR@10: QAリランキングタスクで0.82
  • TensorRT: NVIDIA GPUで2-3倍高速化
  • Mistralベース: 効率とパフォーマンスのバランスを取る4Bパラメータ
  • 低レイテンシ: A100/H100で100ms以下

パフォーマンス

  • QAリランキング: MRR@10: 0.82、NDCG@10: 0.78
  • 推論: 50-80msレイテンシ、200+ QPS スループット (A100)
  • 長文ドキュメント: >8Kトークンのドキュメントで特に優秀

クイックスタート

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained('nvidia/nv-rerankqa-mistral-4b-v3')
tokenizer = AutoTokenizer.from_pretrained('nvidia/nv-rerankqa-mistral-4b-v3')

pairs = [[query, answer] for answer in candidates]
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt')
scores = model(**inputs).logits.squeeze()

最適な用途

✅ QAシステム ✅ NVIDIA A100/H100 GPUユーザー ✅ 長文ドキュメント処理(技術、法律、医療) ✅ 低レイテンシのリアルタイムQA ✅ エンタープライズナレッジQA

適していない用途

❌ 一般的なリランキング(一般モデルを検討) ❌ NVIDIA GPUなし(TensorRTの利点を活用できない) ❌ 強い多言語ニーズ(主に英語最適化) ❌ 非常に限られた予算(ハイエンドGPUが必要)

代替案

コメント

まだコメントがありません。最初のコメントを投稿してください!