llava-v1.6-34b-hf

LLaVA-NeXT 模型的提出源于 LLaVA-NeXT：提高推理能力、OCR 和世界知识的研究，由 Haotian Liu、Chunyuan Li、Yuheng Li、Bo Li、Yuanhan Zhang、Sheng Shen 和 Yong Jae Lee 共同完成。LLaVa-NeXT（又称 LLaVa-1.6）在原有的 LLaVa 模型基础上，通过增加输入图片的分辨率以及训练更优的视觉指令调优数据集，显著提升了OCR（光学字符识别）和常识推理的能力。

该模型的核心创新在于其处理更高分辨率图像的能力，这为用户在视觉理解任务中提供了更强的表现。LLaVA-NeXT的目标不仅限于文本处理，还将更多的现实世界知识融入到模型中，以增强其在复杂任务中的应用潜力。

需要注意的是，发布 LLaVa-NeXT 的团队并未撰写该模型的模型卡，因此该模型卡由 Hugging Face 团队编写，为用户提供了详细的信息和使用指南。

基本信息

数据统计

分类和标签