LLaVA(大型语言和视觉助手)工具是一种创新的大型多模态模型,专为通用视觉和语言理解而设计。 它将视觉编码器与大型语言模型 (LLM) Vicuna 相结合,并进行端到端训练。

LLaVA 展示了令人印象深刻的聊天功能,模仿了多模式 GPT-4 的性能,并在 Science QA 任务上设定了新的最先进的准确性。 该工具的主要功能是能够使用纯语言 GPT-4 生成多模式语言图像指令跟踪数据。

LLaVA 是开源的,具有公开可用的数据、模型和代码。 它针对视觉聊天应用程序和科学领域推理等任务进行了微调,在这两个领域都实现了高性能。

LLaVa

相关导航

暂无评论

暂无评论...