LLaVA-1.5

1 论文的结论&贡献

  1. 模型层面:原先把视觉投影到语言,使用的是Linear projection,它已经很强大,替换为MLP之后,会发现性能会有进一步的提升。
  2. 输入图片:使用更大的分辨率,会让模型看清更多细节,提高性能。使用更强的 CLIP-ViT-L-336px 视觉编码器替换原先的 CLIP-ViT-L/14
  3. 优化简单回答性能:将面向学术任务的 VQA-v2 数据集,纳入LLaVA instruction tuning的训练范畴,并且使用Response Format Prompting来优化VQA-v2的学习。这两者明显提升了LLaVA在短回答上的性能。(LLaVA之前在学术benchmark上,尤其要求简单回答的问题上,是短板)
  4. 分析图像分辨率、数据规模以及语言模型大小对性能的影响,揭示了模型的组合能力。

2 Methods & Architecture

2.1 Architecture

LLaVA-1.5 在 LLaVA 的基础上做了以下改动:

  • 使用 CLIP-ViT-L-336px 视觉编码器替换原先的 CLIP-ViT-L/14
  • 将原先的一层线性层替换为 MLP 层(两层线性层)

2.2 Additional Training on VQA-v2 and other Academic task oriented data

instructBLIP不太能平衡长回答和简短回答,有的时候,让其详细描述图片,它只会打yes和no,如下图所示:

作者认为有如下几个原因:

  1. 回答格式非常模糊,instructBLIP使用的是Q: {Question} A: {Answer},并没有详细说明想要的输出格式,会导致模型偏向于简短回答,即便是对于自然语言的对话。
  2. instructBLIP没有finetune LLM,其只finetune了Q-Former。也就是说,回答是长是短,完全由q-former提取的视觉特征来决定,显然,q-former并没有这个能力。

因此,作者为VQA-v2设计了response format,即在question之后加入:Answer the question using a single word or phrase。作者发现LLM就可以根据用户指示输出指定长度的回答了。

除了在VQA-v2上训练,还在一些Academic task oriented data进行训练。为了提升VQA、OCR性能,作者在OKVQA、A-OKVQA、OCRVQA、TextCaps上进行训练。作者还在visual geneme和RefCOCO上进一步训练,提升region level perception。

2.3 Scaling in image resolution and LLM model size

2.3.1 Scaling in image resolution

作者使用CLIP-ViT-L-336px,将224✖️224提升为336✖️336,发现性能有提升。并且又囊括了一个数据集:GQA,提供额外的视觉知识。但是作者并没有止步于此,为了能让模型适应任意尺寸的输入,作者采用AnyRes策略,具体步骤如下:

  • 将高分辨率的图像分割成块,块的大小取决于视觉编码器能够处理的大小(例如 CLIP-ViT-L/14 可以处理的分辨率为 224*224)。视觉编码器单独处理每一块。
  • 同时,将高分辨率的图像 resize 成视觉编码器能够处理的大小并使用视觉编码器进行编码,提供全局上下文,减少分割编码合并操作的伪影。
  • 将上面两步的结果拼接在一起作为视觉特征

2.3.2 Scaling in LLM model size

当把模型scale up to 13B的时候,模型的性能又有提升。上文所说的所有额外添加的训练结果如下图所示:

作者把最后两行(第八行、第九行)的训练模型命名为LLaVA-1.5

3 Open problem in LLM

Data Efficiency

作者发现,只用50%的数据集训练,模型仍然会保持超过98%的性能。当数据集规模葱50%变为30%,模型的性能还能保持稳定。这表明在数据集上还有很大的压缩空间,未来可以有更好的数据集压缩策略来提升训练效率。

Hallucination in LMMs

现在我们都把模型的幻觉问题归因于数据集中的错误。但是,作者把图像分辨率提升为448✖️448的时候,幻觉问题明显减弱,说明LLMs对于训练数据中的错误有一定鲁棒性。

除此之外,作者总结出:当输入分辨率不足以模型分辨出训练数据中的所有细节,或者训练数据的中那些粒度足够小,超过模型理解能力的数据过多的时候,会导致幻觉问题。

Compositional Capability

作者发现,当模型为了提升某种能力在某个数据集上训练的时候,模型的其他能力也有可能会提升。比如,在ShareGPT上进行训练,可以提升模型的多语种能力,并且模型在视觉对话中还能够提供更长、更详细的回答;在academic-task-oriented数据集上训练,会提升模型在视觉对话中的visual groundness。也就是说,可以这么理解:在一个数据集上训练,在其他数据集上也会涨点,并且模型的各种综合能力也会提升。

 

 

 

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇