Valeo.ai与索邦大学:视觉训练题注入实现AI图像理解能力大幅提升
Valeo.ai与索邦大学:视觉训练题注入实现AI图像理解能力大幅提升
  • 2026-04-28 13:16:49
    来源:砥节厉行网

    Valeo.ai与索邦大学:视觉训练题注入实现AI图像理解能力大幅提升

    字体:

    这项由法国人工智能公司Valeo.ai与索邦大学、法国国家科学研究中心(CNRS)以及法国大学研究院(IUF)联合开展的研究,以预印本形式于2026年4月14日发布在arXiv平台,论文编号为arXiv:2604.12966v1。感兴趣的读者可通过该编号查询完整原文。

    **视觉失明的"读图专家"**

    现在的人工智能聊天助手,表面上看起来无所不知。你扔给它一张图,它能说出里面有什么物体、大致场景是什么、甚至帮你写一段描述。但如果你问它:"图里有几盏台灯?"或者"那只猫是在车上面还是车下面?",这类需要仔细数数、辨别空间位置的问题,往往会让它翻车。

    这种现象背后有一个有趣的根本原因,而这项研究的核心工作,就是找出这个原因并提出一个出奇简单的解法。

    研究团队发现,现有的多模态大语言模型——也就是那种既能看图又能聊天的AI——在训练时存在一个隐患:它们做题的时候,往往不需要真正"看"图就能答对。

    可以用一个生活场景来理解这件事。假设你参加了一场语文考试,题目是"根据下面这段描述,回答主人公的心情是什么"。但你平时读了太多小说,对各种故事套路了如指掌,所以不看文字,光凭题目本身的措辞,就能猜出答案是"悲伤"。久而久之,你养成了靠套路答题的习惯,真正理解文章内容的能力反而退化了。

    AI训练时面临的问题如出一辙。那些用来训练AI的"图文问答题",很多都能靠"文字经验"猜出答案。比如问"图里有一只猫,它在干什么?"——就算不看图,AI也能根据日常语言规律猜"猫可能在睡觉或玩耍",并且有相当高的概率蒙对。这种"走捷径"的策略让AI在训练数据上表现良好,却让它的真实视觉理解能力形同虚设。

    **一、为什么好眼神却不会"看":解剖AI视觉短板的真正根源**

    在此之前,研究界普遍认为AI看图能力差,是因为它使用的视觉编码器(相当于眼睛)不够好。于是大家争相设计更强大的"眼睛",或者把多个不同的"眼睛"拼在一起用。

    然而,这项研究指出了一个更微妙的问题所在:眼睛本身没毛病,是大脑懒得去听眼睛说话。

    现代AI系统使用的视觉编码器,比如CLIP和DINOv2,其实已经能捕捉到非常丰富的视觉细节。问题在于,当这些视觉信息传递给负责"思考和回答"的语言模型时,语言模型倾向于忽略这些视觉信号,转而依赖自己从海量文字训练中积累的"语言直觉"来作答。

    这种现象有点像一位学识渊博的图书馆员,你拿着一张照片去问他问题,他没有认真看照片,而是凭借多年看书的经验直接给你一个听起来合理的答案。如果照片内容比较寻常,他可能碰巧答对了;但如果照片里有什么特殊或反常的细节,他就会答错,因为他根本没有真正"看"。

    更令人担忧的是,随着模型规模越来越大、训练数据越来越多,这个问题并没有自然消失。强大的语言先验反而会变得更强,走捷径的倾向更加根深蒂固。

    正是基于这一洞察,研究团队提出了一个全新的思路:与其修改AI的"眼睛",不如在训练阶段强制AI必须用"眼睛"才能答对题。

    **二、往训练题库里掺"沙子":V-GIFT方法的核心思路**

    研究团队给这套方法起了一个名字:V-GIFT,即"视觉驱动指令微调"(Visually Grounded Instruction Fine-Tuning)。

    它的核心思路可以用一个教育类比来理解。一位语文老师发现班上的学生擅长猜答案,不喜欢认真读文章。于是老师采取了一个策略:在日常练习题里,掺入少量"必须认真读原文才能答对"的题型,比如"请找出第三段第二句的第五个字"或者"文中哪个颜色的衣服出现了三次"。这些题没有任何套路可循,必须老老实实看原文。学生做多了这类题,就会养成认真阅读的习惯,整体理解能力也随之提升。

    V-GIFT做的,就是往AI的训练题库里掺入这样的"强制看图题"。这些题目来自经典的自监督学习(Self-Supervised Learning,SSL)领域,即通过改造图片本身来自动生成训练信号的技术,而非依赖人工标注。研究团队将三种经典的自监督预训练任务,改造成了与普通训练数据格式完全相同的"图文问答题"。

    第一种是旋转预测。研究团队把一张普通图片旋转0度、90度、180度或270度,然后让AI回答"这张图被旋转了多少度"。要回答这个问题,AI必须真正观察图中物体的朝向,判断它与现实世界中物体正常朝向的偏差。一辆倒置的汽车、一个斜歪的人脸——这些视觉细节无法通过语言猜测得到,必须靠"看"。

    第二种是颜色匹配。研究团队把彩色图片转换为灰度图(也就是黑白图),在图上随机标注五个点,用字母A到E标记。然后把这五个点在原始彩色图中对应的颜色打乱顺序列出来,要求AI把每个字母对应到正确的颜色编号上。这个任务需要AI辨认每个标记点所在的物体,联系上下文判断其颜色。比如某个点在天空区域,大概率是蓝色;某个点在草地上,大概率是绿色。这不仅需要精细的视觉辨别,还需要整合全局语境。而且,颜色的顺序是被打乱的,完全没有语言规律可循。

    第三种是跨视角对应点。研究团队使用一对拍摄同一物体的不同视角图片,在第一张图上标注一个"查询点",在第二张图上标注三个候选点(其中一个是正确的对应点,两个是干扰点)。AI需要判断哪个候选点与查询点在视觉上对应。这个任务需要AI理解物体的三维结构,跨越视角变化来匹配语义一致的位置。这种跨图理解能力,是任何语言先验都无法提供的。

    这三类任务有一个共同特点:答案无法从语言经验中推导出来。一张图被旋转了90度还是180度,跟图片内容描述毫无关系;一个黑白图上的点是什么颜色,没有任何文字线索;两张图之间哪两个点对应,需要精确的视觉特征匹配。AI必须真正启用视觉感知能力,才能做对这些题。

    **三、掺多少才合适:一点点就够了**

    这套方法最令人称道的特性之一,是它非常"轻量"——不需要修改模型结构,不需要额外的训练阶段,不需要人工标注,更不需要复杂的超参数调整。

    研究团队只是在原有的训练数据集里,额外加入少量这类"强制看图题",然后用和原来完全一样的方式训练模型。新增数据的比例,用希腊字母ρ(rho)来表示,代表新增题目数量占原有数据集的百分比。

    实验结果显示,仅需加入原始数据量3%到10%的这类题目,就能带来稳定可见的性能提升。对于LLaVA-1.5系列模型,最佳比例是10%;对于更强的LLaVA-OneVision-1.5模型,最佳比例是3%。超过这个比例之后,收益开始饱和甚至略有下降,因为过多的"看图强制题"会对原有的语言指令理解能力产生干扰。

    有一个尤为值得一提的发现:研究团队测试了用"单张图片的多个裁切放大版本"来生成这些训练题,结果一样有效。换句话说,你甚至不需要一个大型图片数据集,仅用一张高清图片生成数百个不同角度和区域的版本,就足以产生有效的视觉训练信号。这说明关键不在于数据量,而在于训练信号的性质——必须是那种"不看图就答不了"的题型。

    **四、实验怎么做的,成效如何**

    研究团队在多个不同的模型和训练设置下进行了验证,以确保结论的普遍性。

    测试的模型包括三个系列:LLaVA-1.5-Vicuna-7B(使用Vicuna语言模型)、LLaVA-1.5-Qwen2.5-7B(使用Qwen2.5语言模型)以及更先进的LLaVA-OneVision-1.5(使用Qwen3-4B语言模型和RICE-ViT视觉编码器)。这三个模型不仅语言模型不同,视觉编码器和整体训练流程也各有差异,确保了实验结论不依赖于某一特定架构。

    训练方式方面,研究团队测试了两种设置:全参数微调(把整个模型的参数都更新)以及LoRA微调(一种参数高效的方法,只更新模型中很小一部分的低秩适配参数)。在两种设置下,V-GIFT都展现出了明显的提升效果。

    评估使用了四个专门针对视觉能力的基准测试,分别是:CVB-2D(测试二维空间推理和物体计数能力)、POPE(测试物体幻觉问题,即AI是否会声称图中有实际不存在的物体)、MMStar(测试多维视觉推理能力,共1500道题)以及BLINK(测试14种视觉感知子任务)。

    从数字来看,在LLaVA-1.5-Vicuna-7B上,加入V-GIFT后CVB-2D提升了2.6分,POPE提升了0.2分,MMStar提升了1.1分。在LLaVA-1.5-Qwen2.5-7B上,CVB-2D提升了1.1分,POPE提升了0.5分,MMStar提升了0.5分,BLINK提升了1.7分。在最强的LLaVA-OneVision-1.5上,CVB-2D提升了1.0分,POPE提升了0.3分,BLINK更是大幅提升了3.4分。这些数字看起来不大,但要知道这些基准测试的改进空间本身就不大,能在几乎所有指标上稳定提升,是相当难得的成果。

    在LoRA微调的对比实验中,研究团队还与另一种叫做VIRAL的方法做了比较。VIRAL通过引入额外的"蒸馏损失"(一种让AI学习模仿外部视觉模型的额外训练目标)来提升视觉能力。V-GIFT在不修改任何训练目标、不引入任何额外损失函数的情况下,在总体性能上超过了VIRAL。这个对比充分说明:优化训练数据的分布,有时比引入复杂的额外目标更加有效。

    研究团队还专门验证了这些提升不是来自"训练时间变长了"这一副作用。他们设计了一组对照实验:用同等数量的普通指令数据替代SSL任务,把原来已经用过的数据再训练一遍。结果显示,单纯增加训练步数不仅没有提升性能,在某些指标上甚至还略有下降。只有加入真正的"强制看图题",才会带来实质性的改善。

    此外,研究团队还测试了把这些SSL任务放在不同阶段的效果。如果放在正式指令微调之前单独训练,对最终性能几乎没有帮助,因为后续的指令微调会把之前学到的视觉关注习惯覆盖掉。如果放在指令微调之后再加一个单独的SSL训练阶段,则会因为"灾难性遗忘"(即模型在学新东西时把旧东西忘掉)导致性能大幅下降。只有把SSL任务和普通指令数据混合在同一个训练阶段,才能获得最佳效果。这个发现说明了一个重要原则:视觉能力的强化必须与语言指令理解的训练同步进行,而不能分离开来。

    **五、三种任务,缺一不可吗**

    研究团队还细致地分析了三种任务各自的贡献,以及它们组合起来是否比单独使用更好。

    实验结果表明,三种任务单独使用时,都能带来整体性能的提升,但各有侧重。旋转预测在CVB-2D(计数和空间关系)上表现突出,颜色匹配在POPE(物体感知)上更有效,跨视角对应点在BLINK(视觉感知子任务)上收益更明显。把三者组合起来使用,取得了最强且最均匀的提升效果,说明这三类任务确实覆盖了互补的视觉能力维度。

    从另一个角度看,这也意味着研究者可以根据自己的需求灵活选择。如果只关心某一类视觉任务的提升,使用单一任务就已经有效;如果希望全面提升,组合使用是更稳健的选择。

    **六、AI的注意力发生了什么变化**

    为了直观理解V-GIFT究竟在改变什么,研究团队可视化了模型在回答问题时,注意力(Attention)在图片各部分的分布。简单来说,注意力图显示了模型在生成答案时,"眼神"落在图片哪个区域最多。

    对比基线模型和V-GIFT模型在同一张图片上的注意力分布,可以清晰地看到:基线模型的注意力比较分散,均匀铺在整张图上,甚至集中在与问题无关的背景区域;而V-GIFT模型的注意力则更加集中、精准,直接落在与问题相关的物体上。比如在"图里有几盏台灯"这个问题上,V-GIFT模型的注意力明显集中在台灯所在的位置,而基线模型的注意力则没有表现出这种有针对性的聚焦。

    研究团队还使用了一个叫做TVI(Token Visual Information)的指标,专门用来量化模型在回答时对视觉信息的依赖程度——数值越高,代表模型越需要"看图"才能给出答案,越少依赖语言先验猜测。结果显示,V-GIFT模型的TVI分数在CVB-2D和MMStar基准上均高于基线,印证了视觉信息的利用率确实提高了。

    在若干定性案例中,这种改变的效果也很直观。面对"猫是在车下面还是车上面"这类问题,基线模型凭"常识"回答"是的,在车下面",而V-GIFT模型则正确回答"不是,在车上面"。面对"相机是在向左还是向右移动"这类需要理解图像动态感的问题,基线回答错了方向,V-GIFT则看出了正确的运动趋势。在需要识别画作上某个功能点对应物体上哪个位置的问题上,两者的表现差异同样明显。

    **七、对普通用途的影响:有益还是有损**

    一个自然而然的担忧是:加入这些视觉专项训练题之后,模型在普通对话、数学推理、文字识别等非视觉任务上会不会变差?

    研究团队在三个通用基准上进行了测试,包括MathVista(数学推理)、OCRBench(文字识别)和RealWorldQA(真实场景综合问答)。结果显示,V-GIFT模型在这些通用任务上的表现与基线持平甚至略有提升,并没有出现明显的负面影响。

    这说明这套方法在提升视觉能力的同时,并未对语言理解和推理能力造成破坏,实现了一种良性的平衡。这在实际应用中非常重要——毕竟人们使用AI助手时,既需要它能看懂图,也需要它能好好聊天和推理。

    说到底,这项研究提供了一个优雅的答案:想让AI更会"看",不需要大动干戈地换眼睛、加模块、改训练目标,只需要在教它的过程中,多出几道"必须认真看才能答对"的题,就足够了。这就像培养一个学生的阅读习惯,不是靠买更好的眼镜,而是靠出一些"强迫他真正读进去"的作业。

    整个方案的成本极低:不需要额外的人工标注(所有训练信号都自动从图片变换中生成),不需要修改模型架构,不需要引入额外的损失函数,不需要独立的训练阶段,只是悄悄往训练数据里加入一小部分特殊题目,就让模型脱胎换骨,真正开始"用眼睛"回答问题。

    这项研究同时也启发了一个更广泛的问题:对于任何会走捷径的学习系统而言,通过精心设计训练数据的结构,是否比不断扩大数据量或模型参数更加关键?这或许值得研究者们继续深入探索。有兴趣了解完整实验细节的读者,可以通过arXiv编号2604.12966检索这篇论文。

    Q&A

    Q1:V-GIFT方法具体是怎么让AI必须"看图"才能答题的?

    A:V-GIFT通过向训练数据中加入三类特殊题型来实现这一点。一类是旋转预测,让AI判断图片被旋转了多少度;一类是颜色匹配,让AI把黑白图上的标记点对应到打乱顺序的颜色选项;一类是跨视角对应点,让AI在两张不同角度的图中找到语义一致的位置点。这三类题目的答案都无法通过文字经验猜出,必须真正分析图片内容才能作答。

    Q2:V-GIFT需要加入多少特殊训练题才能有效?

    A:实验结果显示,只需加入原始训练数据量3%到10%的特殊题目就能产生稳定的效果。对于LLaVA-1.5系列模型,10%是最佳比例;对于更强的LLaVA-OneVision-1.5模型,3%就已足够。超过这个比例后,收益趋于饱和甚至略有下降。更值得注意的是,即使这些特殊题目只来自单张图片的多个裁切版本,依然有效,说明关键在于题目的类型而非数据量。

    Q3:V-GIFT方法会不会让AI在普通对话和推理任务上变差?

    A:研究团队在MathVista、OCRBench和RealWorldQA三个通用基准上进行了测试,结果显示V-GIFT模型与基线模型表现相当,部分指标还略有提升,没有出现明显的负面影响。这说明加入视觉专项训练题在提升看图能力的同时,并未损害语言理解和逻辑推理等通用能力,两者可以在同一训练过程中和谐共存。

    【纠错】【责任编辑:旗手_i9pb】