Valeo.ai与索邦大学：视觉训练题注入实现AI图像理解能力大幅提升

这项由法国人工智能公司Valeo.ai与索邦大学、法国国家科学研究中心（CNRS）以及法国大学研究院（IUF）联合开展的研究，以预印本形式于2026年4月14日发布在arXiv平台，论文编号为arXiv:2604.12966v1。感兴趣的读者可通过该编号查询完整原文。

**视觉失明的"读图专家"**

现在的人工智能聊天助手，表面上看起来无所不知。你扔给它一张图，它能说出里面有什么物体、大致场景是什么、甚至帮你写一段描述。但如果你问它："图里有几盏台灯？"或者"那只猫是在车上面还是车下面？"，这类需要仔细数数、辨别空间位置的问题，往往会让它翻车。

这种现象背后有一个有趣的根本原因，而这项研究的核心工作，就是找出这个原因并提出一个出奇简单的解法。

研究团队发现，现有的多模态大语言模型——也就是那种既能看图又能聊天的AI——在训练时存在一个隐患：它们做题的时候，往往不需要真正"看"图就能答对。

可以用一个生活场景来理解这件事。假设你参加了一场语文考试，题目是"根据下面这段描述，回答主人公的心情是什么"。但你平时读了太多小说，对各种故事套路了如指掌，所以不看文字，光凭题目本身的措辞，就能猜出答案是"悲伤"。久而久之，你养成了靠套路答题的习惯，真正理解文章内容的能力反而退化了。

AI训练时面临的问题如出一辙。那些用来训练AI的"图文问答题"，很多都能靠"文字经验"猜出答案。比如问"图里有一只猫，它在干什么？"——就算不看图，AI也能根据日常语言规律猜"猫可能在睡觉或玩耍"，并且有相当高的概率蒙对。这种"走捷径"的策略让AI在训练数据上表现良好，却让它的真实视觉理解能力形同虚设。

**一、为什么好眼神却不会"看"：解剖AI视觉短板的真正根源**

在此之前，研究界普遍认为AI看图能力差，是因为它使用的视觉编码器（相当于眼睛）不够好。于是大家争相设计更强大的"眼睛"，或者把多个不同的"眼睛"拼在一起用。

然而，这项研究指出了一个更微妙的问题所在：眼睛本身没毛病，是大脑懒得去听眼睛说话。

现代AI系统使用的视觉编码器，比如CLIP和DINOv2，其实已经能捕捉到非常丰富的视觉细节。问题在于，当这些视觉信息传递给负责"思考和回答"的语言模型时，语言模型倾向于忽略这些视觉信号，转而依赖自己从海量文字训练中积累的"语言直觉"来作答。

这种现象有点像一位学识渊博的图书馆员，你拿着一张照片去问他问题，他没有认真看照片，而是凭借多年看书的经验直接给你一个听起来合理的答案。如果照片内容比较寻常，他可能碰巧答对了；但如果照片里有什么特殊或反常的细节，他就会答错，因为他根本没有真正"看"。

更令人担忧的是，随着模型规模越来越大、训练数据越来越多，这个问题并没有自然消失。强大的语言先验反而会变得更强，走捷径的倾向更加根深蒂固。

正是基于这一洞察，研究团队提出了一个全新的思路：与其修改AI的"眼睛"，不如在训练阶段强制AI必须用"眼睛"才能答对题。

**二、往训练题库里掺"沙子"：V-GIFT方法的核心思路**

研究团队给这套方法起了一个名字：V-GIFT，即"视觉驱动指令微调"（Visually Grounded Instruction Fine-Tuning）。

它的核心思路可以用一个教育类比来理解。一位语文老师发现班上的学生擅长猜答案，不喜欢认真读文章。于是老师采取了一个策略：在日常练习题里，掺入少量"必须认真读原文才能答对"的题型，比如"请找出第三段第二句的第五个字"或者"文中哪个颜色的衣服出现了三次"。这些题没有任何套路可循，必须老老实实看原文。学生做多了这类题，就会养成认真阅读的习惯，整体理解能力也随之提升。

V-GIFT做的，就是往AI的训练题库里掺入这样的"强制看图题"。这些题目来自经典的自监督学习（Self-Supervised Learning，SSL）领域，即通过改造图片本身来自动生成训练信号的技术，而非依赖人工标注。研究团队将三种经典的自监督预训练任务，改造成了与普通训练数据格式完全相同的"图文问答题"。

第一种是旋转预测。研究团队把一张普通图片旋转0度、90度、180度或270度，然后让AI回答"这张图被旋转了多少度"。要回答这个问题，AI必须真正观察图中物体的朝向，判断它与现实世界中物体正常朝向的偏差。一辆倒置的汽车、一个斜歪的人脸——这些视觉细节无法通过语言猜测得到，必须靠"看"。

第二种是颜色匹配。研究团队把彩色图片转换为灰度图（也就是黑白图），在图上随机标注五个点，用字母A到E标记。然后把这五个点在原始彩色图中对应的颜色打乱顺序列出来，要求AI把每个字母对应到正确的颜色编号上。这个任务需要AI辨认每个标记点所在的物体，联系上下文判断其颜色。比如某个点在天空区域，大概率是蓝色；某个点在草地上，大概率是绿色。这不仅需要精细的视觉辨别，还需要整合全局语境。而且，颜色的顺序是被打乱的，完全没有语言规律可循。

第三种是跨视角对应点。研究团队使用一对拍摄同一物体的不同视角图片，在第一张图上标注一个"查询点"，在第二张图上标注三个候选点（其中一个是正确的对应点，两个是干扰点）。AI需要判断哪个候选点与查询点在视觉上对应。这个任务需要AI理解物体的三维结构，跨越视角变化来匹配语义一致的位置。这种跨图理解能力，是任何语言先验都无法提供的。

这三类任务有一个共同特点：答案无法从语言经验中推导出来。一张图被旋转了90度还是180度，跟图片内容描述毫无关系；一个黑白图上的点是什么颜色，没有任何文字线索；两张图之间哪两个点对应，需要精确的视觉特征匹配。AI必须真正启用视觉感知能力，才能做对这些题。

**三、掺多少才合适：一点点就够了**

这套方法最令人称道的特性之一，是它非常"轻量"——不需要修改模型结构，不需要额外的训练阶段，不需要人工标注，更不需要复杂的超参数调整。

研究团队只是在原有的训练数据集里，额外加入少量这类"强制看图题"，然后用和原来完全一样的方式训练模型。新增数据的比例，用希腊字母ρ（rho）来表示，代表新增题目数量占原有数据集的百分比。

实验结果显示，仅需加入原始数据量3%到10%的这类题目，就能带来稳定可见的性能提升。对于LLaVA-1.5系列模型，最佳比例是10%；对于更强的LLaVA-OneVision-1.5模型，最佳比例是3%。超过这个比例之后，收益开始饱和甚至略有下降，因为过多的"看图强制题"会对原有的语言指令理解能力产生干扰。

有一个尤为值得一提的发现：研究团队测试了用"单张图片的多个裁切放大版本"来生成这些训练题，结果一样有效。换句话说，你甚至不需要一个大型图片数据集，仅用一张高清图片生成数百个不同角度和区域的版本，就足以产生有效的视觉训练信号。这说明关键不在于数据量，而在于训练信号的性质——必须是那种"不看图就答不了"的题型。

**四、实验怎么做的，成效如何**

研究团队在多个不同的模型和训练设置下进行了验证，以确保结论的普遍性。

测试的模型包括三个系列：LLaVA-1.5-Vicuna-7B（使用Vicuna语言模型）、LLaVA-1.5-Qwen2.5-7B（使用Qwen2.5语言模型）以及更先进的LLaVA-OneVision-1.5（使用Qwen3-4B语言模型和RICE-ViT视觉编码器）。这三个模型不仅语言模型不同，视觉编码器和整体训练流程也各有差异，确保了实验结论不依赖于某一特定架构。

训练方式方面，研究团队测试了两种设置：全参数微调（把整个模型的参数都更新）以及LoRA微调（一种参数高效的方法，只更新模型中很小一部分的低秩适配参数）。在两种设置下，V-GIFT都展现出了明显的提升效果。

评估使用了四个专门针对视觉能力的基准测试，分别是：CVB-2D（测试二维空间推理和物体计数能力）、POPE（测试物体幻觉问题，即AI是否会声称图中有实际不存在的物体）、MMStar（测试多维视觉推理能力，共1500道题）以及BLINK（测试14种视觉感知子任务）。

从数字来看，在LLaVA-1.5-Vicuna-7B上，加入V-GIFT后CVB-2D提升了2.6分，POPE提升了0.2分，MMStar提升了1.1分。在LLaVA-1.5-Qwen2.5-7B上，CVB-2D提升了1.1分，POPE提升了0.5分，MMStar提升了0.5分，BLINK提升了1.7分。在最强的LLaVA-OneVision-1.5上，CVB-2D提升了1.0分，POPE提升了0.3分，BLINK更是大幅提升了3.4分。这些数字看起来不大，但要知道这些基准测试的改进空间本身就不大，能在几乎所有指标上稳定提升，是相当难得的成果。

在LoRA微调的对比实验中，研究团队还与另一种叫做VIRAL的方法做了比较。VIRAL通过引入额外的"蒸馏损失"（一种让AI学习模仿外部视觉模型的额外训练目标）来提升视觉能力。V-GIFT在不修改任何训练目标、不引入任何额外损失函数的情况下，在总体性能上超过了VIRAL。这个对比充分说明：优化训练数据的分布，有时比引入复杂的额外目标更加有效。

研究团队还专门验证了这些提升不是来自"训练时间变长了"这一副作用。他们设计了一组对照实验：用同等数量的普通指令数据替代SSL任务，把原来已经用过的数据再训练一遍。结果显示，单纯增加训练步数不仅没有提升性能，在某些指标上甚至还略有下降。只有加入真正的"强制看图题"，才会带来实质性的改善。

此外，研究团队还测试了把这些SSL任务放在不同阶段的效果。如果放在正式指令微调之前单独训练，对最终性能几乎没有帮助，因为后续的指令微调会把之前学到的视觉关注习惯覆盖掉。如果放在指令微调之后再加一个单独的SSL训练阶段，则会因为"灾难性遗忘"（即模型在学新东西时把旧东西忘掉）导致性能大幅下降。只有把SSL任务和普通指令数据混合在同一个训练阶段，才能获得最佳效果。这个发现说明了一个重要原则：视觉能力的强化必须与语言指令理解的训练同步进行，而不能分离开来。

**五、三种任务，缺一不可吗**

研究团队还细致地分析了三种任务各自的贡献，以及它们组合起来是否比单独使用更好。

实验结果表明，三种任务单独使用时，都能带来整体性能的提升，但各有侧重。旋转预测在CVB-2D（计数和空间关系）上表现突出，颜色匹配在POPE（物体感知）上更有效，跨视角对应点在BLINK（视觉感知子任务）上收益更明显。把三者组合起来使用，取得了最强且最均匀的提升效果，说明这三类任务确实覆盖了互补的视觉能力维度。

从另一个角度看，这也意味着研究者可以根据自己的需求灵活选择。如果只关心某一类视觉任务的提升，使用单一任务就已经有效；如果希望全面提升，组合使用是更稳健的选择。

**六、AI的注意力发生了什么变化**

为了直观理解V-GIFT究竟在改变什么，研究团队可视化了模型在回答问题时，注意力（Attention）在图片各部分的分布。简单来说，注意力图显示了模型在生成答案时，"眼神"落在图片哪个区域最多。

对比基线模型和V-GIFT模型在同一张图片上的注意力分布，可以清晰地看到：基线模型的注意力比较分散，均匀铺在整张图上，甚至集中在与问题无关的背景区域；而V-GIFT模型的注意力则更加集中、精准，直接落在与问题相关的物体上。比如在"图里有几盏台灯"这个问题上，V-GIFT模型的注意力明显集中在台灯所在的位置，而基线模型的注意力则没有表现出这种有针对性的聚焦。

研究团队还使用了一个叫做TVI（Token Visual Information）的指标，专门用来量化模型在回答时对视觉信息的依赖程度——数值越高，代表模型越需要"看图"才能给出答案，越少依赖语言先验猜测。结果显示，V-GIFT模型的TVI分数在CVB-2D和MMStar基准上均高于基线，印证了视觉信息的利用率确实提高了。

在若干定性案例中，这种改变的效果也很直观。面对"猫是在车下面还是车上面"这类问题，基线模型凭"常识"回答"是的，在车下面"，而V-GIFT模型则正确回答"不是，在车上面"。面对"相机是在向左还是向右移动"这类需要理解图像动态感的问题，基线回答错了方向，V-GIFT则看出了正确的运动趋势。在需要识别画作上某个功能点对应物体上哪个位置的问题上，两者的表现差异同样明显。

**七、对普通用途的影响：有益还是有损**

一个自然而然的担忧是：加入这些视觉专项训练题之后，模型在普通对话、数学推理、文字识别等非视觉任务上会不会变差？

研究团队在三个通用基准上进行了测试，包括MathVista（数学推理）、OCRBench（文字识别）和RealWorldQA（真实场景综合问答）。结果显示，V-GIFT模型在这些通用任务上的表现与基线持平甚至略有提升，并没有出现明显的负面影响。

这说明这套方法在提升视觉能力的同时，并未对语言理解和推理能力造成破坏，实现了一种良性的平衡。这在实际应用中非常重要——毕竟人们使用AI助手时，既需要它能看懂图，也需要它能好好聊天和推理。

说到底，这项研究提供了一个优雅的答案：想让AI更会"看"，不需要大动干戈地换眼睛、加模块、改训练目标，只需要在教它的过程中，多出几道"必须认真看才能答对"的题，就足够了。这就像培养一个学生的阅读习惯，不是靠买更好的眼镜，而是靠出一些"强迫他真正读进去"的作业。

整个方案的成本极低：不需要额外的人工标注（所有训练信号都自动从图片变换中生成），不需要修改模型架构，不需要引入额外的损失函数，不需要独立的训练阶段，只是悄悄往训练数据里加入一小部分特殊题目，就让模型脱胎换骨，真正开始"用眼睛"回答问题。

这项研究同时也启发了一个更广泛的问题：对于任何会走捷径的学习系统而言，通过精心设计训练数据的结构，是否比不断扩大数据量或模型参数更加关键？这或许值得研究者们继续深入探索。有兴趣了解完整实验细节的读者，可以通过arXiv编号2604.12966检索这篇论文。

Q&A

Q1：V-GIFT方法具体是怎么让AI必须"看图"才能答题的？

A：V-GIFT通过向训练数据中加入三类特殊题型来实现这一点。一类是旋转预测，让AI判断图片被旋转了多少度；一类是颜色匹配，让AI把黑白图上的标记点对应到打乱顺序的颜色选项；一类是跨视角对应点，让AI在两张不同角度的图中找到语义一致的位置点。这三类题目的答案都无法通过文字经验猜出，必须真正分析图片内容才能作答。

Q2：V-GIFT需要加入多少特殊训练题才能有效？

A：实验结果显示，只需加入原始训练数据量3%到10%的特殊题目就能产生稳定的效果。对于LLaVA-1.5系列模型，10%是最佳比例；对于更强的LLaVA-OneVision-1.5模型，3%就已足够。超过这个比例后，收益趋于饱和甚至略有下降。更值得注意的是，即使这些特殊题目只来自单张图片的多个裁切版本，依然有效，说明关键在于题目的类型而非数据量。

Q3：V-GIFT方法会不会让AI在普通对话和推理任务上变差？

A：研究团队在MathVista、OCRBench和RealWorldQA三个通用基准上进行了测试，结果显示V-GIFT模型与基线模型表现相当，部分指标还略有提升，没有出现明显的负面影响。这说明加入视觉专项训练题在提升看图能力的同时，并未损害语言理解和逻辑推理等通用能力，两者可以在同一训练过程中和谐共存。

【纠错】【责任编辑:旗手_i9pb】

深度观察

新华全媒头条丨辟谣仅一天，新疆官媒14年前旧闻被扒出，中戏和闫学晶的麻烦大了