普林斯顿大学发布Vero:开放式强化学习让AI视觉推理能力全面升级,普林斯顿大学mpp

这项由普林斯顿大学领导的研究发表于2026年4月的arXiv预印本（编号arXiv:2604.04917v1），有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队构建了一套完全开放的训练方法，让AI在处理图表、科学问题、空间理解等各类视觉任务时表现得更加出色。

想象一下，现在的AI就像是一个聪明但经验有限的学生，能够回答一些问题，但在面对复杂的视觉推理任务时往往表现不佳。比如让它分析一张复杂的科学图表，或者解决需要空间想象力的几何题，它可能会显得力不从心。更重要的是，目前最强大的AI系统都使用着不公开的训练方法和数据，就像是秘密配方一样，其他研究者无法学习和改进。

普林斯顿大学的研究团队决定打破这种局面。他们开发了一套名为Vero的训练系统，不仅让AI在各种视觉推理任务上表现更加出色，更重要的是，他们将整套方法完全公开，包括训练数据、代码和模型。这就像是把一个顶级厨师的全部食谱、制作过程和食材来源都公布出来，让所有人都能学习和改进。

研究团队的核心发现令人振奋：通过精心设计的强化学习训练，AI不仅在单个任务上表现优异，更能够在不同类型的视觉推理任务之间灵活切换。他们的模型在30个具有挑战性的测试中平均提升了3.7到5.5分，在某些特定任务上甚至超越了使用专有数据训练的商业模型。

更令人惊讶的是，研究团队发现不同类型的视觉任务会激发AI产生完全不同的思维模式。当面对数学题时，AI会展现出反复验证和回溯的思考方式；而在处理图像搜索任务时，它则会采用更加直接和目标导向的策略。这种现象表明，真正强大的AI系统需要掌握多样化的认知策略，而不是依赖单一的解题模式。

整个研究最有价值的地方在于其开放性。研究团队构建了一个包含60万个训练样本的数据集Vero-600K，覆盖了从图表分析到空间推理的六大类视觉任务。他们还开发了一套巧妙的奖励机制，能够根据不同任务类型自动调整评价标准，就像是一个经验丰富的老师，知道如何针对不同学科采用不同的评分方式。

这项研究的意义远超技术层面。在AI发展越来越依赖大公司闭门造车的今天，普林斯顿大学选择完全开源的做法为整个领域树立了新的标杆。他们证明了透明和开放的研究方法不仅可行，而且能够产生与商业系统相媲美甚至更优秀的结果。

一、强化学习让AI学会像人一样思考

传统的AI训练方式就像是让学生死记硬背标准答案，虽然在考试中能够得到不错的分数，但缺乏真正的理解和灵活应对的能力。强化学习则完全不同，它更像是让AI通过不断尝试和获得反馈来学习，就如同人类学习新技能的过程。

在这项研究中，研究团队采用了一种叫做GSPO的强化学习算法。这种算法的工作原理可以用学开车来类比：当新手司机第一次上路时，教练不会预先告诉他们每一个路口该如何转弯，而是让他们尝试驾驶，然后根据结果给出反馈。开得好的时候给予鼓励，出现错误时指出问题。经过反复练习，司机逐渐掌握了在各种复杂路况下的应对策略。

GSPO算法在处理AI训练时采用了类似的策略。它会让AI生成多个不同的回答，然后根据这些回答的质量给出相应的奖励分数。与众不同的是，GSPO不仅关注最终答案的正确性，还会考虑AI推理过程的合理性。这就像是不仅要求学生答对题目，还要求他们展示完整的解题思路。

研究团队在设计奖励机制时展现了极高的智慧。他们没有采用一刀切的评分标准，而是针对不同类型的任务设计了专门的评价方法。比如在处理数学题时，系统会验证计算过程的正确性；在分析图表时，会检查AI是否准确提取了关键数据；在处理开放性问题时，甚至会使用另一个AI模型作为"评委"来判断回答质量。

这种精细化的奖励设计带来了显著的效果。经过训练的AI不仅在准确性上有了大幅提升，更重要的是学会了根据任务类型调整自己的思考方式。当面对需要精确计算的数学问题时，它会表现得小心谨慎，反复验证每一步计算；而在处理需要创造性思维的描述任务时，它又能够展现出丰富的想象力和表达能力。

研究团队还发现了一个有趣的现象：通过强化学习训练的AI会自发地产生一些类似人类的思维习惯。比如在遇到复杂问题时会先制定解题计划，在不确定时会寻找更多证据，甚至会在发现错误时主动回溯重新思考。这些行为都没有被明确地编程进去，而是AI在学习过程中自然涌现的智能行为。

二、六大任务类型训练全能型AI

要培养一个真正全能的AI，就像培养一个全面发展的学生一样，不能只专注于某一个学科，而需要在多个领域都有所建树。研究团队将视觉推理任务分为六大类别，每一类都代表着不同的认知技能。

图表与文档理解类任务考验着AI的信息提取和分析能力。想象一下面对一张复杂的科学论文图表，人类需要先识别图表类型，理解坐标轴的含义，提取关键数据点，然后分析数据之间的关系。AI在这类任务中需要展现出类似的能力。研究团队收集了包括ChartQA、InfoVQA等在内的9个不同数据集，涵盖了从简单的条形图分析到复杂的科学图表解读等各种场景。

STEM科学技术类任务则重点考查AI的逻辑推理和数学计算能力。这类任务包括几何证明、物理问题求解、医学图像分析等，需要AI不仅能够识别图像中的关键信息，还要运用科学知识进行推理。比如在解决一个几何题时，AI需要识别图形中的各种元素，回忆相关的几何定理，然后按照逻辑步骤推导出答案。

空间与行动类任务考验的是AI的空间想象力和动作规划能力。这类任务可能涉及机器人导航、游戏策略制定、三维空间理解等场景。就像人类在玩拼图游戏时需要在脑海中旋转和移动图块一样，AI也需要具备类似的空间思维能力。

知识与识别类任务结合了视觉识别和常识推理。这类任务要求AI不仅能够识别图像中的物体，还要运用常识知识进行推理。比如看到一张餐厅照片，AI不仅要识别出桌椅、食物等物体，还要理解这是一个用餐场景，并能回答关于用餐文化、食物类型等相关问题。

定位、计数与搜索类任务专注于精确的视觉定位能力。这类任务可能要求AI在复杂场景中准确计数特定物体的数量，或者在图像中精确定位某个目标的位置。就像在人群中找到特定的人一样，这需要AI具备敏锐的观察力和精确的定位能力。

描述与指令执行类任务考验的是AI的语言生成和指令理解能力。这类任务要求AI能够用自然流畅的语言描述所看到的内容，或者按照给定的指令完成特定的任务。这不仅需要视觉理解能力，还需要良好的语言表达能力。

研究团队的一个重要发现是，这六类任务之间的迁移能力远比预期的要弱。当AI只在某一类任务上进行训练时，它在其他类型任务上的表现往往会下降。这就像一个只专注于数学学习的学生，在面对语文或历史问题时可能会显得无所适从。只有通过在所有六类任务上均衡训练，AI才能真正成为一个全能型的视觉推理专家。

更有趣的是，研究团队发现不同类型的任务会激发AI产生完全不同的推理模式。在处理STEM问题时，AI倾向于采用更多的回溯和验证行为，体现出审慎和严谨的思维特点；而在处理定位和搜索任务时，AI则会表现得更加直接和目标导向，减少不必要的内省行为。这种现象表明，AI正在学会像人类专家一样，根据任务类型自动调整自己的认知策略。

三、60万样本数据集的精心打造

构建一个高质量的训练数据集就像是为一场盛宴精心挑选食材，不仅要保证食材的新鲜和质量，还要确保搭配的合理性和营养的均衡。研究团队从超过250个候选数据集中精心筛选，最终构建了包含60万个训练样本的Vero-600K数据集。

数据收集的过程可以比作一次大规模的食材采购。研究团队首先从各种公开数据源收集了大量的图像-问题-答案三元组，这些数据来自不同的研究机构和项目，质量参差不齐。就像在菜市场选购蔬菜一样，他们需要从这些海量数据中挑选出最优质的部分。

第一轮筛选采用了启发式规则，就像是对食材进行基础的外观检查。研究团队排除了样本数量过少的数据集（少于1000个样本），过滤掉了分辨率过低的图像（平均像素少于20万），还剔除了简单的是非题，因为这类题目容易让AI养成猜测的坏习惯。

接下来是更加严格的人工质量控制环节，就像是由经验丰富的厨师对食材进行专业检验。研究团队为每个候选数据集随机抽取约50个样本，从三个维度进行评估：正确性要求图像-问题-答案三元组的错误率低于5%；明确性要求每个问题都有唯一可验证的答案；可验证性要求答案格式与奖励函数兼容。经过这轮筛选，最终只有59个数据集通过了严格的质量检验。

但是筛选工作还没有结束。即使在通过质量检验的数据集中，仍然存在大量有问题的单个样本。研究团队采用了基于大语言模型的智能过滤技术，就像是请来了一位AI助手来帮忙检查每一道食材。这个AI助手会根据五个标准来评估每个问题：图像与问题的相关性、问题的明确性、语言的规范性、答案的可验证性，以及数值精度的合理性。

在问题过滤的基础上，研究团队还进行了答案标准化处理。这个过程就像是将不同供应商提供的同类食材统一处理成标准规格。数值型答案被统一去除单位和货币符号，转换为标准的小数形式；选择题答案被规范化为单一的大写字母；文本答案经过小写化和空白符标准化处理，以便进行精确匹配。

在数据混合策略方面，研究团队发现了一个重要原则：均匀分配比智能加权更有效。他们尝试了多种混合策略，包括基于准确率的难度加权、基于推理长度的复杂度加权、基于图像面积的信息密度加权等。然而实验结果表明，简单的均匀分配策略反而取得了最好的整体效果。这就像是在烹饪时，有时候最简单的调味方式反而能带出食材的本真味道。

这种现象的背后反映了多任务学习的一个重要原理：不同类型的任务需要不同的认知技能，而这些技能之间的相互作用非常复杂。过度偏向某一类任务可能会以牺牲其他技能为代价。均匀分配确保了AI能够在所有类型的视觉推理任务上都获得充分的训练机会，从而发展出更加平衡和全面的能力。

研究团队还构建了VeroEval评估套件，包含30个具有挑战性的基准测试，覆盖了所有六个任务类别。这个评估套件就像是一套全面的能力测试题，能够客观地衡量AI在各个方面的表现水平。通过在这个标准化的测试套件上进行评估，研究团队能够准确地比较不同训练方法和数据配置的效果。

四、任务导向的巧妙奖励机制

设计一个有效的奖励机制就像是制定一套公正而全面的考试评分标准，既要确保不同类型题目都能得到恰当的评价，又要激励学生展现出最佳的学习效果。研究团队在这方面展现了极高的智慧，开发了一套根据任务类型自动路由的多元化奖励系统。

总体奖励由三个部分组成，就像是一份综合成绩单。准确性奖励占主要比重（80%），评估AI给出的最终答案是否正确；格式奖励占次要比重（20%），确保AI的回答遵循规定的格式要求；此外还有一个防止冗余的惩罚机制，避免AI产生过长而无意义的回答。

准确性奖励的核心在于根据不同答案类型采用相应的验证方法。对于数学计算类问题，系统使用符号解析器来验证数值答案的正确性，就像数学老师检查计算过程一样严格。对于选择题，系统会提取单一字母并与标准答案比较。对于需要精确定位的任务，系统采用基于IoU（交并比）的匹配算法，就像评判射箭比赛一样，不仅看是否射中靶心，还要考虑偏离的程度。

特别值得一提的是针对开放性任务设计的LLM评委机制。当面对主观性较强的任务，比如图像描述或创意写作时，系统会请来另一个大语言模型担任评委角色。这个AI评委接受了专门的训练，能够从多个维度评估回答质量，包括内容的准确性、语言的自然性、表达的连贯性等。更重要的是，评委系统还内置了反作弊机制，自动识别和惩罚那些试图迎合评分系统的自夸式回答。

格式奖励确保AI学会按照要求组织自己的回答。系统要求AI将回答分为两个部分：思考过程部分用特殊标签包围，展示详细的推理步骤；答案部分同样用标签标识，包含最终结果。对于需要精确答案的问题，系统还要求使用特定的数学符号标记最终答案，就像在答题卡上填涂正确选项一样。

防冗余机制解决了强化学习中常见的"话痨"问题。有些AI在训练过程中会学会通过产生冗长的回答来获得更多奖励，就像学生为了凑字数而写一些无关紧要的内容。研究团队设计了一个渐进式惩罚机制，当回答长度超过合理范围时，会根据超出程度给予相应的扣分。

这套奖励机制的巧妙之处在于它的自适应性。系统能够根据具体问题的类型自动选择最合适的评估方法，就像一个经验丰富的老师知道如何针对不同学科采用不同的评分标准。数学题重视计算的精确性，语文题关注表达的流畅性，美术题强调创意的独特性。

实验结果证明了这种设计的有效性。与使用统一评估标准的基线方法相比，任务导向的奖励机制在各个类别上都取得了显著的提升。特别是在描述与指令执行类任务上，改进效果最为明显，从34.3分提升到70.6分，几乎翻了一倍。这表明针对不同任务特点设计专门的奖励机制确实能够激发AI在该领域的学习潜力。

五、思维模式的惊人差异化

研究团队的一个重大发现是，不同类型的视觉推理任务会激发AI产生截然不同的思维模式，这种现象就像人类专家在面对不同领域问题时会自然切换到相应的思考方式一样令人着迷。

为了深入理解这种现象，研究团队开发了一套基于认知行为分析的评估框架。他们将AI的推理过程分解为34种不同的认知行为，包括逻辑连贯性、策略选择、回溯思考、模式识别等。这就像是为AI的大脑装上了一套精密的监控设备，能够实时观察它在思考时各个"脑区"的活跃程度。

当AI处理STEM科学技术类问题时，它展现出了明显的审慎和严谨特征。回溯行为的出现频率显著增加，从平均的27%上升到48%，这表明AI在面对复杂的科学问题时会更频繁地回头检查和验证自己的推理步骤。同时，自我评估行为也大幅增强，AI会主动质疑自己的中间结果，寻找可能的错误。这种思维模式类似于一个严谨的科学家，每一步都要经过反复验证才敢得出结论。

相比之下，在处理定位、计数与搜索类任务时，AI表现出了完全不同的认知模式。自我意识行为从平均的73%下降到49%，内省性思考明显减少。取而代之的是更加直接和目标导向的视觉搜索策略。AI会快速扫描图像的不同区域，专注于识别和定位目标物体，避免过多的内在反思。这种思维模式更像是一个经验丰富的侦察兵，能够迅速锁定目标而不被其他信息干扰。

在图表与文档理解类任务中，AI展现出了系统性区域综合的特殊能力。它会按照一定的顺序遍历图表的不同部分，比如先看标题，再看坐标轴，然后分析数据点，最后综合得出结论。这种有序的信息处理方式体现了AI在面对结构化信息时自发形成的系统性思维模式。

空间与行动类任务激发了AI的感知-推理分离策略。AI会首先进行全面的视觉信息提取，建立对整个场景的完整认知，然后再进行抽象的逻辑推理。这种两阶段的处理方式在其他类型任务中并不明显，但在涉及空间关系和动作规划的任务中表现得特别突出。

更令人惊讶的是，AI在不同任务中的推理长度也存在显著差异。空间与行动类任务的平均推理长度达到1983个词，而知识与识别类任务只有76个词，两者相差超过26倍。这种巨大的差异反映了不同任务对认知资源需求的根本不同。

研究团队进一步通过技能级别的分析发现，AI在不同领域训练后会发展出专门化的技能集合。当专门在图表分析任务上训练时，AI会掌握"坐标轴分析"、"数据提取"、"图例解释"等专门技能。而在空间推理训练中，它则会发展出"心理模拟"、"空间关系分析"、"视角转换"等不同的技能组合。

这些发现的重要意义在于揭示了多任务学习的本质。不同类型的任务不仅需要不同的知识，更需要不同的思维模式和认知策略。一个真正智能的AI系统必须像人类专家一样，能够根据任务特点自动调整自己的思考方式。这也解释了为什么单一领域的训练往往无法产生真正通用的智能，只有通过多样化的任务训练，AI才能发展出灵活的认知适应能力。

六、开放科学的示范意义

在当今AI发展日趋商业化和封闭化的背景下，普林斯顿大学选择完全开源的研究路径具有重要的示范意义，这种做法就像是在知识封锁的高墙上打开了一扇明亮的窗户。

目前最先进的AI视觉推理系统，如GPT-4V、Claude-3等，虽然性能优异，但其训练方法、数据来源和技术细节都被严格保密。这种情况就像是有人发明了一种神奇的药物，但拒绝公开配方和制作工艺，其他研究者只能根据效果猜测其工作原理。这种封闭性严重阻碍了学术界的进步和创新。

相比之下，Vero项目采用了截然不同的开放策略。研究团队不仅公开了最终的模型权重，还详细发布了训练数据、代码实现、实验配置，甚至包括失败的尝试和调试过程。这种透明度就像是把整个研究过程都搬到了玻璃房子里，让所有人都能看到每一个决策的依据和每一步实验的细节。

开放数据集Vero-600K的构建过程本身就是一个重要贡献。研究团队详细记录了从250多个候选数据集中筛选出59个高质量数据集的全过程，包括每一个筛选标准的制定依据、人工标注的具体流程、质量控制的检验方法等。这些信息对于其他研究者具有极高的参考价值，能够帮助他们避免重复试错，快速构建自己的训练数据集。

在技术方法层面，研究团队提供了详尽的算法描述和实现细节。从强化学习算法的参数设置，到奖励函数的具体实现，再到模型架构的设计选择，每一个技术细节都有清晰的文档说明。这种详细程度确保了其他研究者能够完全复现实验结果，并在此基础上进行进一步的改进和扩展。

更值得称赞的是，研究团队还公开了大量的消融实验和失败案例。他们详细记录了在数据混合策略、奖励机制设计、算法选择等方面的各种尝试，包括那些没有成功的方案。这种坦诚的分享就像是把试验室的废纸篓也公开了，让其他研究者能够从失败中学习，避免走同样的弯路。

开放性带来的效果是立竿见影的。研究团队训练的模型在多个基准测试上超越了使用专有数据的商业系统。特别是Vero-MiMo-7B模型，在与使用相同基础模型但采用专有训练方法的MiMo-VL-7B-RL的对比中取得了全面胜利，证明了开放方法的可行性和有效性。

这种开放策略还促进了更广泛的科学合作。由于所有资源都可以自由获取，来自不同机构的研究者可以在Vero的基础上进行各种扩展实验。有的团队可能专注于改进训练算法，有的可能致力于扩展数据集，还有的可能探索新的应用场景。这种分布式的创新模式比单一机构的封闭研发更有可能产生突破性进展。

从更宏观的角度看，Vero项目体现了学术界应有的价值观：知识共享、透明研究、合作创新。在AI技术日益成为社会基础设施的今天，确保这些技术的发展过程公开透明，让社会各界都能参与监督和改进，具有重要的社会意义。

研究团队的这种做法也为其他学术机构树立了榜样。它证明了即使没有大公司的庞大资源，通过精心设计的研究方法和开放合作的理念，学术界同样能够产生世界级的研究成果。这种示范效应可能会鼓励更多的研究团队选择开放路径，从而推动整个AI领域向更加开放和协作的方向发展。

七、实验结果与性能对比

研究团队在30个具有挑战性的基准测试上对Vero进行了全面评估，结果就像是一场全科考试，AI在各个科目上都交出了令人满意的答卷。整体而言，Vero在四个不同的基础模型上都实现了稳定的性能提升，平均提升幅度在3.7到5.5分之间。

在图表与文档理解类任务中，Vero展现出了显著的优势。以ChartQA Pro这个具有挑战性的图表问答任务为例，基于Qwen3-VL-8B-Instruct训练的Vero模型取得了60.2分的成绩，比基础模型提升了15.9分，这是一个相当可观的进步。在科学论文图表理解任务CharXivReason上，Vero的提升更是达到了7.3分，充分展现了其在处理复杂学术图表方面的能力。

STEM科学技术类任务的结果同样令人印象深刻。在MMMU Pro Vision这个专门测试视觉数学推理能力的基准上，Vero实现了15.1分的大幅提升，最终得分达到57.2分。这个结果特别有意义，因为数学推理向来被认为是AI系统最难掌握的技能之一，需要严密的逻辑思维和精确的计算能力。

在空间与行动类任务方面，Vero在GameQA Lite游戏逻辑推理任务上取得了18.3分的显著提升，最终得分52.3分。这类任务通常涉及复杂的空间关系和动作序列规划，对AI的空间想象力提出了很高要求。Vero能够在这类任务上取得如此大的进步，说明多任务训练确实有助于发展AI的空间认知能力。

知识与识别类任务虽然提升幅度相对较小，但也展现了稳定的改进。这可能是因为这类任务更多依赖于预训练阶段积累的常识知识，强化学习训练的边际收益相对有限。不过即便如此，Vero仍然在这类任务上实现了平均1.0到1.1分的提升。

在定位、计数与搜索类任务中，Vero表现出了强劲的实力。在CountQA这个野外计数任务上，提升幅度达到5.4分；在ScreenSpot Pro这个高分辨率界面定位任务上，更是实现了13.6分的大幅提升。这些结果表明，Vero在视觉搜索和精确定位方面具备了相当高的能力。

描述与指令执行类任务展现了Vero在语言生成方面的实力。在MMIFEval这个可验证指令执行任务上，Vero取得了8.5分的提升，证明了它不仅能够理解复杂指令，还能够按照要求生成符合特定约束的文本内容。

特别值得注意的是Vero与其他开放模型的对比结果。在与LLaVA-OV-1.5-RL、VL-Rethinker等其他开源强化学习模型的比较中，Vero在几乎所有可比较的任务上都取得了更好的性能。这种全面的优势表明，Vero的训练方法确实比现有的开源方案更加有效。

更令人惊喜的是，Vero甚至在某些任务上超越了使用专有数据和方法训练的商业模型。比如Vero-MiMo-7B在多个类别上超过了MiMo-VL-7B-RL，后者虽然使用了相同的基础模型，但采用的是不公开的训练方法和数据。这个结果有力地证明了开放研究方法的有效性，打破了人们对商业系统必然更优的固有印象。

从训练效率的角度来看，Vero也表现出色。研究团队提供的训练曲线显示，即使在训练初期阶段，Vero就已经开始显示出相对于其他开源数据集的优势。随着训练的进行，这种优势进一步扩大，最终在五个类别中取得领先，在STEM类别中也保持了与最佳开源方法相近的水平。

这些实验结果的重要意义不仅在于数字的提升，更在于证明了一个重要的科学假设：通过精心设计的多任务训练策略，AI确实能够发展出更加全面和平衡的视觉推理能力。这为未来的AI系统设计提供了重要的指导方向，表明追求单一任务的极致性能可能不如培养全面均衡的多任务能力更有价值。

说到底，Vero项目最大的价值并不仅仅在于创造了一个性能优秀的AI模型，而在于为整个学术界提供了一个完整的开放式研究范本。在AI发展日益依赖大公司资源的今天，普林斯顿大学用这项研究证明了学术界同样可以产生世界一流的成果，关键在于采用正确的方法和保持开放的理念。

从技术角度来说，这项研究揭示了多任务学习在视觉推理领域的巨大潜力。不同类型的视觉任务确实会激发AI产生不同的认知模式，就像人类专家在面对不同领域问题时会自然切换思维方式一样。这种发现为我们理解AI的内在工作机制提供了新的视角，也为设计更加智能的AI系统指明了方向。

研究团队构建的60万样本数据集和配套的评估体系为后续研究奠定了坚实基础。这些资源的开放性确保了其他研究者能够在此基础上继续探索，推动整个领域的进步。这种开放合作的研究模式可能会成为未来AI研究的主流趋势。

更重要的是，这项研究展现了透明研究的力量。通过完全公开研究过程和实现细节，研究团队不仅推进了技术发展，也为AI研究的开放性和可重现性树立了新的标准。在AI技术日益影响社会生活的今天，这种透明性对于确保技术发展的责任性和可监督性具有重要意义。

归根结底，Vero项目的成功证明了一个简单而深刻的道理：开放共享的知识比封闭专有的技术更有力量。当研究者们能够自由地获取资源、分享想法、合作创新时，整个领域的进步速度会大大加快。这种开放精神不仅推动了技术进步，也体现了学术研究应有的社会责任和价值追求。

Q&A

Q1：Vero视觉推理系统与现有AI模型相比有什么特别之处？

A：Vero最大的特色是完全开源的多任务训练方法，能让AI在图表分析、数学推理、空间理解等六大类视觉任务间灵活切换。不同于封闭的商业系统，Vero公开了所有训练数据、代码和方法，在多个测试中甚至超越了使用专有技术的商业模型。

Q2：Vero的强化学习训练方式有什么优势？

A：Vero采用类似人类学习的强化学习方法，让AI通过尝试和反馈来掌握技能，而非简单记忆答案。特别的是它使用任务导向的奖励机制，针对数学题、图表分析、开放问答等不同类型采用相应的评价标准，这让AI学会了根据任务类型自动调整思维模式。

Q3：普通研究者如何使用Vero的研究成果？

A：由于Vero完全开源，研究者可以免费获取包含60万样本的Vero-600K数据集、训练代码、模型权重和30个基准测试。这些资源可以帮助其他团队快速构建自己的视觉推理系统，也可以在Vero基础上进行改进和扩展研究。