这项由 SenseTime Research(商汤科技研究院)开发的研究成果发表于 2026 年 3 月,论文编号为 arXiv:2603.22918v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们看一部电影时,我们不会呆呆地盯着每一帧画面。相反,我们的大脑会根据剧情发展,有选择性地关注重要情节,忽略无关紧要的片段。比如在看侦探片时,我们会特别留意可疑的细节,而在浪漫场景中则专注于角色的表情和互动。但现在的人工智能在理解视频时,却像一个死板的机器人,必须把整个视频从头到尾逐帧扫描一遍,不管内容是否重要。

这种笨拙的方式不仅浪费大量计算资源,更重要的是效果还很差。就像让一个人在茫茫人海中寻找特定的一个人,如果只是盲目地一个个看过去,既耗时又容易遗漏关键信息。现在,商汤科技的研究团队提出了一个革命性的解决方案——他们开发了一个名为 EVA(高效强化学习端到端视频智能体)的系统,让人工智能学会了像侦探一样思考和观察。

EVA 的核心思想是"先思考再观察"。传统的 AI 就像一个被动的摄像头,只能接受别人塞给它的画面;而 EVA 更像一个主动的侦探,它会先分析案件(用户的问题),制定调查计划,然后有针对性地寻找线索(选择观看视频的特定片段),最后综合所有证据得出结论。

这种工作方式的好处显而易见。以一个长达两小时的视频为例,传统 AI 需要处理超过 70 万个视觉片段,就像要求一个人把一本厚厚的字典从头到尾背一遍。而 EVA 只需要关注其中的几千个关键片段,就能准确回答问题,效率提升了上百倍。

研究团队为了训练这个聪明的"视频侦探",设计了一套三阶段的教学方法。第一阶段是基础训练,就像教小孩子识字一样,让 EVA 学会如何使用各种"侦探工具"——比如如何选择观看视频的哪个时间段,用什么清晰度观看,看多少帧画面等。这个阶段使用了精心制作的 1 万个高质量训练样本。

第二阶段采用了一种叫做"卡纳曼-特沃斯基优化"的方法。这个名字听起来很复杂,但实际上就是让 AI 从错误中学习。研究团队收集了 1.1 万个案例,其中包括成功的侦探过程和失败的案例。通过对比这些成功与失败的例子,EVA 学会了避免常见的错误,比如不要在没有足够证据的情况下就匆忙下结论,也不要在同一个地方反复寻找已经找过的线索。

第三阶段是最关键的强化学习训练。这就像让一个侦探在真实案件中积累经验。EVA 需要处理 9600 个开放式问题和 1100 个选择题,每次回答后都会得到反馈:答对了会得到奖励,答错了会被扣分。通过无数次的试错,EVA 逐渐掌握了高效观看视频的技巧。

研究团队还创新性地引入了"数据增强型强化学习"。传统的训练方法就像让学生只做固定的练习题,而这种新方法会根据学生的薄弱环节动态生成新的练习题。当系统发现 EVA 在某类问题上表现不佳时,会自动生成更多类似的训练样本,确保全面提升能力。

为了验证 EVA 的实际效果,研究团队在六个不同的视频理解基准测试上进行了评估。结果令人振奋:EVA 比传统的视频理解模型提升了 6-12%,比之前的智能体方法也提升了 1-3%。更重要的是,EVA 在处理超长视频时表现尤为出色。

在一个名为"采样困境基准"的测试中,EVA 的表现格外亮眼。这个测试的设计思路是:给 AI 看一个很长的视频,但只能选择看其中的一部分画面,看如何在有限的"观看预算"内获得最多的信息。谷歌的 Gemini-2.0-Flash 模型虽然准确率最高(56.2%),但需要观看近 70 万个视觉片段;而 EVA 只需要看 1 万个片段就达到了 51.8% 的准确率,效率比 Gemini 高出几十倍。

EVA 的工作流程就像一个经验丰富的侦探办案。当接到一个新案子时,侦探不会盲目地到处搜集证据,而是先分析案情,推测可能的线索方向,然后制定调查计划。EVA 也是如此:收到用户问题后,它首先分析问题的性质,判断需要什么样的视觉信息,然后决定观看视频的哪个时间段、用什么清晰度、看多少帧画面。如果第一轮观察没有找到足够的证据,它会调整策略,进行下一轮更有针对性的观察。

这种灵活的策略带来了显著的效率提升。对于不同类型的问题,EVA 会采用不同的观看策略。如果问题只涉及视频开头或结尾的内容,EVA 就会直接跳到相关时间段;如果问题需要了解整个视频的概况,EVA 会先用低清晰度快速浏览全片,再针对关键片段进行高清观看。

研究团队通过大量实验验证了这种"计划-观察-行动-反思"循环的有效性。实验发现,经过三阶段训练的 EVA 不仅在准确率上有显著提升,在视觉资源的利用效率上也有了质的飞跃。传统方法往往会浪费大量时间观看无关内容,而 EVA 能够精准定位到关键信息,避免了无效处理。

EVA 的技术突破还体现在其灵活的工具使用能力上。系统配备了一个强大的帧选择工具,可以控制四个关键参数:开始时间、结束时间、帧数量和分辨率。这就像给侦探配备了可调节焦距的望远镜、可变速播放的录像设备和高清摄像头。EVA 可以根据需要自由调节这些参数,实现最优的信息获取策略。

在处理复杂的长视频任务时,EVA 展现出了令人印象深刻的适应能力。比如在 Video-Holmes 推理基准测试中,尽管是在零样本设置下(即没有针对该测试进行专门训练),EVA 依然取得了与其他开源模型相当的成绩。这说明 EVA 学到的不是死记硬背的技巧,而是真正的视频理解和推理能力。

研究团队还专门分析了 EVA 的工作模式。他们发现,EVA 在不同轮次的观察中会采用截然不同的策略。第一轮通常是大范围、低分辨率的"侦察",用于获得视频的整体概况;后续轮次则会聚焦于特定时间段,使用更高分辨率进行"精细搜索"。这种从粗到细的策略正是人类观看视频时的自然习惯。

EVA 系统的另一个重要创新是其强大的反思能力。在每轮观察后,系统都会评估当前获得的信息是否足够回答问题。如果信息不足,它会分析缺少什么类型的证据,然后调整下一轮的观察策略。这种自我监控能力确保了系统不会过早下结论,也不会陷入无意义的重复搜索。

从技术实现角度来看,EVA 基于 Qwen2.5-VL-7B-Instruct 模型构建,这是一个支持多种分辨率输入的先进多模态模型。研究团队之所以选择这个基础模型,是因为它在处理不同分辨率图像时能够节省计算资源,这与 EVA 的高效理念完美契合。

训练过程中,研究团队遇到了一个有趣的挑战:如何防止 AI 在没有足够证据时就随意猜测答案。为了解决这个问题,他们设计了一个巧妙的奖励机制。如果 EVA 使用了工具但答案错误,系统会给予少量的格式奖励(0.05分),这个奖励远低于随机猜测的期望得分(0.20-0.25分)。这样设计的目的是鼓励 EVA 进行有根据的推理,而不是无脑猜测。

在实际应用中,EVA 展现出了惊人的多样性。面对不同类型的问题,它会自动生成不同的工作流程。有些问题只需要一轮高密度采样就能解决,类似于传统方法;有些问题则需要多轮迭代,先概览再细看;还有些问题需要在多个时间段之间跳跃观察。这种灵活性正是 EVA 相对于固化工作流程的传统方法的最大优势。

研究团队在论文中展示了几个典型案例。在一个关于游戏中"GOAAAAAL!!"动画触发机制的问题中,EVA 首先用低分辨率快速浏览了整个 397 秒的视频,找到了可能相关的时间段,然后在该时间段内用高分辨率进行细致观察,最终准确识别出动画是在球进入球门时触发的。整个过程就像一个经验丰富的体育解说员快速定位精彩瞬间一样自然流畅。

另一个案例涉及一个长达 1218 秒的缝纫机设置视频。EVA 只用了两轮观察就准确回答了关于操作流程的问题。第一轮快速浏览全片,第二轮重点观察关键操作步骤,效率远超传统的逐帧分析方法。

EVA 的成功不仅在于技术指标的提升,更在于它代表了视频理解 AI 的一个重要转向:从被动接受到主动探索,从机械处理到智能推理。这种转变对于未来的人工智能发展具有深远意义。

研究团队也坦诚地指出了 EVA 目前的局限性。系统仍然依赖于预定义的工具接口,在处理全新类型的查询时可能会遇到困难。此外,推理循环的设计相对固化,缺乏自我演化的能力。未来的研究方向包括开发更灵活的工具生态系统、自演化推理策略和跨模态记忆机制等。

尽管存在这些挑战,EVA 已经为视频理解 AI 的发展开辟了新的道路。它证明了通过合理的训练策略和系统设计,人工智能确实可以学会像人类一样高效地处理视频信息。随着技术的进一步成熟,我们有理由期待看到更多具备类似智能的 AI 系统出现。

这项研究的意义不仅限于学术界。在实际应用中,EVA 的高效特性使其在视频监控、内容审核、教育培训等领域具有广阔的应用前景。特别是在需要处理大量长视频的场景中,EVA 的效率优势将转化为显著的成本节约和性能提升。

说到底,EVA 代表了人工智能发展的一个重要方向:让机器不仅能够理解信息,更能够智能地选择和处理信息。正如一个优秀的侦探不会被无关的细节所迷惑,而是能够敏锐地抓住关键线索一样,EVA 学会了在海量视频信息中精准定位所需内容。这种能力的提升,不仅意味着技术性能的优化,更预示着人工智能正在向更高层次的认知智能迈进。

Q&A

Q1:EVA是什么?

A:EVA是商汤科技开发的一个视频理解AI系统,它的核心能力是像侦探一样智能地观看视频。不同于传统AI需要逐帧扫描整个视频,EVA会先分析问题,制定观看计划,然后有选择性地观看关键片段,效率比传统方法高出几十倍。

Q2:EVA的训练过程是怎样的?

A:EVA采用三阶段训练方法。第一阶段是基础技能学习,使用1万个样本学会工具使用;第二阶段通过1.1万个成功和失败案例学会避免错误;第三阶段是强化学习,通过处理9600个开放式问题和1100个选择题来积累实战经验。

Q3:EVA相比传统视频AI有什么优势?

A:EVA最大的优势是效率。传统AI需要处理70万个视觉片段才能理解长视频,而EVA只需要1万个片段就能达到相近的准确率。它还具备灵活的观看策略,能根据不同问题类型自动调整观看方式,避免无效的重复处理。