这项由上海交通大学研究团队领导的突破性研究发表于2026年3月,论文编号为arXiv:2603.15594v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
想象你在网上搜索一个复杂问题,比如"哪位导演在获得奥斯卡最佳导演奖的同一年还执导了一部科幻电影"。对于普通搜索引擎来说,这需要你自己一步步查找、对比、推理。但如果有一个智能助手能像侦探一样,自动在网络上寻找线索,连接不同信息,最终给你准确答案,那会多么便利?
上海交通大学的研究团队就开发出了这样一个"网络侦探"——OpenSeeker。更重要的是,他们不仅公开了这个智能助手本身,还毫无保留地分享了"培训教材",这在科技界引起了轰动。要知道,之前只有谷歌、OpenAI这些科技巨头才掌握着制造高级搜索助手的秘诀,现在任何人都能学会了。
在人工智能快速发展的今天,网络搜索已经从简单的关键词匹配进化为需要深度推理的复杂任务。过去一年里,能够进行深度搜索的智能助手从几乎为零发展到十多个,性能评分从10分跃升到50分以上。然而,这些强大的工具一直被大公司垄断,就像只有少数人知道的烹饪秘方一样。
研究团队打破了这种垄断局面。他们的OpenSeeker不仅在多个评测中表现出色,更重要的是完全开源了训练数据和方法。这就像是一位顶级厨师不仅公开了招牌菜的完整配方,还详细展示了每一个制作步骤。在BrowseComp-ZH评测中,OpenSeeker得分48.4分,甚至超过了阿里巴巴投入巨大资源开发的通义深度研究助手(46.7分)。更令人惊讶的是,研究团队仅用了11700个训练样本就达到了这个效果,而其他模型往往需要数十万个样本。
一、智能搜索的现状:垄断与突破
目前的网络搜索助手可以分为三个阵营。第一个阵营是完全保密的商业产品,比如OpenAI的深度研究助手、谷歌的Gemini深度研究等,它们就像被严格保密的可口可乐配方一样,性能虽好但外人无法复制。第二个阵营是"半开放"产品,这些公司会发布模型本身,但不告诉你是怎么训练出来的,就像告诉你这道菜很好吃,但不给配方。第三个阵营是学术研究,虽然会公开一些方法,但要么数据量太少,要么质量不够高,培训出的助手能力有限。
这种现状就像烹饪界被少数米其林餐厅垄断一样,普通人只能品尝美食,却无法学会制作方法。对于广大研究人员和开发者来说,他们就像想学做菜的厨师,却找不到合适的食谱和原料。
上海交大的研究团队注意到了这个问题。他们发现,制约智能搜索助手发展的最大瓶颈不是计算能力或算法技术,而是高质量的训练数据。这些数据就像培养优秀侦探需要的案例库一样,必须既有足够的复杂度来锻炼推理能力,又要有足够的准确性来确保学到正确的方法。
二、创新的数据合成方法:从网络中挖掘推理宝藏
为了解决数据稀缺问题,研究团队开发了两个巧妙的方法。第一个方法叫做"基于事实的可扩展可控问答合成",听起来复杂,其实就像设计一个自动出题机器。
这个出题机器的工作原理很有趣。研究团队把整个互联网看作一张巨大的知识网络,网页之间通过链接相互连接,就像城市中的道路网一样。他们的方法是先随机选择一个网页作为"起点",然后沿着链接向外扩展,收集相关的网页形成一个小型知识集群。这就像从一个街区出发,探索周围的相关区域一样。
接下来,他们从这个知识集群中提取关键信息,形成一个简化的"实体关系图"。这就像把复杂的街区地图简化成只显示重要地标和它们之间关系的示意图。然后,他们利用这个关系图生成需要多步推理才能解答的问题。
最巧妙的是,为了防止智能助手走捷径(比如通过关键词直接搜索到答案),他们还会对问题中的具体信息进行"模糊化"处理。比如,原本问"史蒂文·斯皮尔伯格在1993年执导了哪部恐龙电影",可能会变成"那位以科幻题材闻名的好莱坞导演在九十年代初期执导的关于史前生物的电影是什么"。这样,助手就必须真正进行推理,而不能简单地搜索关键词。
为了确保生成的问题既有挑战性又能被解答,研究团队设计了双重验证机制。他们用强大的基础模型来测试:如果模型能够在不使用外部工具的情况下回答问题,说明问题太简单了,需要重新设计;如果即使提供了所有相关信息也无法回答,说明问题有逻辑错误,也需要丢弃。
三、轨迹合成技术:在噪音中寻找信号
第二个创新方法解决了另一个关键问题:如何让智能助手学会在嘈杂的网络环境中找到有用信息。这就像训练侦探在案发现场的各种干扰信息中识别真正的线索一样。
研究团队采用了一个叫做"去噪轨迹合成"的技术。这个技术的核心思想是创造一种"教学助手"来帮助生成高质量的训练数据。在生成过程中,每当智能助手获得一个网页的原始内容(通常充满了广告、无关信息等"噪音")后,教学助手会立即将这些内容总结成简洁清晰的要点,然后基于这个清理后的信息来决定下一步行动。
这就像有一个助理在侦探查看每个证据后,立即整理出关键信息的摘要,让侦探能够专注于推理而不被细节干扰。通过这种方式,教学助手能够生成非常高质量的搜索策略和推理过程。
但是,在实际训练最终的智能助手时,研究团队使用了一个巧妙的策略。他们让智能助手学习教学助手的优秀决策,但在学习时面对的是原始的、充满噪音的网页内容,而不是清理后的摘要。这就像让学生学习大师的思维方式,但面对的是真实世界的复杂情况。通过这种"非对称训练",最终的智能助手学会了在嘈杂环境中提取关键信息的能力。
四、实验结果:小数据创造大成效
研究团队用这两种方法合成了包含10300个英文样本和1400个中文样本的训练数据集,然后用这些数据训练了OpenSeeker。令人惊讶的是,仅仅使用这11700个样本,经过一轮标准的监督学习训练,OpenSeeker就在多个评测基准上表现出色。
在BrowseComp评测中,OpenSeeker得分29.5分,远超第二名的DeepDive(15.3分)。在中文评测BrowseComp-ZH中,它的表现更加亮眼,以48.4分的成绩超过了阿里巴巴的通义深度研究助手(46.7分)。要知道,通义深度研究使用了持续预训练、监督微调和强化学习的复杂训练流程,而OpenSeeker只用了最简单的监督学习。
在xbench-DeepSearch评测中,OpenSeeker得分74.0分,在WideSearch评测中得分59.4分,都达到了同级别模型中的最佳水平。这些结果证明了高质量数据的威力——就像用优质食材做菜,即使用简单的烹饪方法也能做出美味佳肴。
更有说服力的是数据难度分析。研究团队发现,他们合成的中文数据平均需要46.35次工具调用才能完成任务,平均文本长度达到76100个词汇单位,而标准的BrowseComp-ZH评测平均只需要26.98次工具调用和15100个词汇单位。这说明OpenSeeker训练时面对的问题确实更加复杂和具有挑战性。
五、打破数据垄断的意义
这项研究最重要的意义在于打破了大公司对高质量训练数据的垄断。长期以来,开发高性能搜索助手一直是资源雄厚的科技巨头的专利,就像只有大型制药公司才能研发新药一样。普通研究机构和开发者缺乏足够的数据和资源来训练有竞争力的模型。
OpenSeeker的开源不仅包括模型本身,更重要的是完整公开了数据合成方法和全部训练数据。这就像把整个"制药配方"都公开一样,让任何有兴趣的研究者都能复制、改进和扩展这项工作。
这种开放性对整个人工智能领域具有深远影响。它降低了进入门槛,让更多研究团队能够参与到搜索智能体的开发中来。这可能会催生更多创新的应用场景,比如专门用于医学研究的搜索助手、法律文档分析助手,或者教育领域的智能导师等。
研究团队的数据合成方法还具有很好的可扩展性。他们使用了大约68GB的英文网页数据和9GB的中文网页数据,但互联网上还有TB级别的数据等待挖掘。这意味着可以生成几乎无限量的高质量训练数据,为模型的进一步改进提供了可能。
六、技术细节与创新点
OpenSeeker的技术架构基于30亿参数的Qwen3-30B-A3B模型,在推理时激活其中的3亿参数。这种设计平衡了性能和效率,就像汽车发动机可以根据需要调整功率输出一样。模型支持最多200次工具调用,能够处理256k长度的上下文,确保在处理复杂任务时有足够的"工作记忆"。
研究团队特别强调,由于资源限制,他们只进行了一次训练实验,没有进行任何超参数优化或数据过滤,这意味着还有很大的改进空间。这就像用标准配方第一次尝试做菜就获得了优异效果,说明配方本身质量很高,稍加调整可能会有更好的结果。
在与其他开源模型的比较中,OpenSeeker展现出明显的数据效率优势。比如,MiroThinker使用了147000个训练样本,但性能远不如只用11700个样本的OpenSeeker。这证明了精心设计的数据合成方法的重要性,质量确实比数量更重要。
七、未来发展方向
研究团队也坦率地承认了当前工作的局限性。由于资源约束,他们无法进行大规模的参数调优实验,也无法验证方法在更大规模数据上的效果。这为后续研究留下了很大空间。
未来的改进方向包括优化数据分布、实施更严格的质量过滤、生成难度更高的训练数据等。研究团队还计划将智能助手的能力扩展到纯网络搜索之外,集成更多样化的工具和数据源,朝着更通用的智能代理方向发展。
这项研究也为其他领域提供了有益启示。数据合成的方法可能适用于其他需要复杂推理的任务,比如数学问题求解、代码生成、创意写作等。开源的理念也可能推动更多研究团队采用类似的开放策略,促进整个人工智能生态系统的健康发展。
说到底,OpenSeeker的成功证明了一个重要观点:在人工智能时代,创新不一定需要海量资源和复杂技术,有时候巧妙的方法设计和开放的合作精神更加重要。这项由纯学术团队完成的工作,用相对简单的技术和有限的资源,达到了与商业巨头相媲美的效果,为人工智能的民主化发展开辟了新路径。通过完全开源的策略,研究团队不仅展示了自己的成果,更重要的是为整个社区提供了宝贵的资源和经验,让更多人能够参与到这个激动人心的领域中来。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2603.15594v1查阅完整研究报告。
Q&A
Q1:OpenSeeker和其他搜索助手有什么区别?
A:OpenSeeker最大的特点是完全开源,不仅公开了模型本身,还公开了全部训练数据和制作方法。而其他搜索助手要么完全保密(如OpenAI的产品),要么只公开模型不公开训练方法。OpenSeeker用11700个样本就达到了超越阿里巴巴通义深度研究的效果,证明了高质量数据的重要性。
Q2:OpenSeeker的数据合成方法有什么创新?
A:研究团队开发了两个核心方法:一是"基于事实的问答合成",通过分析网页链接关系生成需要多步推理的复杂问题,然后模糊化关键信息防止走捷径;二是"去噪轨迹合成",用干净的摘要信息指导生成高质量决策,但让模型在原始嘈杂环境中学习,培养真实场景下的信息提取能力。
Q3:普通人能使用OpenSeeker吗?
A:目前OpenSeeker主要面向研究人员和开发者,完整的模型、数据和代码都已在GitHub和Hugging Face平台开源。普通用户虽然不能直接使用,但这个开源项目为未来更多实用产品的开发奠定了基础,预计会有更多基于OpenSeeker技术的应用产品面世。