抢夺AI时代的“定义权”
作者 | 姚赟
来源 | 盒饭财经(ID:daxiongfan)
头图及封面来源 | 网络及即梦制作
不讨论其他,百度在趋势上的判断,一直是敏锐的。
5月13日,Create2026百度AI开发者大会召开。大会的开幕式上,李彦宏抛出了一个颇具“非共识”意味的判断:AI时代的度量衡——Daily Active Agents,“日活智能体数”,简称DAA。
在李彦宏看来,Token只是代表成本并不代表收益,衡量的是投入而非产出;而DAA对应移动互联网时代通用度量衡日活用户数(DAU)。“衡量一个平台和生态的繁荣,更应该关注DAA这个指标,关注有多少Agent在给人类干活,并交付结果。”李彦宏表示。
与此相应的是投入端的“Token”。
2025年末,奥地利开发者Peter Steinberger的“周末项目”Clawdbot(后改名OpenClaw)悄然上线。没人预料到,到了2026年3月,其星标数突破25万,成为GitHub有史以来获星最多的开源项目。更没想到的是,这只“龙虾”无心插柳间,为一直拿着锤子找钉子的AGI探索出了一条新路。
OpenClaw将过去ChatGPT代表的“你问我答”,升级为了“你说我做”。于是,Token调用量就会指数级增加。
黄仁勋敏锐地捕捉到了变化,率先提出了“Token工厂”的概念。北京时间3月17日凌晨,2026年英伟达GTC大会上,黄仁勋强调,在这个全新的AI时代,Token就是新的基础货币。他还补充表示:生成Token的成本与效率直接决定了科技企业的营收与生死。
黄仁勋的“五层蛋糕”,来源:英伟达官网截图
这套叙事逻辑严丝合缝:Token是AI时代的“电力”,卖铲子的人理应用“用了多少电”来衡量生态的规模。
对英伟达来说,Token这一指标没什么问题。
作为全球T0级别的芯片供应商,英伟达的Token叙事,完全符合其行业位置。站在芯片和算力基础设施层,Token消耗越多,GPU卖得越多。Token,确实是完美的收入度量衡。
然而,李彦宏提出的DAA,对百度来说,也没什么问题。
百度的DAA,则是站在应用和生态层。对应用层的企业而言,Token是成本,只有交付结果才算价值。于是,李彦宏提出DAA这样的产出侧的度量衡,非常合理。
起点不等于终点。DAA的提出,打破了原有Token叙事的固定框架,引发了更深层的追问和思考。比如,Token不行,那它是一个完美指标吗?Token叙事与DAA叙事各自的逻辑与盲区又是什么?除了这俩,还有哪些评估框架和指标?AI时代的“北极星指标”,究竟该长什么样?
从Token到DAA,总算迈出了第一步
李彦宏提出DAA,是一种进步。
1月19日,Gartner发布了一份名为《Token Consumption Is a Misleading Indicator of AI Market Leadership》的报告。报告中明确指出,虽然Token消耗量常被 AI 厂商用于展示规模和市场地位,但它存在严重的局限性。这些局限性包括,缺乏业务价值关联、结构性误导等。
但,这并没有成为Token攻城略地的阻碍。
当Token被注意到后,其用量就迅速成为衡量企业在AI上变革程度的行业共识。3月,阿里成立以“创造Token、输送Token、应用Token”为核心目标的Alibaba Token Hub事业群。58同城的姚劲波曾在接受采访时表示:现在公司每天消耗接近2000亿Token,很快会突破3000亿。他明确告诉团队:Token用得越多越好,哪怕压力大,58同城也会不计成本。
同时,Token的调用情况,也成为国内新模型发布后的重要评估标准之一。
3月11日,Hunter Alpha悄然上线OpenRouter,标注为“stealth provider”(隐身提供者),没有任何厂商标识。其后,Hunter Alpha连续数日登顶,引来外界的关注和猜想。19日,小米认领了Hunter Alpha,证实其为旗舰模型MiMo-V2-Pro的内部测试版本。
来源:OpenRouter截图
而后,阿里也加入了这种新的发布形式。4月上旬,一款名为HappyHorse1.0的匿名AI视频生成模型引发关注。第三方评测平台Artificial Analysis的Video Arena榜单上,超越字节跳动Seedance 2.0、Google Veo 3 Fast等视频模型,登顶文生视频、图生视频双赛道榜首。
不久,该模型被阿里ATH旗下创新事业部“认领”。有不少观点认为:HappyHorse的诞生,补足了阿里在视频生成模型上的空白,同时也是阿里云百炼平台撬动企业客户的战略入口,带动平台上的Token消耗。
甚至,Token的使用量,成为一种很新的炫富方式。比如,每天消耗多少Token、你能同时调度多少个agent运行、你的token throughput(吞吐量)有多高,已成为工作和社交中的话题。
而李彦宏最核心的反驳点就是把叙事拉入到产出视角:Token衡量的是“成本与投入”,而不是“收益与产出”。
Token本质上类似于电力时代的“耗电量”或流量时代的“耗流量”,它反映的是AI系统消耗了多少底层算力资源。单纯炫耀Token消耗量,等于在炫耀“我烧了多少钱、花了多少算力”,这只能体现厂商的成本投入,却无法体现AI真正为用户创造了多少实际收益。
大模型爆发初期,AI的应用还处于Chatbot阶段(聊天机器人),聊得越多自然Token消耗越大。但Agent时代,当AI的角色变成了一个“数字员工”,那考核的点,则变成了它完成了多少事,任务完成度如何等等。
“数字员工”,也是员工。考核员工用耗电量,确实不合适,但所有Agent不分简易和完成质量,都抽象为“1”,也不合理。
比如,有两个Agent:一个Agent的作用是,每天定时帮你查一下天气、或者发一条早安问候的;另一个则能够接入企业ERP系统,全自动分析库存、独立向供应商下订单并跟进物流。
在DAA的统计口径下,这两者贡献的日活都是“1”,这显然掩盖了两者在算力消耗、技术壁垒和商业价值上巨大的鸿沟。
同时,李彦宏提出DAA的初衷是强调“结果交付”,但DAA这个指标本身只衡量了“活跃度”。
比如,如果一个Agent每天被唤醒,但一直在产生AI幻觉、输出垃圾信息,或者在执行任务时陷入了死循环。从指标上看,它可能消耗了大量 Token,也贡献了一个完美的DAA,但对用户来说,它不仅没有交付结果,反而帮了倒忙。
李彦宏提出的 DAA解决了“出勤率”的问题,也有效地把大家的注意力从“卷模型参数、卷Token消耗”的军备竞赛中拉了出来,转而关注应用与落地。但对真正要付账单的企业来说,光是出勤是不够的。
走出“活跃”陷阱,还有很多第三选择
当英伟达说“万物皆Token”,百度说“万物须交付”时,还有一群指标不在这场商业叙事争夺战中。
2024年6月17日,Sierra Research与普林斯顿大学联合团队在arXiv上投下了一颗深水炸弹——τ-bench(Tau-bench)基准测试。
τ-bench与主观的人类打分不同,它通过对比对话结束后的数据库最终状态与预期的目标状态来客观判定任务是否成功。在测试中,它不再只关心一个AI智能体某一次任务成功了没有,而是通过连续追问,检验“连续k次任务,它能不能一次都不搞砸?” 。
Pass^k(连续k次全成功概率)是其首创的指标。
这个指标的严格程度,来自一道简单的数学题。比如,一个单次成功率90%的智能体,乍听起来相当不错。但如果让它连续独立完成8次任务,要求全部成功?答案:0.9^8 ≈ 43%。连续20次呢?约12%。
它反映的是,智能体在面对对话随机性时的可靠性与一致性。对企业应用而言,偶尔的满分远不如持续的稳健表现重要。
而其的测试环境也是真实的商业场景:航空票务系统和零售客服。结果显示,即使当时最先进的GPT-4o,在航空领域的单次成功率也不足50%。
Anthropic很快针对τ-bench的挑战,作出了回应。
2025年3月前后,Anthropic在相关的技术文章中,明确讨论了如何通过引入自主思考环节来解决 Agent 在处理复杂、多步骤任务时的可靠性问题。
同时,为在τ-bench的Pass^k指标上取得突破,Anthropic在Claude模型中引入了“自我反思(Self-reflection/Self-correction)”和“扩展思维链(Extended Chain-of-Thought)”机制,以提升连续成功的稳定性。
这表明,Pass^k已从一个“事后评估”的指标,演变为一个“事前驱动”的研发目标。
对于Token叙事和DAA叙事来说,τ-bench都是一个有力的修正:它告诉英伟达,Token消耗再多、跑得再快,不等于跑得稳;它也告诉百度,DAA再多、交付次数再高,不等于交付质量可靠。单次可用不是本事,连续可靠才是门槛。
如τ-bench的Pass^k这样的指标,还有很多。
比如,同为衡量任务交付与绝对可靠性评估的指标。Pass^k外,还有TGC/GCR(任务目标完成率)、MTR(多步任务韧性)。
普林斯顿等论文《τ-bench》提出Pass^k,指出 Pass@k,即试N次对1次就行,是自欺欺人,真实世界要求极高的稳定性。
白皮书《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》中提出了GCR和MTR,则强调无论Agent中间怎么思考,必须扛住多步骤干扰,交付最终结果。
而以上,还只是属于产出导向的技术指标。
各评估指标导向与解决问题情况,来源:公开论文综合
当Agent进入企业生产环境,不能不计代价地追求“成功率”,必须在多个维度之间做出妥协和平衡。
如果你是某企业的采购,现在需要采购某AI相关的产品。“聪明度”可能是其中一个重要指标,但更看重的是综合性价比。比如,一个为了写对一段代码而消耗10美金算力、运行5分钟的Agent,对比起来就不具有什么优势。
于是,论文《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems》中,给出了一个核心论点:如果仅死磕“准确率(Efficacy)”,就会导致算力成本高出4.4倍到10.8倍。CLEAR框架能更好地预测真实环境中的部署成功率。
CLEAR框架内,包含了Cost成本、Latency延迟、Efficacy效能、 Assurance保障、Reliability可靠性等综合多维指标。
未来,连中层管理都是AI,可能还要考核多智能体网络之间的团队协作,考核他们怎么开会。于是,Collaboration Score(协作评分)、AIx(自主性指数)也已在讨论中。
当然,最终商业的事,还是要回归到商业,所有的产品都将面临一个终极灵魂拷问:这玩意儿到底能不能帮公司省钱或者赚钱?alpha-value(Alpha经济价值指标)、ROAI(AI 投资回报率)、BIE(商业影响效率)就会在这个维度出现。
再看上述度量衡,不难发现,从黄仁勋的Token到李彦宏的DAA,或者τ-bench的Pass^k以及ROAI,都在讲述一件事——不同角色正在给出不同的度量衡和解释。
不同对应角色和产业位置,来源:公开信息及论文综合
没有一种“万能指标”能同时满足所有人的诉求。
AI价值的衡量,正在从一个“单点问题”演变为一个需要多维度协同的“评估网络”。Token和DAA分别抓住了输入与输出这两个角。而真正的“北极星”,或许得在AI这张地图展开过大半,才能隐约清晰。
AI时代的北极星悖论
演讲中,李彦宏将DAA与DAU(日活用户数)进行了捆绑理解,“DAA对应移动互联网时代通用度量衡日活用户数(DAU)。”
潜台词就是,DAA是AI时代的DAU。
确实,互联网的成功,很大程度上归功于它找到了一个完美的北极星指标:DAU。它是注意力的代理人,是广告变现的分母,更是网络效应的重力中心。
但在 AI 时代,这个刻度失灵了。今年3月,盒饭财经在《DAU信徒的黄昏》一文中就DAU与AI时代的不适配进行了分析。
互联网黄金时代,DAU几乎是商业价值的同义词。而这建立在几个非常稳固的假设之上:
第一,它是商业变现的底座。在互联网的商业模式里,几乎所有的收入公式都长这样:
广告收入 ≈ DAU × 人均使用时长 × 广告加载率 × 千次曝光单价
电商收入 ≈ DAU × 转化率 × 客单价
游戏收入 ≈ DAU × 付费率 × ARPU值
在这个公式里,DAU是一切的基础。人来了,才有后续的时长、曝光和转化。
也就是说,互联网的商业模式建立在“流量-广告/增值”上,用户活跃是价值源头。互联网时代,公式是:总价值 ≈ DAU(分母)× ARPU(人均产出值)。这个公式清晰、可审计,DAU是商业换算的基准。
而李彦宏设想的是“每个智能体交付 = 一个交付单位的价值”,从而推算产业规模。它的隐含公式是:产业总价值 ≈ DAA × 单位交付价值。这是想为AI时代创造一个类似“ARPU”的计算基石。
第二,能体现用的粘性与习惯,直观体现用户对你有多上瘾。DAU 里的“D(Daily)”是最致命的,它衡量的是习惯。如果一个App的 MAU(月活)很高,但DAU很低,说明用户只是偶尔想起你,如个税App、订票 App;如果DAU很高,说明用户“长”在了你的产品里。
这种“日频”的依赖,构成了极高的竞争壁垒,让对手极难挖走用户。这也是互联网后期,为什么大家一直在说“高频打低频”是一种竞争壁垒。
第三,它是最简单的“共识”。这是“北极星”最核心的作用:让公司上下力出一孔。对产品团队来说,DAU是衡量功能成败的最终标尺。你做的改动,是把人引来了,还是把人赶走了?对技术团队来说,高DAU意味着高并发、高负载,稳定性就是生命线。技术优化的直接目标就是支撑更大的DAU。
无论是程序员、产品经理、CEO 还是投资人,不需要任何复杂的解释,都能直接明白“今天有多少人用了我们产品”的价值。
第四,它定义清晰,不易造假。移动互联网时代,DAU之所以被奉为神谕,是因为它抓住了一个不可逾越的物理现实:人类的时间是有限的。全球80亿人口,每人每天只有24小时,DAU衡量的是对这种稀缺“注意力资源”的占有率。
“一个独立用户今天是否活跃”,是可以通过设备ID、账号等手段客观、精确统计的。它简单、唯一,且由于绑定了真实身份,极难被大规模注水。
基于以上,如果要找到类似AI时代的DAU,大致需要具备以下特质:
1.产出导向,而非投入导向。这与Gartner报告所强调的核心原则一致——指标必须衡量“实现了什么”,而非“消耗了什么”。北极星指标必须站在价值创造的一端,而非资源消耗的一端。
2.与商业变现直接挂钩。广告收入 ≈ DAU × 人均使用时长 × 广告加载率 × 单价。DAU的增长直接意味着商业价值的增长。在这个公式里,DAU是分母,也是底座。
3.全员可对齐。产品优化提升DAU、技术保障支撑DAU、市场拉新贡献DAU,全公司上下的努力都能汇聚到同一个数字上。它通过提供一个统一的标准,解决了部门之间目标不一致的问题。
4.抗作弊的博弈性。客观可审计,定义清晰不易被操纵,它必须让“刷量”的成本高于“创造价值”的收益。
5.价值可加总。一个DAU就是一个DAU。无论是北京的用户还是上海的用户,无论是早上登录还是晚上登录,在计数上都是“1”,单位统一,可以放心地加总、比较、排名。
当我们用DAA、Token或者上述学术论文中提到的指标,来套用这套逻辑时,悖论出现了。
首先,DAA 缺乏“生理红线”。一个人只能是一个DAU,但一个开发者可以轻而易举地生成一万个智能体,并让它们在后台互相“活跃”。如果 DAA成为唯一的北极星,我们很快就会迎来一场数字世界的“通货膨胀”。
同时,DAA在“价值可加总”这一条上遭遇了致命的挑战。同一个Agent被打开和它在用户的真实工作中持续交付结果,两者创造的价值差很多。
在“客观可审计”层面,DAA同样问题重重。
什么是“一个成功交付”?什么是“一次任务闭环”?如果定义权握在每个企业自己的手里,DAA就不可能成为像DAU那样可以跨公司、跨行业比较的公允标准。这样的背景下,谁定义了“交付”,谁就定义了“价值”。
其次,前沿论文中,如alpha-value或CLEAR这样的硬核指标虽然精准,却输在了“共识成本”上。它们像是“体检报告”,而不是“考试分数”。一个优秀的北极星指标必须具备极低的理解门槛。企业落地需要的是一个简单、粗暴、能直接印在财报上的数字,而不是一套复杂的、需要专业实验室才能测算出来的成功率模型。
至此,我们可以为这场“定义权之争”画出一个清晰的棋局了。
黄仁勋的Token叙事满足了谁?满足了英伟达和芯片产业链,Token消耗越多,GPU卖得越多。但Gartner已经宣判:Token对衡量AI市场领导力有误导性。
黄仁勋,来源:视频截图
李彦宏的DAA叙事满足了谁?满足了应用平台和生态商,DAA越多,生态越繁荣。但价值可加总的缺失,使DAA更像一个“方向性旗帜”而非“可操作的会计准则”。
学术界的Pass^k、协作评分、ROAI满足了谁?满足了工程师、架构师和CFO各自的需求。但它们各自只覆盖了北极星多项条件中的一两项。
“完美的标准”往往出现在终局
DAU并非一开始就存在。
互联网初期,衡量网站价值的标准非常简单粗暴,主要关注“曝光”和“内容消费量”。比如,最早的Hits(点击量),一个页面包含10张图片,用户打开一次就产生11个Hits(10个图片+1个页面)。
但这极易刷量。
随后,诞生了稍微科学一些的PV(页面浏览量)。门户时代,更多的PV意味着可以展示更多广告位。当时的核心逻辑是“得流量者得天下”,衡量的是内容被“看”了多少次,而非用户的意愿。
21世纪初,互联网从门户时代迈向社交时代。这迫使大家重新思考什么才是产品价值的核心。以MySpace为代表的Web 2.0公司,核心指标是注册用户数,认为“注册的人越多,平台越成功”,这导致平台上充斥着大量无人使用的“僵尸账户”。
在此背景下,Facebook进行了一场关键的认知战。
2004年成立之初,Facebook将核心指标从“注册”转向了活跃,内部最关注的不是新增注册量,而是MAU(月活跃用户数),即有多少人真正回来使用了。最终,Facebook凭借这个正确的“北极星指标”,完成了对MySpace的华丽逆转。
随着行业的发展和企业案例的增加,互联网的这套指标愈加明确。
2007年,500 Startups创始人Dave McClure提出了增长模型“AARRR模型”,清晰地展示了从用户获取到最终变现的过程。2010年初,“增长黑客之父”Sean Ellis提出了“北极星指标”的概念。他强调,企业必须找到唯一一个能捕捉产品核心价值的指标,指引全公司朝同一方向努力。
从此,行业不再满足于单一数字,而是开始系统性地理解整个用户生命周期。
直到2012年后,移动互联网时代彻底爆发,核心指标开始在不同场景下裂变。DAU、MAU成为通用标尺,时长、GMV等指标在业务的分化中出现。同时,如抖音这样的短视频、内容App的核心指标演变为用户使用时长;如美团、淘宝这样的电商、生活服务App则更看重订单交易额(GMV)或支付笔数。
在人类管理学也好,互联网的发展史也好,从来没有一个指标是天生完美的。DAU曾因注水被质疑,KPI也因僵化一直被诟病,但它们都在特定的历史阶段,为混沌的商业世界提供了极其宝贵的“确定性”。
那么,AI时代,真的需要一个类似DAU的指标吗?不论是增长黑客、北极星指标,还是“AARRR模型”,都是基于互联网的实践总结得出。基于互联网的经验,去寻找AI时代的衡量单位,是否也是一种刻舟求剑?
回到最初的争论:李彦宏提出的DAA完美吗?显然不是。
正如我们在论文和底层逻辑中探讨的那样,它依然带着流量时代的痕迹,面临着虚假繁荣与量化不均的挑战。但在 AI 产业的漫长演进中,“完美的标准”往往出现在终局,而“正确的方向”需要有人在迷雾中率先划下第一根火柴。
参考资料:
1.《Token Consumption Is a Misleading Indicator of AI Market Leadership》,https://www.gartner.com/en/documents/7346930
2.《盲测“屠榜”、实测祛魅:Happy Horse口碑分化 AI视频三强“杀疯了”》,每日经济新闻
3.《Gartner:Token消耗是衡量AI市场领导力的误导性指标》,产业家
4.《Token经济学:AI时代的新货币战争》,硅谷101
5.《用多少词元(Token),要被写进工资条了》,中国企业家杂志
6.https://github.com/sierra-research/tau-bench
7.《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》
8.《Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents》
9.《Towards a Standard, Enterprise-Relevant Agentic AI Benchmark》
10.《Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise
Agentic AI Systems》
11.《李彦宏:DAA(日活智能体数)是AI时代的度量衡》,百度
本文为盒饭财经原创,未经授权严禁转载!戳这里--【盒饭财经】,了解更多商业故事