Dwarkesh Patel,一位在硅谷备受瞩目的年轻播客主持人兼作家,提出了一个关于人工智能下一代训练模式的深刻问题。这位年仅 25 岁的播客主,凭借其 Dwarkesh Podcast 节目,已成为人工智能领域讨论的核心人物,采访过 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis 和 Mark Zuckerberg 等行业巨擘。他甚至被 TIME 杂志列入 2024 年 TIME100 AI 名单,其播客内容已成为众多 AI 从业者的必听之选。
在近期的一期节目中,Dwarkesh 总结了当前前沿 AI 实验室的研究重点,将其归结为“RLVR”,即“可验证奖励强化学习”。简而言之,这种方法是通过让模型在大量能够自动判断对错的任务中进行反复试验,从而培养其规划、纠错、迭代和长期执行的能力。当前代码和数学等领域的显著进步,很大程度上便得益于此。
然而,Dwarkesh 进一步探讨的核心问题是:仅仅依靠这种“可验证任务训练”,是否足以支撑下一代 AI 的发展?他认为答案可能是否定的,因为一个任务的“可验证性”还不够,它还需要具备“可刷性”。这里的关键概念是“grindability”,即“可反复刷题性”或“可大规模部署的能力”。
代码任务便是一个典型的“可刷”范例。可以通过设置软件仓库、待修复的 bug 和测试用例,然后复制成数千个相同的训练环境,让数千个代理(agent)同时进行尝试。成功通过测试的代理将获得分数。这一过程具有并行性、可复现性和可重置性,非常适合 RLVR。数学题也类似,答案的正确性易于验证,训练环境也容易复制。
Dwarkesh 提出了一个引人深思的问题:为何 AI 在“使用电脑”方面的进展,反而比在代码和数学领域慢?表面上看,使用电脑的操作结果是可以验证的,例如订单是否成功下单、活动场地是否预订成功、税表是否提交成功等。但问题在于,这些任务难以大规模复制和回放。你无法让一千个代理同时在 Amazon 上反复执行相同的结账流程,因为真实网站会检测到机器人并封禁账户,同时网站状态也会发生变化。虽然可以克隆 Slack、Gmail、Amazon 等应用来创建模拟器,但这在当前阶段仍然是一项成本高昂且扩展性差的工程。
Dwarkesh 指出,AI 在某个领域进步迅速,不仅仅是因为该领域的答案是可验证的,更重要的是因为该领域能够被封装成可复制、可回放、可并行试错的训练环境。这也解释了为何代码、数学和游戏类任务成为了 RLVR 的天然沃土,而许多真实世界的任务却难以直接纳入此训练范式。
他将讨论引向更复杂的现实世界场景,例如训练 AI 从零开始创业、赢得一场官司、在市场中稳定获利,或帮助候选人赢得选举。这些任务的结果最终也是可以判断的,但其挑战在于反馈周期过长、变量过多、世界不可重置,并且无法在数据中心进行成千上万次的复制。一次创业可能持续数年,一场政治竞选则受到地区、候选人、选民情绪、媒体环境和偶然事件等多种因素的影响。一场法律案件也无法从相同的起点复制成一千个平行宇宙供不同代理进行试错。在强化学习领域,这类环境被称为“reset-free”和“non-stationary”,即不能随意重置且环境本身在不断变化。
Dwarkesh 因此发问:通过“可验证”和“可刷”环境训练出来的 RLVR 代理,是否真的能够泛化到这些真实世界的任务中?这是一个需要实证回答的问题,而非口号。乐观主义者认为,只要 RLVR 环境足够丰富和复杂,模型最终会学会通用的代理能力,并在代码、数学、网页和工具使用中获得的规划和试错能力,最终迁移到创业、组织管理、政治、法律和科学研究等领域。
然而,Dwarkesh 对此持谨慎态度。他认为,真实世界中最有价值的知识往往不是以清晰、可验证、可重复的方式呈现的,它们可能源于模糊的客户反馈、一次失败的会议、组织内部的隐性流程,或是在真实任务中才会暴露的某种失败模式。模型要学会这些,不能仅依赖“刷题”,而必须具备真正的样本效率。
这便引出了一个关键点:“learning back to the weights”,即学习过程需要反馈到模型权重中。当前的大模型虽然擅长“in-context learning”,能够根据长上下文理解项目背景并临时适应用户需求,但这种学习大多停留在上下文窗口内,会话结束后模型并不一定能真正“记住”。Dwarkesh 认为这是一种巨大的资源浪费,因为模型真正有价值的训练信号恰恰出现在部署之后,当模型被真实用户使用、进入真实组织、参与真实任务并暴露真实错误时。然而,如果这些经验无法沉淀到模型权重中,就只是一次会话中的短暂适应,而非能力的长期增长。
他以人类学习为例,指出人变强并非靠逐字背诵所有经历,而是将经历压缩成判断力、直觉、流程理解和模式识别。模型也应如此,真正的持续学习(continual learning)并非无限扩大 KV cache 或将所有历史记录塞入上下文,而是从真实经验中提炼少量有用的知识并将其压缩进权重。这正是 Dwarkesh 认为下一代训练范式必须解决的问题。
那么,如何实现这一点?他提到了一个正在讨论的方向:“on-policy self-distillation”(OPSD)。简单来说,就是让一个在长会话中积累了大量经验的模型充当“老师”,然后训练基础模型,使其在没有完整上下文的情况下也能做出类似“老师”的判断。也就是说,将模型在真实任务中通过上下文学习到的东西,蒸馏回模型自身的权重。这与普通 SFT 不同,后者可能只是让模型复述对话中的 token,而 OPSD 则侧重于提炼出能帮助模型下次做得更好的关键见解。OPSD 的优势在于,它不一定需要外部可验证的奖励,并且可以提供比普通 RL 更密集的监督信号,通过对比 teacher 和 student 的概率分布差异,将稀缺经验压缩成更小、更精准的权重更新。
除了 OPSD,Dwarkesh 还提出了“dreaming”的概念。这里的“dreaming”是指 AI 根据真实世界观察,自行构建一个模拟环境,并在其中反复练习、尝试策略、强化有效行为。这类似于 model-based RL 和 Sutton 强调的通过环境互动积累经验,但 Dwarkesh 将其置于大模型和真实部署的语境下。例如,AI 在真实公司观察到一个业务流程后,会构建该流程的“游戏版模拟环境”,并在其中测试不同的沟通策略和项目推进方式,最终将模拟练习的经验压缩回模型。
如果这一路线成功,它可能会成为新的扩展轴。Dwarkesh 设想,未来 AI 的扩展可能不再仅限于 pretraining、RL 和 inference-time compute,还会增加“test-time training”或“dreaming”这一轴。模型将不仅仅是推理,而是在推理和任务执行过程中,为特定用户、组织或项目构造模拟环境并自我训练。这也与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的观点一致:AI 下一阶段的关键将是智能体从自身与环境互动中获取经验。
Dwarkesh 将这一宏观判断具体化到当前大模型训练问题上:RLVR 是一个重要的过渡阶段,它让模型在可验证任务中培养出代理能力;但要进入更复杂的现实世界,模型必须学会从真实部署中持续学习,并将经验写回权重。
在 Dwarkesh 预测的 2027 或 2028 年,训练流程可能会演变为:首先,RLVR 训练出一个基本胜任的代理,使其能够理解陌生问题、尝试策略并迭代改进。然后,该代理被部署到真实世界执行实际工作,可能与用户连续工作一周,参与一个不在原始训练分布内的项目。一周结束后,用户给出反馈(如 thumbs up 或 thumbs down,或工作评价),如果结果是积极的,模型就会将本次任务中学到的东西蒸馏回基础模型,可能通过 OPSD、dreaming 或其他新技术。
一旦这条路径打通,AI 的能力边界将不再受限于最初的“可验证任务”。它将能够通过 RLVR 学会代码、数学、网页操作和工具调用;再通过真实部署学习组织管理、业务流程和复杂协作;进而从这些经验出发,扩展到相邻领域。这意味着 AI 进步的主要来源可能会发生变化。过去,模型在发布前训练完成,用户仅是使用;而下一代模型可能是:发布前训练基础代理,发布后通过海量真实任务持续学习。每一次与用户的交互、每一次真实项目的执行、每一次失败和修正,都可能成为下一轮能力提升的素材。
因此,Dwarkesh 所指的“下一代训练范式”,并非仅仅意味着模型更大、数据更多或 RL 更强。它真正指向的是:AI 从发布前训练转向发布后学习;从依赖人类数据转向依赖环境经验;从上下文中的临时适应转向权重中的长期能力。未来最重要的 AI 训练数据,可能不再仅仅是互联网上的文本或实验室里构造的可验证任务,而是 AI 在真实世界中完成真实任务时,自身积累的经验。

世界杯下注深耕世界杯赔率领域,用心服务每一位用户。
世界杯下注专注世界杯竞猜,为用户提供专业可靠的体验。