令人意想不到的是,如今在强化学习(RLHF)和大型模型训练中占据核心地位的Proximal Policy Optimization(PPO)算法,在2017年曾被NIPS会议拒稿。
这一史实由PPO的作者John Schulman本人披露。他简短地回顾了这段经历,表示“PPO,曾经被NIPS 2017拒了。”
这篇最初于2017年7月发表的论文,当时被视为一种更简便、更易于工程实现的策略优化方法。其设计初衷是借鉴TRPO的稳定性,同时简化实现过程,以提升强化学习训练的易用性和实用性。
然而,数年后,PPO真正展露锋芒的领域并非传统的Atari游戏或机器人控制,而是大型语言模型。从RLHF到近期的RLVR,PPO已成为大型模型后训练阶段不可或缺的基础算法之一。Schulman指出,PPO在LLM时代的再度兴盛,其影响力甚至超出了最初论文的预期。
Schulman的表述并非在抱怨当年的拒稿,更像是一种事后诸葛的感慨:一项技术的真正价值,往往以其发明者未曾预料的方式得以体现。
这引发了人们对PPO当年为何被拒的好奇。Schulman解释说,论文在当时被认为创新性不足,与现有方法相比的提升不够显著。
有网友评论认为,这一现象反映了学术评价标准与实际产业需求之间的脱节。学术界倾向于关注新颖性和在受控实验中的改进,而现实世界则更看重算法的可扩展性、在复杂系统中的稳定性以及实际运行能力。
Schulman对此表现得颇为平和,他表示那已经是过去的事情了,并希望经过多年的发展,学术界已逐渐认识并采纳“简洁而可规模化”的设计理念。
真正让他感到意外的是,PPO论文及其目标函数能够持续产生影响。一项算法的改进是昙花一现还是能成为经久不衰的基础组件,往往难以在初期判断。PPO的故事恰恰印证了这一点。
事实上,AI领域不乏后来产生深远影响的研究,它们在最初提交时也曾被顶级会议拒之门外。
例如,LSTM(长短期记忆网络)在1996年被NIPS拒稿,当时被认为过于复杂且缺乏生物学依据,但后来成为了序列建模任务的关键技术。
SIFT(尺度不变特征变换)曾被ICCV 1997和CVPR 1998拒绝,理由是其工程步骤繁琐、不够简洁。然而,它在深度学习兴起前主导了计算机视觉领域十余年。
Dropout技术在2012年被NIPS拒稿,被视为一种工程技巧且理论解释不够严谨,但最终成为深度神经网络重要的正则化方法之一,并获得了NeurIPS的时间检验奖。
有时,时间才是最严苛也最公正的评判者。
本文来源于微信公众号“机器之心”(ID:almosthuman2014),作者为关注RL的,由36氪授权转载。

世界杯下注深耕世界杯赔率领域,用心服务每一位用户。
世界杯下注专注世界杯竞猜,为用户提供专业可靠的体验。