Sam Altman:虽然推理模型是我们未来技术栈的关键组成部分,但让我们暂时聚焦于传统预训练模型的发展边界。假设我们拥有无限的GPU算力、无限的网络带宽和无限的电力供应,但仍受限于当前存在的技术瓶颈——包括系统可靠性问题、容错训练方法的缺失,以及现有数据集的限制。按照我们每个主要GPT版本号实现100倍规模提升的演进规律,基于当前的技术边界,预训练模型的发展究竟能达到什么水平?具体到GPT系列模型,以我们现有的知识体系,理论上究竟能够训练出什么样的模型?能做出GPT-5.5吗?Alex Paino:从机器学习和算法发展的角度来看,我们尚未触及明确的理论上限。事实上,我们才刚刚开始探索数据效率更高的算法,以及如何更充分地利用现有数据资源。这个现状非常有趣——即便是像GPT-4这样的模型,很大程度上仍是在计算资源受限的条件下开发的,这也决定了此前大多数研究的方向。但现在的局面已经完全不同。自GPT-4.5以来,在某些关键维度上,数据而非计算正成为主要的制约因素。这种转变让相关研究变得不那么令人兴奋。Sam Altman:不过这确实是一个惊人的进展,而世界可能还没完全意识到:在我们能够构建的最佳模型上,计算资源已不再是主要瓶颈。这个转变意味深长,毕竟我们已经在计算受限的环境中生活了太久太久。05.模型整体性能提升可预测,智能提升路径难以预测
Sam Altman:在训练GPT-4.5过程中,我们学到的最有意思的机器学习经验是什么?说说你们想分享的就行。Amin Tootoonchian:总的来说,最引人深思的是那些偏离我们预测的情况——特别是当我们试图理解为什么实际表现会偏离预期曲线时。Alex Paino:最让我们惊讶的发现之一是:不同机器学习组件的扩展性表现差异巨大。有些部分能很好地扩展,有些则不行。这是我们在实际训练过程中才真正认识到的。这段经历给了我们很多启发。Daniel Selsam:我认为GPT范式的两大核心特征在于:其一,测试损失(衡量模型在未见过的测试数据上表现好坏的指标)可被准确预测;其二,模型性能随规模扩大呈现可预测的提升。更神奇的是,测试损失的降低会以种种难以量化却又令人惊叹的神秘方式,转化为全方位增强的智能水平。Sam Altman:你是否对此持绝对乐观态度?完全认同这一观点吗?Daniel Selsam:其实我想说的是,从GPT-4.5测试中我们发现了特别有趣的现象——重新测试后,模型展现出的诸多精妙能力完全超出了所有人的预期。我们确信它会以各种难以预先定义的方式变得更智能,而实际部署后,从用户满意度中就能观察到这些微妙层面的提升:更强的常识储备、更精准的语境理解能力、更细腻的语义把握——这正是那些额外测试损失带来的魔力。在我看来,Scaling Law在这一维度上得到了完美验证。06.机器学习与系统团队合作密切,不会“自扫门前雪”
Sam Altman:整个训练过程中最积极的时刻是什么?最喜欢的记忆是什么?显然有很多痛苦,但希望那些痛苦已经有所缓解了。Alex Paino:我确实有一个这样的时刻。我们在训练期间做了很多机器学习方面的工作,我认为我们在运行过程中做出的一些改变产生了相当好的影响,可能比预期的还要好,这对我们来说是一个非常令人兴奋的时刻。Amin Tootoonchian:对我来说,在训练的同时,我们也同时在构建基础设施。我们坚信能越过这个性能悬崖,且我们有计划,每个人都在执行,但这需要很长时间。这是艰苦的工作,绝对比我想象的要难。我的预测是错的,我低估了解决这些问题需要的时间。当团队终于攻克了那些关键问题,性能得到显著提升的那一刻,至今让我记忆犹新。你能明显感受到整个团队的能量转变——所有人突然充满了干劲,带着全新的动力向最终目标冲刺。最神奇的是,我们状态跟踪器上显示的预计完成时间从最初的两年开始不断缩短,最终锁定在一个明确的时间节点上。这种可见的进展对团队士气的提振是难以估量的。我认为这就是它的美妙之处。我想特别强调的是,机器学习的工作从未停滞。即使在训练启动后,这种机器学习协同设计的过程仍在持续。机器学习团队不仅主动跟进那些曾被标记为“后续处理”的问题,还持续交付了真正优化训练时间的改进。这完美体现了我们的团队精神——这里不存在“各人自扫门前雪”的工作界限,而是一种真正无缝的协作,这种凝聚力正是我们最强大的优势。07.GPT-4.5预训练是最周密的计划,绝不放过任何异常
Daniel Selsam:外界对于这次训练本身的挑战性和预测准确性已经讨论很多。但事实上,这一切都建立在极其周密的规划基础上——你要不再详细谈谈这方面?Alex Paino:这绝对是我们迄今为止最周密的计划。正如我所说,早在正式启动训练前一年,我们就已经开始筹备这个项目。期间我们进行了多次大规模的风险控制测试运行。我们特别注重循序渐进地引入所有改进:从高置信度的基础配置开始——可以理解为类似GPT-4的成熟架构,这个配置在机器学习层面我们已经完全掌握——然后像叠积木般层层叠加新特性。关键是要严格验证每个改进在不同规模下的扩展性:不仅要看到性能提升,更要确保这些提升能随着模型规模扩大而持续有效。很多改进在小规模测试时表现良好,但在大规模应用中就会失效。因此整个过程中我们都保持着高度警惕,不断迭代完善我们的扩展定律方法论。通过这次风险控制实践,我们积累了大量宝贵经验,这些经验将继续指导未来GPT系列模型的开发。Amin Tootoonchian:我记得有个特别有趣的瞬间让我很是怀念。要知道我们每次启动训练任务几乎都免不了遇到各种bug,这已经是家常便饭了。但关键是要确保进展不受阻,得时刻确认当前进度是否确实在正轨上,这些bug会不会对训练健康度造成致命影响。虽然我们最初非常确信存在重大缺陷,但通过搭建的整套监控体系,我们已经能够精准区分问题根源:是硬件故障?哪类硬件故障?是数据损坏?还是机器学习模型本身的bug?或者是代码中的竞态条件?当时的情况是,我们同时开着多个问题讨论区,各种症状五花八门。经过一系列bug修复后,我们陷入了僵局:眼前堆叠着多个未解问题,所有人都在苦思冥想——这些是不同bug导致的?还是某一个bug在作祟?后来我们搞了个投票,让团队成员票选最可能的根源。结果最不被看好的选项反而命中真相:竟然是PyTorch上游的torch.sum函数出了问题,一个简单的求和运算。这个bug特别有意思。要知道我们主要使用Triton内核,只有在某些无关紧要的边缘场景才会回退到torch运算。而我们的特定代码路径触发的这个torch.sum函数bug,会因数据分布特性极偶然地引发非法内存访问——它在计算内存偏移量时出了差错。最戏剧性的是,当某位工程师终于定位到问题并提交修复后,所有症状各异的报错竟然全部消失了。大家兴奋地把Slack频道从“多bug理论”集体改名为“单bug理论”,场面特别欢乐。这个bug潜伏了多久呢?从训练早期就存在,直到进度条走过约40%才被揪出来。发现过程也充满戏剧性:当时有个复杂内核连续调用序列,第二个调用触发了非法内存访问。虽然这种崩溃频率极低(每几百甚至上千步训练才出现一次),很容易被当作偶发故障忽略,但我们的团队准则就是:绝不放过任何异常。这个故事最精彩的部分就在于这种不轻言放弃的坚持。08.我们离理想系统还很远