人工智能也需要思考时间:浅谈 “测试时计算” 的含义

导语:2025年3月,兰德公司(RAND)发布《当人工智能需要时间思考时:浅谈“测试时计算”的含义》(When AI Takes Time to Think: Implications of Test-Time Compute),文章介绍了“测试时计算”(Test-Time Compute,TTC)在推理型人工智能模型中的兴起及其深远影响。启元洞见编译文章主要内容,旨在为读者了解“测试时计算”带来的结构性变革提供参考。

随着OpenAI的o1、o3和DeepSeek的R1等推理型模型的出现,人工智能开发体系中增添了一项重要能力:“测试时计算”(Test-Time Compute,TTC),这项能力在推理过程中显著提升了模型性能。不同于传统模型直接输出答案的方式,推理模型采用显式的分步思考流程,即通过“边思考边表达”的方式,尝试多种解题路径、生成中间推理步骤,并对可能的解答进行比较评估,最终凝练出更可靠的输出结果。

在一些情况下,人们甚至可以允许模型“思考”数分钟生成几十页文本,然后模型将这段详尽推理压缩为用户看到的一句简洁回答。尽管这并非颠覆性的技术革命,但它是人工智能技术发展演进的一部分,已经在政策、产业格局与安全等领域引发连锁反应。如同其他技术进步一样,其影响不会立竿见影,但从长远来看,其累积效应可能深远且不可忽视。


一、计算能力如何影响人工智能的生命周期

在探讨“测试时计算”的影响之前,应先理解计算能力在人工智能开发与部署过程中的作用。过去,训练阶段计算量的持续提升一直是推动人工智能进步的主要动力,它使得人们能够训练出越来越强大的拥有更多参数、使用更多数据的模型。而如今,测试时计算能力作为一个新增变量,进入了这套机制。人工智能发展的路径曾被简单理解为“扩大预训练计算规模”,但实际上远比这复杂。随着推理阶段计算量的引入,这个路径进一步变得多元复杂,从原先调控一个变量,转变为同时优化多个变量的系统工程。

简言之,计算能力通过以下四个关键阶段推动模型能力的提升。

(一)实验阶段

在这个阶段,研究人员测试各种架构设计(例如超参数、学习率及其他变量),寻找最优方案,作为后续大规模训练的基础。

(二)预训练阶段

在这个阶段,研究人员通过在互联网庞大的数据集上对模型进行大规模训练,为模型建立基础能力。

(三)后训练阶段

在这个阶段,研究人员通过强化学习、指令微调等方法,让模型在某些特定任务中表现优异或者更像一个聊天机器人。近年来,还新增了通过强化学习来教会模型“逐步推理”能力的功能。

(四)部署阶段

部署阶段包括部署能力与部署规模。关于部署能力,指模型在响应用户提问时“思考”的时间,即测试时计算能力。关于部署规模,指系统的用户规模或人工智能体的部署数量,当数以百万计用户同时发出请求时,这就成为影响性能的关键因素。

当前的变化,不在于计算能力是否仍然重要,而在于计算能力在哪些阶段、以何种方式发挥作用。一个常见的误解是,由于推理模型变得更高效,计算能力的重要性下降。事实恰恰相反,这些所谓的高效新进展,仍然是建立在大规模预训练基础模型之上的,而训练这些模型需要动用数千块加速芯片和数百万美元的资源投入。

当模型完成初步训练后,人们会发现两个新的“可扩展杠杆”出现了:一个是后训练阶段,在此阶段可以通过强化学习进一步塑造模型的推理能力;另一个是推理阶段,这个阶段与过去主要依赖训练数据规模和模型体量来提升能力不同,推理型模型通过在此阶段投入更多计算时间,也能够显著增强其解决问题的能力,尽管这种能力仍然建立在预训练打下的基础和后续训练形成的推理机制之上。

如今“测试时计算”为推动人工智能能力增长开辟了新的路径。尽管当前这一变化看似缓慢演进,但未来可能对人工智能的技术生态与相关政策体系带来深远影响。


二、测试时计算的六大影响

(一)创新周期正在加速

随着已经投身推理研究的团队(如OpenAI、DeepSeek等)以及更多新入局者的不断探索,人工智能的性能提升将加速发展。在这一新兴研究领域中,迭代速度更快,只需通过强化学习或增加推理时间即可提升性能,无需耗资数百万美元进行一次全新的预训练,这使得更新成本更低。

此外,这种相对低门槛的性能提升方式吸引了更多开发者参与人工智能研究,尤其是学术界的研究者,他们更倾向于分享发现,从而加速行业进步。这也将推动技术的共享,已有前沿模型拥有者与相对弱势竞争者之间的差距可能会比预训练主导时代更快缩小。但与此同时,预训练方面的进展仍在持续,每一代重大跃升仍可能带来新的能力鸿沟。

性能提升最快的领域,预计将是那些具备清晰反馈机制、结果易于验证的领域,尤其是数学和软件工程领域。这一点具有重要意义,因为许多模型开发者本身就是软件工程师,这将形成一个正向反馈循环:工程师利用模型提升工作效率,带来更多使用与创新,从而催生更优秀的下一代模型。但这种推理能力是否能顺利迁移到其他领域仍需时间验证。

(二)技术共享加速,同时维持领先优势

测试时计算同时服务于领先企业与中小开发者,先进模型可借此获得更强推理能力,较小规模的系统也可实现过去需要大规模预训练才能达到的性能。但这并不意味着计算门槛的降低或消失,而是人工智能演进中算法效率提升的又一次飞跃,即在既定性能水平下所需的计算成本变得更低。但要推进最前沿的能力,仍需巨大的资源投入。

领先企业通过在其最新、最大模型中集成推理技术来维持优势。而中小开发者则能以更有限的资源达成过去的顶尖表现,虽然差距缩小,但尚未完全弥合。

(三)分级使用推理模型

测试时计算促进了人工智能能力的灵活性,同一个模型,依据任务中分配的计算资源不同,可以展现出不同的“智能水平”。这一问题目前就已显现:是否必须订阅高级版本才能使用最先进的能力?对于简单查询,可能并无必要,但许多用户为了在特定任务中获得更优表现,仍会选择付费升级。展望未来,用户不仅要挑选合适的模型,还可能需要决定让模型“思考”多长时间,以平衡效率与性能。

(四)部署能力:从“部署规模”到“部署,规模与智能水平的协同提升”

部署时的计算资源一直是决定人工智能影响力的关键,它决定了可以服务多少用户,进而影响人工智能在不同行业、领域的渗透程度。而如今,测试时计算的引入加剧了计算资源与模型智能之间的耦合关系,同一模型在被分配不同的推理时间后会表现出不同“智商”。

这一变化带来了重要的地缘政治与经济影响。在地缘政治方面,计算资源充足的国家可以通过补贴人工智能服务的方式在国际上扩大软实力。在经济方面,拥有推理计算资源的国家,拥有着将先进人工智能批量部署并盈利的能力,这可能形成“部署成功-赚取利润-继续升级”的正反馈机制。

(五)合成数据推动能力飞轮

推理能力的进一步提升可能依赖于“合成推理数据”的生成,即由人工智能自行产出的推理样本,这类数据将成为越来越有价值的战略资源。每一代模型都借助上一代生成的推理样式来进行强化,从而进一步增强下一代模型的推理能力,形成加速能力进化的闭环。

同时,这一机制也可能加剧数据安全风险,使“推理数据窃取”成为新隐患。但从长期看,保护此类合成数据可能并不现实,数据获取途径可能会迅速扩散。例如DeepSeek R1所共享的链式思维推理方式,已经惠及其他团队。这种推理数据的广泛传播,也可能进一步缩小前沿技术拥有者与相对弱势竞争者之间的差距。

(六)政策制定面临信息不对称挑战

随着人工智能能力的不断跃升,从外部视角做出明智的政策决策正变得越来越困难。推理模型的技术细节及其发展路径常被公司作为商业秘密加以保护,这造成了开发者与政策制定者之间日益扩大的信息鸿沟。若不正视并弥补这些信息不对称,政策制定者可能将越来越难以跟上人工智能演化的脚步。


三、结语

测试时计算并非颠覆性地改写了人工智能发展的全部逻辑,但它无疑引入了一个重要的新变量,值得政策制定者高度重视。这是人工智能发展中的一次结构性演进,新增的变量正在重新塑造政策应对的重点和边界。

事实表明,人工智能的发展并不是沿着一条单一、持续上升的曲线前行。如今,这一进程更像是多条曲线并行推进(包括预训练、强化学习和测试时计算等)。然而,政策体系往往滞后于技术发展,常常在新变量已经深刻影响产业发展和社会走向后,政策制定者才意识到其带来的挑战。


本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者
原文链接:https://mp.weixin.qq.com/s/3nt5IZqmx8Vv9dzsLDOdYA
编辑 | 任侠
审校 | 桑妮
参考来源:兰德公司(RAND)
参考题目:When AI Takes Time to Think: Implications of Test-Time Compute
参考链接:https://www.rand.org/pubs/commentary/2025/03/when-ai-takes-time-to-think-implications-of-test-time.html

最新文章