主机经济的启示
想知道图形技术的发展方向?关注主机市场就对了。并非因为主机技术精湛或代表着计算机图形学的巅峰——事实并非如此。但它们确实占据着游戏生态系统中最大的收入份额,而受发行商驱动的游戏开发商们,永远追随资金流向。
主机还经过精巧设计以控制成本。售价500美元的PlayStation或Xbox无法原生支持4K分辨率、高帧率、复杂材质、全局光照和实时光线追踪——物理系统无法支撑,散热系统无法应对,经济性更是完全行不通。
主机可视为受限图形处理的入口。通过控制芯片面积和限制散热来降低成本的需求,促使硬件采用先进技术高效实现新一代特效。
那么,主机正在做什么?最新一代主机并不是在增加更多专用的图形功能,而是将重点投入到AI 加速上:更多的重建与超分辨率技术,更多的时间性技巧与学习型近似算法,以及对纯粹光栅化吞吐力的投入则相对减少。
这并非妥协,而是实用主义。原生4K渲染所需的计算量约是1080p的4倍,但通过AI驱动从1080p超分至4K,仅需一小部分成本就能实现视觉上相近的效果。同样的画质,只需四分之一的计算预算——经济账无可辩驳。
当主机厂商如此重注于重建技术而非原生渲染时,整个生态系统都会随之转向。游戏引擎为此优化,艺术家学习与之协作。待这些技术成熟时,它们便成为预期的基准。这不仅是主机的方向,也是智能手机、电视和汽车中受限实时图形技术的发展方向。
我们如何走到今天?
几十年来,丹纳德缩放定律(Dennard scaling wall)给予芯片设计者一份厚礼:缩小晶体管,就能获得更多晶体管,它们能以相同功耗运行得更快。我们可以塞进更多图形核心、更多计算单元、更多专用模块,而经济效益依然成立。每一代都能带来“免费”的性能提升。
这种模式早已失效,但半导体行业仍惯性前行,仿佛旧规则依然有效。事实并非如此。如今缩小晶体管尺寸虽能实现更高密度集成,但性能不再倍增,功耗也无法像过去那样线性增长,热管理更成为重大挑战。唯一出路在于提升架构效率,而非单纯堆砌更多晶体管。
这引发了我们对于处理器设计思路的转变。我们需要更明智地决策构建什么以及如何使用——而AI恰逢其时地出现,带来了我们所急需的下一代图形效率浪潮。
图形演变为计算
事实上,在所有市场中,现代渲染技术正逐渐摆脱传统图形学的面貌,更趋近于精密的信号处理。去噪光线追踪照明是计算问题,时域抗锯齿是计算问题,分辨率提升更是不折不扣的计算问题。就连光栅化技术也日益依赖计算着色器来实现剔除、可见性判定和材质评估。
“图形工作负载”与“计算工作负载”之间的界限正在消融。看似图形的任务,往往是恰好生成像素的计算——而GPU已经演变得非常善于处理这类负载。
该能力已开始被重新部署至其他应用场景。在边缘计算场景中,GPU通常承担着处理计算摄影、扩展现实(XR)、虚拟与增强现实(VR/AR)以及复杂传感器融合等核心工作负载的任务。这些操作包括处理摄像头数据流、整合激光雷达点云、对传感器数据执行快速傅里叶变换(FFT),以及在三维空间中追踪物体。此类预处理步骤对于实现更丰富、更沉浸式的体验以及精准的环境感知至关重要。
融合之势
这些任务占据着独特的交叉领域,既不同于传统图形处理,也区别于AI工作负载。它们代表了一类异构计算任务——这类任务在AI近期爆发之前就已存在,却依然是移动计算、交互计算和感知计算等现代应用的核心需求。
由此催生出成熟的计算软件生态系统,将GPU视为核心计算单元。API、标准、库、编译器及工具链一应俱全,确保开发者能轻松将AI模型部署至GPU通用计算单元。
这至关重要——因为残酷的现实是:当前主导技术路线图的AI算法,很可能无法支撑五年后的运行需求。并非算法本身缺陷,而是它们针对电力与计算资源充沛的时代进行优化,而这种资源规模化扩张终将受限。
运行于数据中心、耗电量巨大的Transformer模型或许能推动短期经济增长,但它们同样面临扩展极限,而无限免费的能源仍是科幻设想。新一代算法的诞生势在必行——物理定律与经济规律共同催生着变革。部分算法将提升数据中心计算效率,另一些则将推动AI走出数据中心,转向另一高效计算资源:边缘设备。
稀疏架构、新型量化方案、尚未构想的混合方法——无论算法如何演进,硬件都需做好准备。历史已为我们提供范例:专家系统让位于神经网络,全连接网络让位于CNN,CNN又让位于Transformer。每次变革都遗留着针对旧技术的专用硬件。
边缘计算的差异在于部署周期。数据中心每2-3年即可更新换代(经济与基础设施允许的情况下),而汽车SoC的寿命却长达十年以上。边缘硬件无法承受过度优化算法的代价——这些算法可能在首款芯片出货前就已过时。
这对GPU意味着什么?
但专用加速器并非边缘AI的唯一解决方案。GPU已进化为AI机器;其计算资源的主要应用场景确实是图形处理,但GPU的魅力在于可编程性和灵活性。它可应用于当今的AI算法——当数据中心资源限制真正显现时,它将成为更高效模型变体的实际加速器。
当代GPU早已超越图形处理器的范畴,亦非单纯的计算处理器或AI加速器——它们同时兼具三者特性。这对架构设计意味着什么?
- 真正的异构性:光栅化、光线追踪、张量运算及计算仍需专用功能模块。但调度机制与资源分配必须具备足够灵活性,避免工作负载转移时产生资源泡沫。当帧重建阶段启动时,光线追踪单元应转为计算或AI任务使用,而非闲置。
- 内存分层结构比峰值吞吐量更关键:边缘设备无法依靠海量内存池蛮力解决问题。缓存策略、数据压缩与传输机制属于架构设计范畴,而非算法层面。当GPU进行帧重建而非完整渲染时,内存访问模式将发生根本性变化,架构设计必须预见这种转变。
- 数值灵活性优先于峰值性能:当前神经网络可能采用INT8精度,但未来可能需要INT4、FP4或尚未标准化的三元表示法。现有图形渲染依赖FP32精度,而重建算法可能需要我们尚未预见的位宽。设计应追求适应性,而非仅针对单一狭窄格式的效率优化。
- 可编程性不可妥协:今日设计的车载GPU必须能运行尚未诞生的算法。这要求编程模型能让开发者自由表达创新算法,而非受限于架构。固定功能模块虽能提升效率,但前提是它们不会在工作负载演进时将你逼入死胡同。
我们一再忽视的规律
过去四十年间,计算产业反复经历着这样的循环:规模化带来性能提升,我们据此构建基础设施,却忽略了物理定律设下的边界。算法随之调整以弥补不足,而过往的优化方案逐渐失效。
当下我们正身处转型期。关键不在于变革是否发生——丹纳德缩放定律的极限已然显现,算法变革势在必行,边缘部署加速推进。关键在于我们构建的是能适应变革的架构,还是将在转型完成后被淘汰的旧体系。而边缘计算领域正面临最严峻的考验。构建适应未来发展的架构远比优化现有方案困难,但唯有如此才能经受十年部署的考验。
Ed Plowman,是GPU架构与机器学习加速领域的资深专家,拥有逾30年推动图形处理、计算及系统性能创新的经验。在Imagination Technologies担任首席技术官期间,他主导先进GPU流水线研发,探索新型算术逻辑单元设计、图神经网络及机器学习驱动的性能建模技术,以推动人工智能与图形领域的可扩展计算发展。其过往工作涵盖移动GPU、精准农业及虚拟制作领域,曾荣获英国女王奖和科技艾美奖。埃德是Khronos集团创始成员,在自适应计算和可编程图形领域拥有多项专利。
英文链接:https://blog.imaginationtech.com/the-convergence-pattern-why-edge-gpus-cant-afford-specialisation
声明:本文为原创文章,转载需注明作者、出处及原文链接。





