Say Hi to ERNIE！Imagination GPU率先完成文心大模型的端侧部署

demi 在周二, 07/01/2025 - 09:27 提交

Imagination Technologies 宣布率先完成百度文心大模型（ERNIE 4.5 开源版）在其 GPU 硬件上的端侧部署。适配完成后，开发者可在搭载 Imagination GPU 的设备上实现高效本地 AI 推理，同时大幅降低推理成本，这一成果也标志着 Imagination GPU 在端侧 AI 推理场景中的技术领先性。

Imagination高度优化软件栈实现高效本地AI推理、降低成本

本次适配的文心 4.5 模型为开源版本，具备强大的智能问答、文本生成、语义理解和知识推理能力，广泛适用于移动设备、语音助手、IoT 和教育硬件等资源受限终端。在飞桨框架支持下，Imagination GPU 平台展现出出色的推理性能。

Imagination基于现有的GPU 硬件顺利完成了本次文心大模型系列开源模型部署软件栈，并得到实际网络验证。同时，Imagination高度优化的计算软件栈对AI本地推理性能进行优化，该软件栈包含OpenCL 计算库，编译器工具链，主流编程框架的参考开发套件（Reference Kits）。

其中参考开发套件可协助开发者通过TVM 将主流 AI 框架中的代码迁移至 Imagination 的软件栈。该套件基于Imagination 优化的 OpenCL 计算库和图编译器，使用专属 API 调用，提供全面的文档说明和组件集成参考，便于客户将其高效融入自身开发流程。

Imagination与百度协同创新，加速大模型端侧普及

适配过程中，Imagination 与百度团队紧密合作，针对文心 4.5 的特点进行了优化。推理方面，百度文心提出了多专家并行协同量化方法和卷积编码量化算法，实现了效果接近无损的4-bit 量化和2-bit 量化。此外，还实现了动态角色转换的预填充、解码分离部署技术，可以更充分地利用资源，提升文心4.5 MoE 模型的推理性能。基于飞桨框架，文心4.5 在Imagination GPU硬件平台上表现出优异的推理性能。

Imagination在今年 5 月推出了面向边缘 AI 的 E 系列 GPU，具备高性能、低功耗和灵活可编程的特点，适用于自然语言处理、工业计算机视觉、自动驾驶等应用。此次与文心模型的成功适配，也为未来客户在采用 E 系列 GPU 构建本地 AI 应用奠定了坚实基础。

早在此前，Imagination加由入百度飞桨发起的 “硬件生态共创计划”，将飞桨的先进算法和灵活性与 Imagination IP 技术相结合，为端侧开发者提供强大支持。随着边缘计算需求的快速增长，Imagination 将继续与百度深入合作，推动大模型在端侧设备的普及与落地，共同打造更高效、智能的本地 AI 体验。

Imagination推出全新PowerVR 第九代（Series9）图形处理器	今日开课！登陆中国大学MOOC平台，获取Rvfpga完整课程	刘国军：异构融合加速赋能数字化升级
不止CPU，Imagination积极参与RISC-V生态合作	为什么需要使用边缘计算？边缘数据中心为数据传输做出哪些贡献？	Imagination宣布和恩智浦（NXP）达成最新授权协议

Say Hi to ERNIE！Imagination GPU率先完成文心大模型的端侧部署

最新文章

最新文章