Imagination Technologies 宣布率先完成百度文心大模型(ERNIE 4.5 开源版)在其 GPU 硬件上的端侧部署。适配完成后,开发者可在搭载 Imagination GPU 的设备上实现高效本地 AI 推理,同时大幅降低推理成本,这一成果也标志着 Imagination GPU 在端侧 AI 推理场景中的技术领先性。
Imagination高度优化软件栈实现高效本地AI推理、降低成本
本次适配的文心4.5模型为开源版本,具备强大的智能问答、文本生成、语义理解和知识推理能力,广泛适用于移动设备、语音助手、IoT和教育硬件等资源受限终端。在飞桨框架支持下,Imagination GPU平台展现出出色的推理性能。
Imagination基于现有的GPU硬件顺利完成了本次文心大模型系列开源模型部署软件栈,并得到实际网络验证。同时,Imagination高度优化的计算软件栈对AI本地推理性能进行优化,该软件栈包含OpenCL计算库,编译器工具链,主流编程框架的参考开发套件(Reference Kits)。
其中参考开发套件可协助开发者通过TVM将主流AI框架中的代码迁移至Imagination的软件栈。该套件基于Imagination优化的OpenCL计算库和图编译器,使用专属API调用,提供全面的文档说明和组件集成参考,便于客户将其高效融入自身开发流程。
Imagination与百度协同创新,加速大模型端侧普及
适配过程中,Imagination与百度团队紧密合作,针对文心4.5的特点进行了优化。推理方面,百度文心提出了多专家并行协同量化方法和卷积编码量化算法,实现了效果接近无损的4-bit量化和2-bit量化。此外,还实现了动态角色转换的预填充、解码分离部署技术,可以更充分地利用资源,提升文心4.5 MoE模型的推理性能。基于飞桨框架,文心4.5在Imagination GPU硬件平台上表现出优异的推理性能。
Imagination在今年5月推出了面向边缘AI的E 系列 GPU,具备高性能、低功耗和灵活可编程的特点,适用于自然语言处理、工业计算机视觉、自动驾驶等应用。此次与文心模型的成功适配,也为未来客户在采用E系列GPU构建本地AI应用奠定了坚实基础。
早在此前,Imagination加由入百度飞桨发起的 “硬件生态共创计划”,将飞桨的先进算法和灵活性与 Imagination IP 技术相结合,为端侧开发者提供强大支持。随着边缘计算需求的快速增长,Imagination将继续与百度深入合作,推动大模型在端侧设备的普及与落地,共同打造更高效、智能的本地AI体验。

-
gpu
+关注
关注
28文章
5099浏览量
134471 -
AI
+关注
关注
89文章
38134浏览量
296732 -
imagination
+关注
关注
1文章
617浏览量
63098 -
大模型
+关注
关注
2文章
3444浏览量
4970
发布评论请先 登录
百度文心大模型5.0-Preview文本能力国内第一
荣获两大奖项,Imagination新一代GPU引领端侧AI新时代
【VisionFive 2单板计算机试用体验】3、开源大语言模型部署
兆芯率先展开文心系列模型深度技术合作
Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态
MediaTek天玑9400率先完成阿里Qwen3模型部署
摩尔线程GPU率先支持Qwen3全系列模型
AI端侧部署案例(SC171开发套件V3)
AI端侧部署开发(SC171开发套件V3)
AI大模型端侧部署正当时:移远端侧AI大模型解决方案,激活场景智能新范式
AI大模型端侧部署正当时:移远端侧AI大模型解决方案,激活场景智能新范式

Say Hi to ERNIE!Imagination GPU率先完成文心大模型的端侧部署
评论