0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

端侧AI应用趋热:NPU如何解决其关键痛点

要长高 2024-10-31 15:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前,AI大模型正逐步从云端迁移至边缘,甚至深入至日常生活中的手机、个人电脑(PC)、汽车等终端。在这场变革中,端侧智能正逐渐崭露头角,预示着未来的智能设备将能够更实时、高效地理解和服务用户。在E维智库举办的第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上,安谋科技的产品总监鲍敏祺深入剖析了端侧AI应用的广阔前景,并强调了神经处理单元(NPU)在这一领域中的关键作用。

关于端侧大模型,鲍敏祺指出,AIGC大模型带来的算力提升为端侧AI带来了新的发展机遇。这些大模型已经在手机上实现了应用,如图片理解、关键信息提取等,显著提升了用户体验。例如,Apple Intelligence等大模型虽然尚未对国内用户开放,但已经引起了广泛的关注和测评。这些应用不仅提高了使用效率,还逐渐融入了人们的日常生活。

然而,鲍敏祺也提到,端侧AI的算力是否会像云端一样持续膨胀仍是一个未知数。由于存储带宽的限制以及用户体验对实时性的高要求,大模型必须在用户能接受的时间内(通常是2秒以内)给出反馈。因此,在当前带宽条件下,部署大模型需要权衡带宽制约与用户体验。

目前,众多国内外厂商已从商业化角度推出了大模型,并达成共识,认为AI NPU是未来消费类产品的重点投入方向。头部终端厂商如OPPO、VIVO、小米、荣耀、华为等也都有相应的解决方案。这些方案并非仅依赖端侧大模型,而是与云端相辅相成,共同提升用户体验。端侧的优势在于时效性和数据本地安全性,而云端则具备更强的理解和计算能力。

在评估端侧大模型时,语言类模型或文生图常被用作参考。但鲍敏祺认为,语言类模型并非端侧应用的终点。随着技术的发展,图片、音频、视频等多模态输入将成为常态。这些输入需要经过压缩和Tokenizer处理,转换成模型能理解的Token。而大型语言模型(LLM)的基本原理并未改变,只是输入和输出过程增加了编码和解码步骤。

另一个挑战在于,上下文长度的增长对模型性能提出了更高要求。衡量语言模型的指标包括每秒处理的Token数和首次响应时间(TTFT)。随着上下文长度的增加,首次延迟也会线性增长。因此,在端侧容量和带宽有限的情况下,需要优化算法以提升算力效率。

一个明显的趋势是,AI的应用将越来越广泛,涉及多模态场景。随着AI的发展,人们可能会更多地与智能体进行交互。这些智能体不仅能理解和执行任务,还能通过强化学习不断优化自己的行为。

在多模态场景下,AI的应用将不再局限于传统设备。从手持设备到边缘计算、PC、汽车,再到云端,AI将无处不在。然而,不同场景对AI算力的需求各不相同。手持设备由于功耗和芯片面积的限制,通常只能支持较小规模的模型。而在边缘计算、PC、汽车等端,模型体量可能更大。在云端,由于有充足的资源和带宽,模型体量可以更大,从而接受各种知识并进行持续迭代。

AI的赋能不仅限于传统设备,它还能为以前看似市场前景有限的终端设备带来新的生命力。例如,通过赋予可穿戴设备简单的语音控制和视觉拍照功能,这些设备可能会变得非常受欢迎。这种多模态的输入和直接使用的功能使得这些设备在竞争激烈的市场中脱颖而出。

然而,端侧AI也面临着诸多挑战。首先是成本、功耗和生态系统的问题。存储介质的带宽和成本是制约端侧AI发展的关键因素之一。尽管存储技术不断进步,但端侧设备仍然无法像云端那样拥有TB级别的带宽。此外,端侧设备的芯片面积和计算资源也非常有限。

第二个挑战是功耗问题。在AI应用中,数据的搬运是功耗的主要来源之一。对于大模型来说,由于显存占用大,无法像卷积神经网络(CNN)那样通过高复用度来提高能效。因此,如何降低数据搬运的功耗成为了一个亟待解决的问题。

此外,软件和工具的优化也是一大挑战。AI模型需要不断迭代优化才能满足用户需求。然而,当前的软件和工具在支持大模型优化方面还存在不足。

针对这些挑战,安谋科技推出的“周易”NPU采取了一系列应对策略。首先,它在保留CNN能力的同时,增强了对Transformer大模型的支持。通过优化微架构和计算能力,提升了Transformer的运算效率。其次,“周易”NPU注重数据本地化,通过混合精度量化和无损压缩来减少数据搬运和提升有效带宽。此外,它还针对大模型进行了总线带宽的扩展以满足解码等场景对带宽的高需求。

为了进一步提升能效,“周易”NPU还采用了数据并行、模型并行、负载均衡和Tiling等技术。同时,它也支持异构策略,可以独立执行AI任务,并根据需求自由裁剪。在端侧应用中,“周易”NPU还采用了电源门控和低功耗策略以降低不必要的功耗。

通过这些创新技术,“周易”NPU有效应对了端侧AI面临的挑战,为多模态场景下的AI应用提供了强有力的支持。针对不同应用场景,如智能汽车、手机PC、AIOT等,安谋科技也制定了差异化的策略。

在智能汽车领域,安谋科技关注智舱一体等趋势,提供了全面的IP解决方案。这包括用于渲染显示的GPU、用于处理摄像头数据的前级处理器以及用于安全相关功能的安全处理器(SPU)。特别值得一提的是,“周易”NPU具备20到320TOPS的可扩展性,以满足不同场景下的算力需求。例如,在汽车信息娱乐系统(IVI)场景中,算力要求相对较低;而在高级驾驶辅助系统(ADAS)场景中,由于需要执行多任务特别是CNN场景下的任务,算力需求则显著提升。“周易”NPU的灵活性使其能够适应各种汽车场景并实现完整端到端的解决方案。

对于AI加速卡场景,安谋科技关注输入与输出的高效处理特别是图像和视频数据的输入与AI计算的输出。加速卡具备HOST AP交互能力并强调安全性如JPEG解码能力和根据实际需求定制的NPU。根据应用场景的不同如NVMe存储形式、车载或手机等TDP功耗和算力需求也会有所差异。能效比是一个重要考虑因素例如在5瓦TDP功耗下有效算力可达25TOPS左右。整个解决方案多样不仅针对语言模型还着眼于未来多模态模型的需求。

在AIOT场景中算力需求相对较低但受到AIOT设备面积和功耗的限制。然而对安全性的要求却更高包括固件和安全性的强化。与服务器或板卡等密封形式不同AIOT场景对安全性的需求进一步提升。安谋科技的“周易”NPU能够在此类场景中提供20TOPS到320TOPS的算力裁减主要用于声音和图象的检测。考虑到端侧可能放置较低精度的模型以保证量化效果整个解决方案在保障安全的同时也通过一定算力的内容对语音类场景进行AI加速。

随着技术的不断进步和创新,未来的智能设备将更加智能、高效和便捷。NPU也将在这一过程中发挥更加重要的作用。据悉安谋科技的下一代“周易”NPU在生态上已广泛部署了Wenxin、Llama、GPT等模型,并在端侧覆盖了平板电脑(PAD)、PC、手机(Mobile)等各类场景。对于智能汽车领域无论是IVI还是ADAS场景都能根据实际算力需求和模型提供针对性的解决方案最高可达320TOPS的算力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38164

    浏览量

    296858
  • NPU
    NPU
    +关注

    关注

    2

    文章

    358

    浏览量

    20845
  • AIGC
    +关注

    关注

    1

    文章

    391

    浏览量

    3153
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    安谋科技:NPU技术创新,拉动AI算力落地引擎

    X3 NPU IP以及生态建设、NPU发展趋势等话题。   图:安谋科技产品总监鲍敏祺   周易X3 NPU IP正当时   安谋科技周易X3 NPU IP面向
    的头像 发表于 12-09 16:44 4789次阅读
    安谋科技:<b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>NPU</b>技术创新,拉动<b class='flag-5'>AI</b>算力落地引擎

    隼瞻科技:以DSA技术为核,IP+EDA工具双驱,赋能AI NPU算力效率跃升

    设计的需求变化,以及隼瞻科技自研EDA、IP产品如何积极助力客户成功等话题。   AI芯片设计的   “隼瞻科技定位于服务半导体设计
    的头像 发表于 12-05 13:37 4745次阅读

    5G网络通信有哪些技术

    ,这些技术使得5G网络能够满足未来物联网、智能制造、自动驾驶等领域对高速、低时延、高可靠性的通信需求。 5G网络通信有哪些技术? 5G网络通信经过多年的高速发展,仍有一些技术
    发表于 12-02 06:05

    新唐科技基于AI MCU M55M1的智慧门禁解决方案介绍

    针对上述,新唐科技推出基于AI MCU M55M1的智慧门禁解决方案,通过本地AI算力、
    的头像 发表于 11-25 07:43 9702次阅读
    新唐科技基于<b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b> MCU M55M1的智慧门禁解决方案介绍

    半导体领域: AI 芯片成产业化核心引擎

    AI 芯片在多领域实现技术突破与规模应用,A 股相关上市公司业绩与研发投入均呈现显著增长态势。 在技术创新层面,架构升级与先进工艺双轮驱动能效比突破。炬芯科技率先实现存内计算技术量产,
    的头像 发表于 10-10 18:01 5356次阅读

    AI体验跃迁,天玑9500用双NPU开创AI新时代

    AI 正从“尝鲜”迈向“常用”,下一代体验该由谁定义?联发科天玑9500给出答案:行业首发将 AI 4K 文生图带到手机,引领移动影像与创造力的范式跃迁。 全新“超性能 + 超能效
    的头像 发表于 09-24 14:47 520次阅读
    <b class='flag-5'>AI</b>体验跃迁,天玑9500用双<b class='flag-5'>NPU</b>开创<b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b>新时代

    AI需求大爆发!安谋科技发布新一代NPU IP,赋能AI终端应用

    ,汽车自动驾驶的本地决策,都依赖算力提升,这对AI SoC的性能带来挑战,上游IP厂商的新品可以给SoC厂商带来最新助力。 7月9日,在上海张江举办的
    的头像 发表于 07-11 01:16 8367次阅读
    <b class='flag-5'>端</b><b class='flag-5'>侧</b><b class='flag-5'>AI</b>需求大爆发!安谋科技发布新一代<b class='flag-5'>NPU</b> IP,赋能<b class='flag-5'>AI</b>终端应用

    华邦电子创新存储赋能智能

    人工智能技术的飞速发展,#AI 正在成为智能设备发展的重要趋势。华邦电子正凭借卓越存储技术和丰富的产品,积极布局端
    的头像 发表于 05-14 09:59 1099次阅读
    华邦电子创新存储赋能<b class='flag-5'>端</b><b class='flag-5'>侧</b>智能<b class='flag-5'>端</b><b class='flag-5'>侧</b>

    苹芯科技 N300 存算一体 NPU,开启 AI 新征程

    随着人工智能技术的爆发式增长,智能设备对本地算力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约A
    的头像 发表于 05-06 17:01 865次阅读
    苹芯科技 N300 存算一体 <b class='flag-5'>NPU</b>,开启<b class='flag-5'>端</b><b class='flag-5'>侧</b> <b class='flag-5'>AI</b> 新征程

    首创开源架构,天玑AI开发套件让AI模型接入得心应手

    时间。 这不仅仅是工具的升级,更是迈向智能体化用户体验的关键基础设施。 天玑AI开发套件 2.0,全面释放天玑AI能力 去年,天玑
    发表于 04-13 19:52

    AI大模型侧部署正当时:移远端AI大模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI大模型的应用正从云端向加速渗透。 作为全球领先的物联网整体解决方案供应商,移远通信凭借深厚的技术积累与前瞻性的战略布局,在
    发表于 03-27 11:26 430次阅读
    <b class='flag-5'>AI</b>大模型<b class='flag-5'>端</b>侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大模型解决方案,激活场景智能新范式

    AI大模型侧部署正当时:移远端AI大模型解决方案,激活场景智能新范式

    AI技术飞速发展的当下,AI大模型的应用正从云端向加速渗透。作为全球领先的物联网整体解决方案供应商,移远通信凭借深厚的技术积累与前瞻性的战略布局,在
    的头像 发表于 03-26 19:05 996次阅读
    <b class='flag-5'>AI</b>大模型<b class='flag-5'>端</b>侧部署正当时:移远端<b class='flag-5'>侧</b><b class='flag-5'>AI</b>大模型解决方案,激活场景智能新范式

    AI 音频处理器:集成音频处理与 AI 计算能力的创新芯片

    对人工智能应用日益增长的需求。   集成音频处理与 AI 计算能力 AI 音频处理器的组成结构通常较为复杂,常采用多核异构架构,将不同类型的处理器核心组合在一起,从而高效处理各种
    的头像 发表于 02-16 00:13 3079次阅读

    软硬协同优化,安谋科技新一代“周易”NPU实现DeepSeek-R1高效部署

    优化的架构设计,beta版本在2024年底已面向早期用户开放评估测试,并获得了广泛认可与积极反馈。 预计今年上半年,这款备受期待的 NPU 产品将正式亮相市场,届时将为更多用户带来突破性的
    发表于 02-14 10:52 297次阅读
    软硬协同优化,安谋科技新一代“周易”<b class='flag-5'>NPU</b>实现DeepSeek-R1<b class='flag-5'>端</b><b class='flag-5'>侧</b>高效部署

    广和通开启AI新时代

    AI发展正酣,随着终端芯片算力越来越高、模型能力越来越强、实时响应及隐私保护的应用需求增加,
    的头像 发表于 12-12 10:35 1294次阅读