0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Kleidi加速AI发展

Arm社区 来源:Arm社区 2024-09-14 09:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Arm 开发者平台副总裁 Geraint North

在持续快速发展的人工智能 (AI) 时代,我们坚定地支持全球数百万开发者,确保他们能够获得所需的性能、工具和软件库,从而顺利打造下一波令人惊叹的 AI 体验。

为此,我们推出了 Arm Kleidi,这是一项广泛的软件和软件社区参与计划,旨在加速 AI 发展。其中的第一个举措是推出面向热门 AI 框架的 Arm Kleidi 软件库。这使开发者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球从云端到边缘侧的大多数 AI 推理工作负载都在这些 Arm CPU 上运行。开发者可以借助 Arm 超过 20 年的架构创新,从 Armv7 架构首次引入高级单指令多数据 (SIMD) 扩展以支持机器学习 (ML) 工作负载,到如今的 Armv9 架构在 Arm CPU 上囊括了加速和保护高级生成式 AI 工作负载的功能,这些创新持续推动 AI 能力和性能的提升。

Kleidi 软件库包含面向 AI 工作负载的 KleidiAI 和面向运行于 Arm CPU 上出色的计算机视觉工作负载的 KleidiCV。该软件库可以被直接嵌入到热门的 AI 框架中,开发者无需进行任何操作。如此一来,开发者可以轻松地启用 Arm CPU 的 AI 功能,从而快速构建 AI 应用,并在尽可能广泛的设备上实现最出色性能。

加速 AI 发展

为了应对设备类型、神经网络和推理引擎的爆发式增长,KleidiAI 是我们所给出的解决方案。它由一系列高度优化的 AI 内核组成,可在生成式 AI 等用例中实现高性能。KleidiAI 的优势在于,我们不会给开发者额外增加工作量,而是直接与领先的 AI 框架合作,包括 MediaPipe(通过 XNNPACK)、LLAMA.cpp、PyTorch(通过 ExecuTorch)和 TensorFlow Lite(通过 XNNPACK),以集成 KleidiAI。这不仅加快了开发流程,并释放了 AI 性能,为开发者提供了默认的高性能,使他们能够顺利地打造出色的 AI 体验。KleidiAI 还提供了前瞻性的兼容性,随着我们推出更多的技术,这将确保开发者能够充分利用未来 AI 加速机会。

KleidiAI 的集成已经为生成式 AI 工作负载带来了显著的性能提升。与参考实现方案(基于 llama.cpp,但不含我们的软件 Kleidi 优化)相比,在新的 Arm Cortex-X925 CPU 上,使用(集成了 KleidiAI 的)llama.cpp 的 Meta Llama 3 和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了 190%。KleidiAI 非常易于集成,Arm 的工程团队只用不到 24 小时就测出了 Llama 3 的优化性能。此外,KleidiAI 还通过 XNNPACK 与 MediaPipe 集成,为在移动设备上运行的开源 Gemma LLM 提供支持。得益于此,Google Pixel 8 Pro 智能手机上 Gemma 2B 的词元首次响应时间缩短了 25%。

与此同时,我们正在与 Unity 合作开发 Sentis,这是一个端侧 AI 推理引擎,可让游戏开发者在所有支持 Unity 游戏引擎的设备上打造创新的 AI 游戏体验。在集成 KleidAI 后,Unity Sentis 成功启用了 int4 量化功能,将模型内存占用率降低了 72.5%,同时在运行 Phi-2 LLM 时性能提升了 660%。

加速计算机视觉发展

KleidiCV 能够加速许多摄像头用例中的计算机视觉管线。OpenCV 是全球最大的计算机视觉库,包含 2,500 多种算法,为数十万开发者提供支持。基于 KleidiCV 集成,OpenCV 发现各种图像处理任务的典型性能提升高达 75%。作为我们与 OpenCV 的战略软件合作关系[1]的一部分,我们还首次将安卓构建引入 Maven Central,这是一个面向 Java 开发的开源软件组件、软件库的资源库。

CPU 上的 AI 优势

Arm Kleidi 专注于加速 CPU 上的 AI 功能,因为在大多数情况下,所有 AI 工作负载都会从CPU 上开始运行。这使得 CPU 成为开发者在为其 AI 工作负载设定目标时的最便捷路径。因此,我们为开发者提供的这一路径性能越出色,他们就更有可能在开发过程中继续使用 CPU 并将其作为目标。此外,随着 LLM 变得更小更高效,越来越多的 AI 工作负载将适合在 CPU 上处理。最终,开发过程将变得更加顺畅、无缝,进而优化开发者的 AI 工作负载性能。

在 Arm 平台上构建 AI 的未来

Arm Kleidi 的推出再次突显了 Arm 作为端侧生成式 AI 计算平台的领先地位。它使开发者无需学习额外的工具和技能,就能够在非常广泛的硬件中获得 Arm CPU 的出色 AI 性能。随着我们不断创新,持续为新一代 AI 打造前沿架构,开发者未来将能够获得更强大、更先进的 AI 功能。对于最终用户来说,这意味着更快速、更智能、更具交互性、更沉浸式、更安全的出色 AI 体验。

Arm Kleidi 的推出只是一个开端,我们未来还计划推出更多软件库、计算内核和引擎集成。我们将持续在 Arm 平台上构建 AI 的未来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9588

    浏览量

    393675
  • AI
    AI
    +关注

    关注

    91

    文章

    41115

    浏览量

    302608
  • 开发者
    +关注

    关注

    1

    文章

    780

    浏览量

    18066

原文标题:Arm Kleidi 助力 AI 开发者加速创新

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm AGI CPU加速新一代基础设施建设

    近期,Arm 推出 Arm AGI CPU,一款由 Arm 自主设计、面向人工智能 (AI) 数据中心的 CPU,旨在满足日益增长的代理式 AI
    的头像 发表于 04-09 15:55 320次阅读

    Arm CPU推动数据中心业务正加速发展

    在过去十年中的大部分时间里,数据中心领域的话题都围绕着加速器展开。随着人工智能 (AI) 训练工作负载的爆炸式增长,GPU、TPU 等占据了新闻头条、投资者报告和基础设施路线图的核心位置。而如今
    的头像 发表于 03-24 10:15 476次阅读

    NVIDIA携手微软加速机器人和物理AI发展

    在 GTC 大会上,微软宣布了其代理式和物理 AI 系统统一平台的更新,加速从实验到生产落地的进程。将 Microsoft Foundry 与 NVIDIA 开放模型和加速计算相结合,创建了统一的软件栈,在满足严格的数据主权要求
    的头像 发表于 03-23 15:21 967次阅读

    使用NORDIC AI的好处

    <5 KB),可在任何 Nordic SoC/SiP 的主 CPU 上运行,适合加速度计、IMU、PPG、温度、电流等时序传感器数据的 AI 任务。[Nordic Edge AI 技术页
    发表于 01-31 23:16

    西门子EDA与Arm携手合作加速系统设计验证进程与软件启动

    对芯片设计而言,加速产品的上市流程至关重要。为此,西门子EDA与Arm携手合作,为Arm的合作伙伴提供了一系列基于Arm Neoverse CSS与
    的头像 发表于 12-19 09:06 880次阅读
    西门子EDA与<b class='flag-5'>Arm</b>携手合作<b class='flag-5'>加速</b>系统设计验证进程与软件启动

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI发展历程吗?本章作者将为我们打开AI发展历程以
    发表于 09-12 16:07

    Arm神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,移动设备上实现PC级别的AI图形性能

    Arm 神经技术是业界首创在 Arm GPU 上增添专用神经加速器的技术,首次在移动设备上实现 PC 级别的 AI 图形性能,为未来的端侧 AI
    的头像 发表于 08-14 17:59 2929次阅读

    Arm 洞察与思考:为什么 AI 向边缘迁移的速度超乎想象

    ,人们不再质疑边缘 AI 是否能实现规模化——它已然成为现实。 Arm 最新发布了《AI 效率热潮:更小的模型与加速的计算正驱动 AI 无处
    的头像 发表于 08-11 14:43 14.8w次阅读

    Arm KleidiAI与XNNPack集成实现AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已过去整整一年。KleidiAI 是一款高度优化的软件库,旨在加速 Arm CPU 上的人工智能 (AI) 推理。在过去一年中
    的头像 发表于 08-08 15:19 3112次阅读
    <b class='flag-5'>Arm</b> KleidiAI与XNNPack集成实现<b class='flag-5'>AI</b>性能提升

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能
    的头像 发表于 07-28 11:33 1331次阅读
    WAIC 直击|<b class='flag-5'>Arm</b> 邹挺:突破基础设施、数据安全与人才三重挑战,释放 <b class='flag-5'>AI</b> <b class='flag-5'>发展</b>新潜能

    Arm Kleidi助力轻松加速AI工作负载

    正如 Arm 工程部软件高级副总裁 Mark Hambleton 在《2025 年芯片新思维》报告中所说:人工智能 (AI) 的未来发展离不开软硬件的协同。
    的头像 发表于 06-19 10:45 1083次阅读

    Arm 与微软合作,为基于 Arm 架构的 PC 和移动设备应用提供超强 AI 体验

    ArmKleidiAI与ONNXRuntime的集成,为Windows和安卓操作系统带来了显著的AI性能优化,实现高达2.6倍的AI推理速度提升,从而加速应用体验。联合作者:Arm终端
    的头像 发表于 06-03 16:47 993次阅读
    <b class='flag-5'>Arm</b> 与微软合作,为基于 <b class='flag-5'>Arm</b> 架构的 PC 和移动设备应用提供超强 <b class='flag-5'>AI</b> 体验

    Arm 公司面向 PC 市场的 ​Arm Niva​ 深度解读

    子系统(CSS)​ ​ 的垂直领域延伸,Niva 旨在通过软硬件深度整合,解决传统 x86 架构在能效比、AI 加速与生态兼容性上的痛点。以下结合技术架构、性能突破、竞争格局与战略意义展开分析: 一、技术架构
    的头像 发表于 05-29 09:56 1880次阅读

    Arm与微软合作加速边缘设备上的AI体验

    随着人工智能 (AI) 成为当今个人电脑 (PC) 和移动设备使用体验(从聊天机器人到生产力提升)中不可或缺的一部分,这些设备对 CPU 高效、可扩展的推理需求也在持续增长。Arm 与微软正携手合作
    的头像 发表于 05-28 13:54 931次阅读

    NVIDIA携手微软加速代理式AI发展

    代理式 AI 正在重新定义科学探索,推动各行各业的研究突破和创新发展。NVIDIA 和微软正通过深化合作提供先进的技术,从云到 PC 加速代理式 AI 应用的
    的头像 发表于 05-27 14:03 1230次阅读