0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高通:未来几个月有望在终端侧运行超100亿参数的模型

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-07-26 00:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)日前,在2023世界半导体大会暨南京国际半导体博览会上,高通全球副总裁孙刚发表演讲时谈到,目前高通能够支持参数超过10亿的模型在终端上运行,未来几个月内超过100亿参数的模型将有望在终端侧运行。

大模型在终端侧运行的重要性

生成式AI正在快速发展,数据显示,2020年至2022年,生成式AI相关的投资增长425%,初步预估生成式AI市场规模将达到1万亿美元。

然而孙刚指出,云经济难以支持生成式AI规模化拓展,为实现规模化拓展,AI处理的中心正在向边缘转移。比如XR、汽车、手机、PC、物联网,生成式AI将影响各类终端上的应用。

高通在这方面展示出了领先的优势,高通AI引擎由多个硬件和软件组件组成,用于在骁龙移动平台上为终端侧AI推理加速。它采用异构计算架构,包括高通Hexagon处理器Adreno GPU、Kryo CPU传感器中枢,共同支持在终端上运行AI应用程序。

在7月初的2023年世界人工智能大会上,高通就已经展示了全球首个在终端侧运行生成式AI(AIGC)模型Stable Diffusion的技术演示,和全球最快的终端侧语言-视觉模型(LVM)ControlNet运行演示。这两款模型的参数量已经达到10亿-15亿,仅在十几秒内就能够完成一系列推理,根据输入的文字或图片生成全新的AI图像。

今年7月18日,Meta官宣将发布其开源大模型LLaMA的商用版本,为初创企业和其他企业提供了一个强大的免费选择,以取代OpenAI和谷歌出售的昂贵的专有模型。随后,高通发布公告称,从2024年起,Llama 2将能在旗舰智能手机和PC上运行。

高通技术公司高级副总裁兼边缘云计算解决方案业务总经理Durga Malladi表示,为了有效地将生成式人工智能推广到主流市场,人工智能将需要同时在云端和边缘终端(如智能手机、笔记本电脑、汽车和物联网终端)上运行。

在高通看来,和基于云端的大语言模型相比,在智能手机等设备上运行Llama 2 等大型语言模型的边缘云计算具有许多优势,不仅成本更低、性能更好,还可以在断网的情况下工作,而且可以提供更个性化、更安全的AI服务。

如何让大模型在终端规模化扩展

生成式AI进入未来生活的趋势已经不可阻挡,为了让生成式AI规模化扩展到更多终端设备中,高通提出了混合AI架构的运行方式,即在云端和设备终端的边缘侧之间分配算力,协同处理AI工作负载。

所谓混合AI,是指充分利用边缘侧终端算力支持生成式AI应用的方式,相比仅在云端运行的AI,前者能够带来高性能、个性化且更安全的体验。

比如,如果模型、提示或生成内容的长度小于某个限定值,且精度足够,推理就可以完全在终端侧进行;如果任务相对复杂,则可以部分依靠云端模型;如果需要更多实时内容,模型也可以接入互联网获取信息。

在未来,不同的生成式AI用不同分流方式的混合AI架构,AI也能在此基础上持续演进:
‍大量生成式AI的应用,比如图像生成或文本创作,需求AI能够进行实时响应。在这种任务上,终端可通过运行不太复杂的推理完成大部分任务。

在AI计算的实现上,软件和硬件同样重要,因为必须在端侧做到运算更快,效率更高,并推动AI应用在广泛终端上的部署和普及。

高通在2022年6月推出AI软件栈(Qualcomm AI Stack),其支持包括TensorFlow、Pytorch和ONNX在内的所有主流开发框架,所有runtimes(运行时,即某门编程语言的运行环境)和操作系统。借助高通AI软件栈,开发者在智能手机领域开发的软件可以快速扩展至汽车、XR、可穿戴设备等其他产品线进行使用。

高通技术公司产品管理高级副总裁兼AI负责人Ziad Asghar表示,未来公司需要加大终端侧技术上的研发,尤其是进一步提升量化的算法。例如服务器上训练的模型一般采用32位浮点运算(FP32),而我们在手机端现在能够支持INT4计算,这能大大提高端侧的处理能力。

小结

不仅仅是大模型的训练需要极大的算力和功耗,部署也同样如此。如果要让大模型在更多的领域实现落地应用,除了在云端部署之后,在终端侧部署也很关键。目前已经有诸多厂商在该领域进行探索,包括高通,期待未来大模型能够走进人们生活的方方面面。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高通
    +关注

    关注

    78

    文章

    7683

    浏览量

    198694
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广和通发布端情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 1608次阅读

    TPS1HC100-Q1智能开关技术解析与应用指南

    Texas Instruments TPS1HC100-Q1智能高压开关是一款具有全方位保护的电源开关,它集成有NMOS功率FET和电荷泵,专用于对各种负载进行智能控制。凭借着精
    的头像 发表于 09-25 10:19 427次阅读
    TPS1HC<b class='flag-5'>100</b>-Q1智能<b class='flag-5'>高</b><b class='flag-5'>侧</b>开关技术解析与应用指南

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    本章节作者分析了下AI的未来在哪里,就目前而言有来那个两种思想:①继续增加大模型②将大模型改为小模型,并将之优化使之与大模型性能不不相上下。
    发表于 09-14 14:04

    谷歌推出AI模型Gemma 3 270M

    过去几个月,Gemma 开放模型系列的发展是激动人心的。我们推出了 Gemma 3 和 Gemma 3 QAT,为单一云端和桌面加速器带来了最先进的性能。
    的头像 发表于 09-11 15:09 891次阅读

    米尔RK3576部署端多模态多轮对话,6TOPS算力驱动30亿参数LLM

    2 亿参数模型的增量训练; 接入语音能力:main.cpp中集成 VAD(语音活动检测)+ ASR(语音识别,如 Whisper-Tiny INT8)模块,将语音转换为文本后接入现有推理流水线,实现
    发表于 09-05 17:25

    ALINX VD100低功耗端模型部署方案,运行3B模型功耗仅5W?!

    模型运行≠用户体验好。 IDC 预测,到 2026 年,全球超过 50% 的企业 AI 工作负载将部署边缘设备上。 AI 部署逐渐从云端转向边缘端的趋势下,越来越多智能
    的头像 发表于 09-03 14:58 485次阅读
    ALINX VD<b class='flag-5'>100</b>低功耗端<b class='flag-5'>侧</b>大<b class='flag-5'>模型</b>部署方案,<b class='flag-5'>运行</b>3B<b class='flag-5'>模型</b>功耗仅5W?!

    AI的未来,属于那些既能写代码,又能焊电路的“双栖人才”

    的信号:AI真正的未来,不只属于“算法天才”,更属于那些既能写代码,又能焊电路的“双栖工程师”。无论是AI芯片、智能终端、机器人、边缘计算还是大模型下沉的讨论中,我们不断听到同一个问
    发表于 07-30 16:15

    终于有人把端模型说清楚了

    "端"大模型聊具体内容之前,先解释一下这个名字的由来。计算机和通信领域,我们通常把整个系统分为几个层次:云端(Cloud):远程的数
    的头像 发表于 07-24 12:03 1692次阅读
    终于有人把端<b class='flag-5'>侧</b>大<b class='flag-5'>模型</b>说清楚了

    首创开源架构,天玑AI开发套件让端AI模型接入得心应手

    。 Neuron Studio 还支持自动化调优神经网络使用的带宽及性能,开发过程中,将性能和内存占用自动优化至最佳配置。而且,开发者可以全程监控大模型演化过程。以前万组参数手动调优动辄需要一周,而现在
    发表于 04-13 19:52

    通推动终端AI释放全新价值

    通过蒸馏技术将百亿参数模型压缩至端设备可运行的创新,让AI推理成本大幅下降,为终端AI的爆发按下加速键。低成本、
    的头像 发表于 03-21 09:28 999次阅读
    <b class='flag-5'>高</b>通推动<b class='flag-5'>终端</b><b class='flag-5'>侧</b>AI释放全新价值

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速端AI落地

    。   目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速端AI技术各行各业的规模化应用与普及。     DeepSeek : AI
    发表于 02-13 11:32 446次阅读
    移远通信边缘计算模组成功<b class='flag-5'>运行</b>DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力加速端<b class='flag-5'>侧</b>AI落地

    移远通信边缘计算模组成功运行DeepSeek模型,以领先的工程能力加速端AI落地

    。目前,该模型正在多款智能终端上进行深入测试与优化。移远通信将凭借其卓越的工程化能力,加速端AI技术各行各业的规模化应用与普及。DeepSeek:AI
    的头像 发表于 02-12 19:03 765次阅读
    移远通信边缘计算模组成功<b class='flag-5'>运行</b>DeepSeek<b class='flag-5'>模型</b>,以领先的工程能力加速端<b class='flag-5'>侧</b>AI落地

    Kaggle知识点:7种参数搜索方法

    问题。一些常见的参数例子包括梯度基算法中的学习率,或者决策树算法中树的深度,这些可以直接影响模型准确拟合训练数据的能力。参数调优涉及
    的头像 发表于 02-08 14:28 1710次阅读
    Kaggle知识点:7种<b class='flag-5'>超</b><b class='flag-5'>参数</b>搜索方法

    xgboost参数调优技巧 xgboost图像分类中的应用

    一、XGBoost参数调优技巧 XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升决策树(GBDT)的高效梯度提升框架,机器学习竞赛和实际业务应用中取得了卓越
    的头像 发表于 01-31 15:16 2165次阅读

    亿铸科技荣登2024创业邦100未来独角兽榜单

    第16届创业邦100未来独角兽峰会上,亿铸科技以其AI大算力芯片领域的杰出成就和巨大潜力,荣登“2024创业邦
    的头像 发表于 12-28 15:49 1197次阅读