0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

提高AI算力,异构优化也是关键

英特尔中国 来源:英特尔中国 2023-03-12 09:16 次阅读

近期,劲爆亮相的ChatGPT着实让人们眼前一亮,让普罗大众也“亲密”体验了人工智能AI)的神奇魔力,窥见了智能未来的璀璨前景之一斑。

然而,就在这离生活愈来愈近的AI让人们对未来充满无限憧憬、满怀激动的同时,也有冷静的分析指出,诸如ChatGPT等AI规模应用也是一个“吞金兽”,其带来的不仅仅是让人急呼“AI算力告急”的算力消耗(有研究显示,中国智能算力需求规模,到2026年就将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS,从2021到2026年,年复合增长率将达52.3%1);更有从云端、边缘到终端广泛AI应用场景,使得IT运营环境日益复杂和多样,让各种AI方案在异构平台获得便捷、易用且有效优化成为急迫的需求。

异构计算,主要指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,在云数据中心、边缘计算场景等有着广泛应用。

异构计算的兴起与工作负载密切相关,在能有效发挥异构计算优势的应用场景中,人工智能场景可谓是典型的代表场景之一,不管是深度学习训练,还是深度学习推理,都会进行大量矩阵运算,需要异构计算提供更有力支撑;而随着AI应用快速走向边缘,由此引致的云边端协同,对异构计算提出了更高要求。计算平台在提升自身算力水平的同时,也需要通过提供优化策略,帮助用户更好地提升AI方案的性能,助力AI应用降本增效。

腾讯云创新打造TACO Kit套件,为AI应用提供异构加速

为帮助广大用户应对日益复杂的异构环境给AI应用带来的挑战,腾讯云创新推出计算加速套件TACO Kit (TencentCloud Accelerated Computing Optimization Kit),通过在异构硬件平台上提供全栈式的软硬件解决方案的模式,为AI方案设计者、AI开发人员以及AI使用者构建全新的异构计算加速软件服务,助其借助多元化异构、高性能加速框架、离线虚拟化技术以及灵活的商业模式,轻松驾驭多元算力,助力AI应用全方位、全场景降本增效。

而作为异构加速服务的入口,TACO Kit内置AI推理加速引擎TACO Infer,能针对AI应用中不同的训练和服务框架、个性的优化实践和使用习惯、各异的软件版本和硬件偏好,以计算加速、无感接入和鲁棒易用的特性和优势,帮助用户一站式解决AI模型在生产环境中部署与应用的痛点。

94f5a4c2-c072-11ed-bfe3-dac502259ad0.png

图一 AI推理加速引擎TACO Infer

TACO Infer引擎具备的功能特性包括:

■无感集成:可跨平台透明适配CPUGPU、NPU等异构芯片;尊重用户使用习惯,无需改变模型源格式;无需进行IR(Intermediate Representation,中间表示)转换,对无显式算子结构模型友好;

■基于原生框架Runtime:可基于多种流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等运行;可基于框架原Runtime构建,并可充分利用框架自定义的扩展机制;

■无缝对接服务框架:包括TF Serving、Triton以及TorchServe等。

基于以上特性,无论在何种场景中,用户在硬件平台上部署AI应用,都只需要进行简单地前端交互,就能让TACO Kit在后台以最佳模式启动工作负载,并获得更优的推理性能。

而这一优异推理性能的获得,离不开英特尔和腾讯云面向TACO Kit开展的深度协作加持。具体讲,就是将英特尔 Neural Compressor集成到TACO Kit之中,来大幅提升AI推理性能,加速各类AI应用便捷高效落地。

英特尔 Neural Compressor提供优化支持,助力TACO Kit加速推理

英特尔 Neural Compressor是英特尔开源的神经网络模型压缩库,不仅面向如量化、修剪以及知识提取等主流模型压缩技术,提供了跨多个深度学习框架的统一接口,还具有以下模型性能调优特性:

■具备由精度驱动的自动化调整策略,帮助用户快速获得最佳量化模型;

■可使用预定义的稀疏性目标生成修剪模型,实现不同的权重修剪算法

■能够从更大的网络(“教师”)中提取知识用于训练更小的网络(“学生”),实现更小的精度损失。

英特尔和腾讯云协作,通过插件的方式将英特尔 Neural Compressor集成到TACO Kit,让TACO Kit充分利用英特尔 Neural Compressor的优势特性。如图二所示,利用量化压缩技术来为不同的深度深度框架(如TensorFlow、PyTorch、ONNXRuntime等)提供统一的模型优化 API,便捷实现模型推理优化(由FP32数据类型量化为INT8数据类型)。同时,也可以利用压缩库内置的精度调优策略,根据不同的模型内部结构生成精度更佳的量化模型,帮助用户大幅降低模型量化的技术门槛,并有效提升AI模型的推理效率。

9533478c-c072-11ed-bfe3-dac502259ad0.png

图二 集成英特尔 Neural Compressor后的TACO Kit工作流程

在云端部署时,量化后的模型可通过英特尔 至强 可扩展平台内置的英特尔 DL Boost,来获得有效的硬件加速和更高的推理效率。以指令集中的vpdpbusd指令为例,以往需要3条指令(vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加过程,现在仅需1条指令(vpdpbusd)即可,并能够消除运行过程中的处理器饱和问题,再辅之以乘加过程中的中间数值直接从内存播送,可使得处理性能达初始FP32模型的4倍2。这无疑为TACO Kit加速推理,进而帮助用户在异构环境更高效地构建和部署AI提供了关键助力。

9552c080-c072-11ed-bfe3-dac502259ad0.png

图三 英特尔 DL Boost(AVX-512_VNNI)技术

方案验证显真实性能,展异构AI加速优势

那么,集成英特尔 Neural Compressor后的TACO Kit的性能究竟有何等惊艳提升呢?实践最有发言权,数据最有说服力。套件打造完成后,英特尔与腾讯云一起选取了多种被广泛应用的自然语言处理深度学习模型,对TACO Kit性能加速进行了验证测试。

测试中,各个深度学习模型在通过TACO Kit进行优化后,使用英特尔 Neural Compressor进行INT8量化及性能调优,推理性能加速结果令人满意。如图四所示3,在保持精度水平基本不变的情况下,各深度学习模型的推理性能均获得显著提升,提升幅度从55%到139%不等,在其中的bert-base-uncased-mrpc场景中,推理性能更是达到了基准值的2.39倍。

957e82ba-c072-11ed-bfe3-dac502259ad0.png

图四 集成英特尔 Neural Compressor的TACO Kit所带来的推理性能加速4

对TACO Kit引入英特尔 Neural Compressor获得的大幅性能加速,腾讯云异构计算专家级工程师叶帆直言,这一合作成果能帮助不同角色的用户在异构硬件平台上获得便捷、易用且经过有效优化的 AI 加速能力,助力AI 应用实现全方位、全场景的降本增效。而英特尔 Neural Compressor 是 TACO Kit 中 AI 推理负载获得充分性能加速的有效技术保证。

基于这一成果,英特尔和腾讯云也将面向未来继续深化合作,通过融合硬件厂商优化算子、自研AI编译技术升级等措施,驱动TACO Infer在软硬件兼容性和性能上不断迭代优化。同时,双方还计划进一步将第四代英特尔 至强 可扩展平台及其内置的深度学习加速技术与腾讯计算加速套件TACO Kit相融合,借助新平台更为澎湃的算力输出与深度学习加速新技术,为用户提供更加高效可用的异构AI加速能力,进而在推动AI走向更广泛应用的同时,助力应对多模态大模型等对算力提出的更严峻挑战,驱动智能应用向纵深化演进,为经济社会的高质量发展提供强劲数字生产力。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9421

    浏览量

    168826
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264052
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230605

原文标题:提高AI算力,异构优化也是关键

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NanoEdge AI的技术原理、应用场景及优势

    ,可以实现对交通状况的实时分析和优化提高道路通行效率。 4.医疗健康:在医疗设备和可穿戴设备中应用 NanoEdge AI,可以实现对患者健康状况的实时监测和预警,提高医疗服务质量。
    发表于 03-12 08:09

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 221次阅读

    iBeLink KS MAX 10.5T大领跑KAS新领域

    有8G的显存,可以处理复杂的算法,提高挖掘稳定性。iBeLink ks max10.5T的超大特点是它的高效节能,它采用了先进的“存一体”高通量芯片,专为“大型复杂”的区的块的链
    发表于 02-20 16:11

    请问用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?

    来自一位用户的咨询,麻烦帮忙解答,越详细越好,有图有真相,可以适当提供一些英飞凌解决方案和产品推荐。 用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量? 未来电动汽车会使用SOC来代替大量MCU?
    发表于 02-02 07:16

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    异构专用AI芯片的黄金时代

    异构专用AI芯片的黄金时代
    的头像 发表于 12-04 16:42 288次阅读
    <b class='flag-5'>异构</b>专用<b class='flag-5'>AI</b>芯片的黄金时代

    什么是异构集成?什么是异构计算?异构集成、异构计算的关系?

    异构集成主要指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能。
    的头像 发表于 11-27 10:22 2941次阅读
    什么是<b class='flag-5'>异构</b>集成?什么是<b class='flag-5'>异构</b>计算?<b class='flag-5'>异构</b>集成、<b class='flag-5'>异构</b>计算的关系?

    强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    地结合业务需求生成算法,并结合国产AI边缘计算算设备进行移植优化,是解决AI产品国产化,并
    发表于 09-25 10:03

    AI智能呼叫中心

    实际情况进行资源的自动调度和优化,从而进一步提高工作效率和降低人力成本。总结,AI智能呼叫中心凭借自动化处理、个性化服务、数据驱动决策以及节约成本等一系列优势,为企业建立了更加高效、智能的服务系统,随着
    发表于 09-20 17:53

    Vitis AI优化器指南

    电子发烧友网站提供《Vitis AI优化器指南.pdf》资料免费下载
    发表于 09-14 11:04 0次下载
    Vitis <b class='flag-5'>AI</b><b class='flag-5'>优化</b>器指南

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    面向多媒体 AI 增强场景的 RISC-V 全栈软硬件平台。 该平台将 RISC-V 扩展性的新型 Vector、Matrix 及第三方硬件进行抽象,并接入 OpenCV 与 CSI-NN 等弹性
    发表于 08-26 14:14

    新一代计算架构超异构计算技术是什么 异构走向超异构案例分析

    异构计算架构是一种将不同类型和规模的硬件资源,包括CPU、GPU、FPGA等,进行异构集成的方法。它通过独特的软件和硬件协同设计,实现了计算资源的灵活调度和优化利用,从而大大提高了计
    发表于 08-23 09:57 456次阅读
    新一代计算架构超<b class='flag-5'>异构</b>计算技术是什么 <b class='flag-5'>异构</b>走向超<b class='flag-5'>异构</b>案例分析

    AI芯片 CPU+xPU的异构方案全面解析

    CPU+xPU 的异构方案成为大算力场景标配,GPU为应用最广泛的 AI 芯片。目前业内广泛认同的AI 芯片类型包括GPU、FPGA、NPU 等。由于 CPU 负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计
    发表于 08-22 10:11 864次阅读
    <b class='flag-5'>AI</b>芯片 CPU+xPU的<b class='flag-5'>异构</b>方案全面解析

    异构计算场景下构建可信执行环境

    令集、不同功能的单元,组合起来形成一个混合的计算系统,使其具有更强大、更高效的功能。如何在异构计算场景下构建可信执行环境呢?华为可信计算首席科学家、IEEE硬件安全与可信专委会联席主席金意儿教授在第一届
    发表于 08-15 17:35