0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔四大层面,提升DeepRec训练和推理能力

英特尔中国 来源:英特尔中国 作者:英特尔中国 2022-07-10 10:56 次阅读

从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始,英特尔就与阿里巴巴PAI团队紧密合作,将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速),为 DeepRec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。

四大层面,提升DeepRec 训练和推理能力

自英特尔 至强 可扩展处理器问世以来,通过从 AVX-256 升级到 AVX-512,英特尔将 AVX 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16 (BF16) 数据类型的指令集,也应用到 DeepRec 的优化中。

框架优化:DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library),该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用,可显著提高模型训练和推理性能。

算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 AVX-512 指令加以优化后,大幅提升了数据读写效率和性能。

子图优化:图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下,DeepRec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 AVX-512 指令加速,实现了子图性能的明显提升。

模型优化:基于CPU 平台,英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明:基于 Criteo 数据集,使用BF16优化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的训练性能提升达1.4倍,效果显著。

未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 CPU 解决方案。

当然,英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9425

    浏览量

    168831
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10443

    浏览量

    206565

原文标题:发挥CPU平台硬件优势,英特尔助力DeepRec优化超大规模稀疏训练

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔Gaudi 3 AI芯片:5nm工艺设计,训练推理皆强

    此外,英特尔在发布会上还宣布更改旗下数据中心CPU产品名称:原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售,并支持性能提升后的标准化 MXFP4 数据格式。
    的头像 发表于 04-10 11:10 188次阅读

    英特尔:2025年全球AIPC将超1亿台占比20%

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月29日 09:15:26

    英特尔1nm投产时间曝光!领先于台积电

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月28日 16:28:32

    英特尔再创辉煌!1.4nm芯片工艺领航微电子时代,工业界的新里程碑?

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月26日 08:58:21

    英特尔登顶2023年全球半导体榜单之首

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月01日 11:55:16

    英特尔酷睿14代处理器系列发布,Arrowlake/LunarLake24年问世

    处理器英特尔
    looger123
    发布于 :2024年01月10日 17:44:38

    CPU也可以完美运行大模型 英特尔第五代至强重磅发布

    大语言模型(LLM)已经在多个领域展示出了卓越的性能和巨大的潜力,然而,要想真正发挥出这些模型的强大能力,需要强大的算力基础设施,而芯片是关键。 千呼万唤始出来,第五代英特尔®️ 至强®️ 可扩展
    的头像 发表于 12-22 11:52 381次阅读
    CPU也可以完美运行大模型 <b class='flag-5'>英特尔</b>第五代至强重磅发布

    #高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

    高通英特尔苹果
    深圳市浮思特科技有限公司
    发布于 :2023年10月27日 16:46:07

    深度学习框架区分训练还是推理

    深度学习框架区分训练还是推理吗 深度学习框架是一个非常重要的技术,它们能够加速深度学习的开发与部署过程。在深度学习中,我们通常需要进行两个关键的任务,即训练推理
    的头像 发表于 08-17 16:03 1031次阅读

    安装OpenVINO工具套件英特尔Distribution时出现错误的原因?

    安装OpenVINO™工具套件英特尔 Distribution时,出现错误: Python 3.10.0.ECHO is off. Unsupported Python version.
    发表于 08-15 08:14

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理英特尔Xeon可扩展处理器约占运行AI推理的处理器
    发表于 08-04 07:25

    英特尔媒体加速器参考软件Linux版用户指南

    英特尔媒体加速器参考软件是用于数字标志、交互式白板(IWBs)和亭位使用模型的参考媒体播放器应用软件,它利用固定功能硬件加速来提高媒体流速、改进工作量平衡和资源利用,以及定制的图形处理股(GPU)管道解决方案。该用户指南将介绍和解释如何为Linux* 使用英特尔媒体加速器
    发表于 08-04 06:34

    英特尔面向中国市场发布Gaudi2处理器,加速大模型训练推理

    推出的Gaudi2 AI加速器,将通过其合作伙伴浪潮提供给中国客户。   Gaudi2在训练推理上的出色表现   英特尔此次推出的Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础
    的头像 发表于 07-17 00:01 1284次阅读
    <b class='flag-5'>英特尔</b>面向中国市场发布Gaudi2处理器,加速大模型<b class='flag-5'>训练</b>和<b class='flag-5'>推理</b>

    英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍,尽释AI加速潜能

    科技赋能千行百业 人民网携手英特尔启动“数智加速度”计划 WAIC 2023:英特尔以技术之力推动边缘人工智能发展,打造数字化未来“芯”时代 英特尔 AMX 加速AI推理性能,助阿里电
    的头像 发表于 07-14 20:10 272次阅读
    <b class='flag-5'>英特尔</b>® AMX 助力百度ERNIE-Tiny AI<b class='flag-5'>推理</b>性能<b class='flag-5'>提升</b>2.66倍,尽释AI加速潜能

    英特尔全新Gaudi2处理器面世中国市场,加速大规模深度学习训练推理

    ,Gaudi2致力于以领先的性价比优势,加速AI训练推理,为中国用户提供更高的深度学习性能和效率,从而成为大规模部署AI的更优解。 英特尔于中国市场推出Gaudi2深度学习加速器 “ 英特尔
    的头像 发表于 07-14 20:10 380次阅读
    <b class='flag-5'>英特尔</b>全新Gaudi2处理器面世中国市场,加速大规模深度学习<b class='flag-5'>训练</b>与<b class='flag-5'>推理</b>