英特尔四大层面，提升DeepRec训练和推理能力-电子发烧友网

从淘宝到天猫应用，从搜索、推荐到广告等场景，对井喷式的数据进行超大规模训练推理的应用，已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测，可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始，英特尔就与阿里巴巴PAI团队紧密合作，将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速)，为 DeepRec 实现了四个层面上的优化：框架优化、算子优化、子图优化和模型优化。

四大层面，提升DeepRec 训练和推理能力

自英特尔至强可扩展处理器问世以来，通过从 AVX-256 升级到 AVX-512，英特尔将 AVX 的能力提高了一倍，极大地提升了深度学习训练和推理能力。第三代英特尔至强可扩展处理器之后，英特尔推出支持 BFloat16 (BF16) 数据类型的指令集，也应用到 DeepRec 的优化中。

框架优化：DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library)，该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用，可显著提高模型训练和推理性能。

算子优化：搜索广告推荐模型中存在着大量稀疏算子，调用 AVX-512 指令加以优化后，大幅提升了数据读写效率和性能。

子图优化：图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下，DeepRec 加入多种子图融合功能，减少大量冗余操作，配合英特尔 AVX-512 指令加速，实现了子图性能的明显提升。

模型优化：基于CPU 平台，英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合，涉及召回、排序、多目标等多种常见场景；并针对硬件平台进行性能优化，相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明：基于 Criteo 数据集，使用BF16优化后，模型WDL精度或AUC可以逼近FP32，并且BF16模型的训练性能提升达1.4倍，效果显著。

未来，英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化，更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化，从而为稀疏场景打造更高性能的 CPU 解决方案。

当然，英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英特尔

英特尔

+关注

关注
60

文章
9425

浏览量
168831
cpu

cpu

+关注

关注
68

文章
10443

浏览量
206565

原文标题：发挥CPU平台硬件优势，英特尔助力DeepRec优化超大规模稀疏训练

文章出处：【微信号：英特尔中国，微信公众号：英特尔中国】欢迎添加关注！文章转载请注明出处。

英特尔Gaudi 3 AI芯片：5nm工艺设计，训练推理皆强

此外，英特尔在发布会上还宣布更改旗下数据中心CPU产品名称：原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售，并支持性能提升后的标准化 MXFP4 数据格式。

发表于 04-10 11:10 •188次阅读

英特尔:2025年全球AIPC将超1亿台占比20%

英特尔行业资讯

北京中科同志科技股份有限公司

发布于 :2024年02月29日 09:15:26

英特尔1nm投产时间曝光！领先于台积电

英特尔行业芯事

深圳市浮思特科技有限公司

发布于 :2024年02月28日 16:28:32

英特尔再创辉煌！1.4nm芯片工艺领航微电子时代，工业界的新里程碑？

英特尔行业资讯

北京中科同志科技股份有限公司

发布于 :2024年02月26日 08:58:21

英特尔登顶2023年全球半导体榜单之首

英特尔行业芯事

深圳市浮思特科技有限公司

发布于 :2024年02月01日 11:55:16

英特尔酷睿14代处理器系列发布，Arrowlake/LunarLake24年问世

处理器英特尔

looger123

发布于 :2024年01月10日 17:44:38

CPU也可以完美运行大模型英特尔第五代至强重磅发布

大语言模型(LLM)已经在多个领域展示出了卓越的性能和巨大的潜力,然而,要想真正发挥出这些模型的强大能力,需要强大的算力基础设施,而芯片是关键。千呼万唤始出来,第五代英特尔®️ 至强®️ 可扩展

发表于 12-22 11:52 •381次阅读

CPU也可以完美运行大模型 <b class='flag-5'>英特尔</b>第五代至强重磅发布

#高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

高通英特尔苹果

深圳市浮思特科技有限公司

发布于 :2023年10月27日 16:46:07

搜索历史

英特尔四大层面，提升DeepRec训练和推理能力

评论

英特尔Gaudi 3 AI芯片：5nm工艺设计，训练推理皆强

英特尔:2025年全球AIPC将超1亿台占比20%

英特尔1nm投产时间曝光！领先于台积电

英特尔再创辉煌！1.4nm芯片工艺领航微电子时代，工业界的新里程碑？

英特尔登顶2023年全球半导体榜单之首

英特尔酷睿14代处理器系列发布，Arrowlake/LunarLake24年问世

CPU也可以完美运行大模型英特尔第五代至强重磅发布

#高通 #英特尔 #Elite 高通X Elite芯片或终结苹果、英特尔的芯片王朝

深度学习框架区分训练还是推理吗

安装OpenVINO工具套件英特尔Distribution时出现错误的原因？

Ai 部署的临界考虑电子指南

英特尔媒体加速器参考软件Linux版用户指南

英特尔面向中国市场发布Gaudi2处理器，加速大模型训练和推理

英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，尽释AI加速潜能

英特尔全新Gaudi2处理器面世中国市场，加速大规模深度学习训练与推理