0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔四大层面,提升DeepRec训练和推理能力

英特尔中国 来源:英特尔中国 作者:英特尔中国 2022-07-10 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始,英特尔就与阿里巴巴PAI团队紧密合作,将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速),为 DeepRec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。

四大层面,提升DeepRec 训练和推理能力

自英特尔 至强 可扩展处理器问世以来,通过从 AVX-256 升级到 AVX-512,英特尔将 AVX 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16 (BF16) 数据类型的指令集,也应用到 DeepRec 的优化中。

框架优化:DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library),该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用,可显著提高模型训练和推理性能。

算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 AVX-512 指令加以优化后,大幅提升了数据读写效率和性能。

子图优化:图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下,DeepRec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 AVX-512 指令加速,实现了子图性能的明显提升。

模型优化:基于CPU 平台,英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明:基于 Criteo 数据集,使用BF16优化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的训练性能提升达1.4倍,效果显著。

未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 CPU 解决方案。

当然,英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179292
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222935

原文标题:发挥CPU平台硬件优势,英特尔助力DeepRec优化超大规模稀疏训练

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发力图形工作站和AI推理市场,英特尔大显存GPU亮相湾芯展

    英特尔发布了面向专业的锐炫Pro B50和B60。这两款显卡比较RTX2000和5660Ti,有哪些性能上的优势?在支持AI推理工作站和大模型部署上,B60有哪些独到之处?10月16日,在深圳举行的湾区半导体大会上,英特尔中国区
    的头像 发表于 10-22 13:40 1.1w次阅读
    发力图形工作站和AI<b class='flag-5'>推理</b>市场,<b class='flag-5'>英特尔</b>大显存GPU亮相湾芯展

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理
    的头像 发表于 08-26 19:18 2581次阅读
    <b class='flag-5'>英特尔</b>Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    美国政府将入股英特尔

    据彭博社报道称,特朗普政府正在与芯片制造商英特尔进行谈判,希望美国政府入股这家陷入困境的公司,随后该公司股价周上涨 7% 。 英特尔是唯一一家有能力在美国本土生产最快芯片的美国公司,
    的头像 发表于 08-17 09:52 912次阅读

    英特尔发布全新GPU,AI和工作站迎来新选择

    Pro B50 GPU,搭载了为AI推理和专业工作站量身定制的配置,扩展了英特尔锐炫Pro产品系列。 英特尔 ® Gaudi 3 AI 加速器: 英特尔Gaud
    发表于 05-20 11:03 1665次阅读

    1.9倍性能提升英特尔至强6在MLPerf基准测试中表现卓越

    与第五代至强处理器相比,英特尔至强6性能核的性能平均提高了1.9倍。 今日,MLCommons公布了最新的MLPerf推理v5.0基准测试结果,其中,英特尔® 至强® 6性能核处理器在本次测试的六个
    的头像 发表于 04-07 10:58 510次阅读

    英特尔酷睿Ultra AI PC上部署多种图像生成模型

    全新英特尔酷睿Ultra 200V系列处理器对比上代Meteor Lake,升级了模块化结构、封装工艺,采用全新性能核与能效核、英特尔硬件线程调度器、Xe2微架构锐炫GPU、第代NPU等,由此也带来了CPU性能
    的头像 发表于 04-02 15:47 1135次阅读
    在<b class='flag-5'>英特尔</b>酷睿Ultra AI PC上部署多种图像生成模型

    请问OpenVINO™工具套件英特尔®Distribution是否与Windows® 10物联网企业版兼容?

    无法在基于 Windows® 10 物联网企业版的目标系统上使用 英特尔® Distribution OpenVINO™ 2021* 版本推断模型。
    发表于 03-05 08:32

    英特尔®独立显卡与OpenVINO™工具套件结合使用时,无法运行推理怎么解决?

    使用英特尔®独立显卡与OpenVINO™工具套件时无法运行推理
    发表于 03-05 06:56

    英特尔任命王稚聪担任中国区副董事长

    英特尔公司宣布,任命王稚聪先生担任新设立的英特尔中国区副董事长一职。王稚聪将全面负责管理英特尔中国的业务运营,直接向英特尔公司高级副总裁、英特尔
    的头像 发表于 03-03 10:54 881次阅读

    英特尔代工或引入多家外部股东

    英特尔的合作模式为“出钱拿产能”。这两家ASIC设计大厂将通过股权投资的方式,确保自身能够获得英特尔的先进制程生产能力。同时,高通和博通的订单也将有助于提升
    的头像 发表于 02-18 10:45 993次阅读

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    Pro模型进行了深度优化。 这一优化举措使得AI开发者能够以更低的成本和更高的效率实现复杂任务的部署与优化。英特尔Gaudi 2D AI加速器通过其卓越的计算能力和高度优化的软件栈,为Janus Pro模型提供了强大的推理算力
    的头像 发表于 02-10 11:10 927次阅读

    英特尔酷睿Ultra 200V系列移动处理器亮相CES 2025

    基于英特尔 vPro 平台的全新英特尔 酷睿 Ultra 200V系列移动处理器,为企业提供 AI 驱动的生产力和提升的IT管理能力1。该产品不仅拥有卓越的性能、效率和非凡的商务计算
    的头像 发表于 01-20 09:21 1690次阅读

    英特尔与扣子云平台合作推出AI PC Bot专区与端侧插件商店

    。 Coze-AIPC是扣子云平台与英特尔联合发布的增强版智能体开发平台,它深度整合了英特尔AI PC的端侧能力与扣子云平台的优势。通过扣子云平台创新的“端插件”机制,英特尔AI PC
    的头像 发表于 12-27 14:11 1398次阅读

    英特尔带您解锁云上智算新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第代服务器实例,以打造弹性算力底座的产品化实践。同时,英特尔也携手扣子
    的头像 发表于 12-23 14:05 1233次阅读

    使用英特尔AI PC为YOLO模型训练加速

    之后,情况有了新的变化,PyTorch2.5正式开始支持英特尔显卡,也就是说,此后我们能够借助英特尔 锐炫 显卡来进行模型训练了。
    的头像 发表于 12-09 16:14 2102次阅读
    使用<b class='flag-5'>英特尔</b>AI PC为YOLO模型<b class='flag-5'>训练</b>加速