0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔四大层面,提升DeepRec训练和推理能力

英特尔中国 来源:英特尔中国 作者:英特尔中国 2022-07-10 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始,英特尔就与阿里巴巴PAI团队紧密合作,将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速),为 DeepRec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。

四大层面,提升DeepRec 训练和推理能力

自英特尔 至强 可扩展处理器问世以来,通过从 AVX-256 升级到 AVX-512,英特尔将 AVX 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 BFloat16 (BF16) 数据类型的指令集,也应用到 DeepRec 的优化中。

框架优化:DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library),该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用,可显著提高模型训练和推理性能。

算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 AVX-512 指令加以优化后,大幅提升了数据读写效率和性能。

子图优化:图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下,DeepRec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 AVX-512 指令加速,实现了子图性能的明显提升。

模型优化:基于CPU 平台,英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明:基于 Criteo 数据集,使用BF16优化后,模型WDL精度或AUC可以逼近FP32,并且BF16模型的训练性能提升达1.4倍,效果显著。

未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 CPU 解决方案。

当然,英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10331

    浏览量

    181178
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11343

    浏览量

    226055

原文标题:发挥CPU平台硬件优势,英特尔助力DeepRec优化超大规模稀疏训练

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    净利暴涨156%!英特尔释出Q1财报“王炸”,CPU迎史诗级“价值回归”?

    GPU业务被逐步稀释,推理侧业务被越来越多客户以ASIC“抢夺”的局面。而英特尔反而借助AI Agent应用对并发调度能力需求的暴增开始“逆风翻盘”,作为Agentic AI性能提升
    的头像 发表于 04-27 09:07 2051次阅读
    净利暴涨156%!<b class='flag-5'>英特尔</b>释出Q1财报“王炸”,CPU迎史诗级“价值回归”?

    英特尔炮轰,AMD回击!掌机市场芯片之争

    英特尔推出的才是专为掌机设计的最新处理器,信心源于新一代旗舰产品Panther Lake处理器。该处理器是首款基于英特尔18A工艺节点制造的消费级SoC,在“每瓦性能”数据上表现优异,结合XeSS 3超级采样技术和Arc核显,英特尔
    的头像 发表于 01-12 09:09 5445次阅读

    英特尔至强6“芯”动GTC 2026,为英伟达DCG Rubin解锁系统级性能

    的关键阶段,至强系列处理器为GPU加速AI系统,提供架构一致性与强大扩展能力所发挥的重要支撑作用。 英特尔公司副总裁兼数据中心战略项目总经理Jeff McVeigh表示: “当前,AI发展正从大规模训练加速阶段,转向由智能体AI
    的头像 发表于 03-19 16:43 440次阅读

    释放极致游戏性能!英特尔酷睿Ultra 200S Plus发布

    英特尔酷睿Ultra 200S Plus的内容创作性能至高可达同类产品的两倍,游戏性能平均提升 15%。其中,酷睿 Ultra 7 270K Plus 是英特尔迄今最快的台式机游戏处理器。 最新发
    的头像 发表于 03-19 13:13 456次阅读

    英特尔 18A 良率跃升,普迪飞成核心攻坚力量|助力实现月度 7%-8% 稳定增长

    合作回顾英特尔携手普迪飞,以数据协同重构半导体行业效率新标杆普迪飞&英特尔:数据驱动下的半导体良率优化实践深度合作落地:技术驱动半导体制造效率质量双提升英特尔召开2025年第
    的头像 发表于 03-09 12:00 685次阅读
    <b class='flag-5'>英特尔</b> 18A 良率跃升,普迪飞成核心攻坚力量|助力实现月度 7%-8% 稳定增长

    锐宝智联入选英特尔首批尊享级合作伙伴

    余年深耕物联网领域的技术沉淀、持续创新能力及广泛市场影响力,成功入选首批 “尊享级” 合作伙伴,成为英特尔生态中核心协同力量的重要一员。
    的头像 发表于 12-02 18:16 1644次阅读
    锐宝智联入选<b class='flag-5'>英特尔</b>首批尊享级合作伙伴

    英特尔举办行业解决方案大会,共同打造机器人“芯”动脉

    11月19日,在2025英特尔行业解决方案大会上,英特尔展示了基于英特尔® 酷睿™ Ultra平台的最新边缘AI产品及解决方案,并预览了针对边缘侧的英特尔® 酷睿™ Ultra处理器(
    的头像 发表于 11-19 21:51 7182次阅读
    <b class='flag-5'>英特尔</b>举办行业解决方案大会,共同打造机器人“芯”动脉

    特斯拉要自建超大型晶圆厂,马斯克:与英特尔合作 “有必要”

    特斯拉CEO马斯克周(6日) 盘后于股东大会上表示,随着自动驾驶与机器人应用快速扩张,特斯拉需要自行建造一座大型晶圆厂,以满足未来庞大的运算需求,并透露公司可能与芯片大厂英特尔展开合作。消息公布后,英特尔闻讯大涨近4%。
    的头像 发表于 11-07 18:07 2442次阅读

    发力图形工作站和AI推理市场,英特尔大显存GPU亮相湾芯展

    英特尔发布了面向专业的锐炫Pro B50和B60。这两款显卡比较RTX2000和5660Ti,有哪些性能上的优势?在支持AI推理工作站和大模型部署上,B60有哪些独到之处?10月16日,在深圳举行的湾区半导体大会上,英特尔中国区
    的头像 发表于 10-22 13:40 1.2w次阅读
    发力图形工作站和AI<b class='flag-5'>推理</b>市场,<b class='flag-5'>英特尔</b>大显存GPU亮相湾芯展

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理
    的头像 发表于 08-26 19:18 3380次阅读
    <b class='flag-5'>英特尔</b>Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    美国政府将入股英特尔

    据彭博社报道称,特朗普政府正在与芯片制造商英特尔进行谈判,希望美国政府入股这家陷入困境的公司,随后该公司股价周上涨 7% 。 英特尔是唯一一家有能力在美国本土生产最快芯片的美国公司,
    的头像 发表于 08-17 09:52 1303次阅读

    使用英特尔® NPU 插件C++运行应用程序时出现错误:“std::Runtime_error at memory location”怎么解决?

    使用OpenVINO™工具套件版本 2024.4.0 构建C++应用程序 使用英特尔® NPU 插件运行了 C++ 应用程序 遇到的错误: Microsoft C++ exception: std::runtime_error at memory location
    发表于 06-25 08:01

    英特尔锐炫Pro B系列,边缘AI的“智能引擎”

    2025年6月19日,上海—— 在MWC 25上海期间,英特尔展示了一幅由英特尔锐炫™ Pro B系列GPU所驱动的“实时响应、安全高效、成本可控”的边缘AI图景。 英特尔客户端计算事业部边缘计算
    的头像 发表于 06-20 17:32 1089次阅读
    <b class='flag-5'>英特尔</b>锐炫Pro B系列,边缘AI的“智能引擎”

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4倍

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔锐炫Pro B60和英特尔
    的头像 发表于 05-20 12:27 5725次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅发布新一代GPU,图形和AI性能跃升3.4倍

    英特尔发布全新GPU,AI和工作站迎来新选择

    Pro B50 GPU,搭载了为AI推理和专业工作站量身定制的配置,扩展了英特尔锐炫Pro产品系列。 英特尔 ® Gaudi 3 AI 加速器: 英特尔Gaud
    发表于 05-20 11:03 1933次阅读