0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

绕开CPU和内存,你浏览的内容或来自SSD的推荐

E4Life 来源:电子发烧友原创 作者:Leland 2021-11-24 09:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

绕开CPU和内存,你浏览的内容或来自SSD的推荐

相信不少人都还记得今年AI芯片公司Esperanto发布的千核RISC-V处理器ET-SoC-1,随着这款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上运行代码,以及尝试新的应用方向,其中之一就是AI-SSD。在近期举办的三星Foundry活动上,Esperanto公开了自己AI-SSD的概念模型。

个性化推荐系统的挑战

在我们刷短视频、听歌和浏览社交网络时,一部分内容来自于我们已经关注的用户,但绝大多数来自于推荐系统的推送。推荐系统的准确程度很大程度决定了软件的用户体验,也是如今互联网经济系统的命脉。但这类推荐也往往是服务器上消耗最大的AI处理负载,优化推荐系统可以提高推荐系统的速度,减少在服务器上的成本。

DLRM深度学习推荐模型 / Meta

谈到推荐系统就不得不谈到嵌入,嵌入是当下推荐系统中关键的组成部分。尽管每家都有着不同的推荐模型,但或多或少都是采用查找嵌入表的方法来实现分类特征的处理。在这个过程中,嵌入表存储在DRAM中,而CPU对嵌入表进行操作,这就对内存带宽和内存容量提出了双重挑战。

在内存带宽上,像美团和腾讯等厂商纷纷采用多GPU加速的方式,充分利用GPU的带宽,但这种方式依然需要多个GPU或多个服务器的支持才能解决容量问题。固然厂商也可以选择像HBM这种大带宽的内存方案,但带来的成本提升也是巨大的。

根据Meta给出的说法,在Facebook社交网站的个性化推荐系统中,大规模的嵌入表可达到百万行以上,导致推荐模型的大小达到10GB左右,一个神经推荐模型中所有嵌入表甚至需要TB级别以上的空间。比如Meta旗下的Instagram已经在开发10TB的推荐模型,而百度的广告排名模型也达到了10TB。这种级别的容量需求对硬盘来说或许足够,但对于内存来说过于奢侈了。

因此为了解决容量问题,不少人也提出了SSD的存储解决方案,目前传统的SSD虽然可以毫不费力地存储下大规模推荐系统,但读取延迟和带宽都要更差一筹,从而显著降低推理的性能。

专为推荐而生的SSD

Esperanto与三星合作开发出了一种AI-SSD的概念模型,来研究将所有嵌入表处理全部移到SSD内部会有怎么样的影响,从而省去推荐系统中经过CPU和DRAM的环节。三星展示了使用Esperanto的ET-SoC-1芯片与其PM9A3 SSD结合的成果。

在AI-SSD中,所有嵌入表都被存储在SSD里,CPU负责所有的用户数据输入和深度神经网络,而SSD内部的ET-SoC-1负责嵌入表的查询和交互运算。此外由于选择了这种存内计算的方式,最小化了PCIe链路上的数据传输,降低了读写的高延迟,最终的分类数据直接交给CPU生成推荐结果。

AI-SSD带宽性能测试结果 / Esperanto

测试环节中,Esperanto选用了Meta的开源推荐模型DLRM,将AI-SSD与传统的CPU-SSD方式进行对比。在不同的模型配置下,AI-SSD实现了10到100倍的读取带宽提升,而且带宽随着使用核心数的上升还能继续线性提升。

要知道在这次测试中,Esperanto最多只用到了四个子节点(Minion Shire),每个节点只有32个核心。而一整个ET-SoC-1有34个子节点1088颗核心,如果所有计算单元全部用于SSD的话,提升幅度将达到数百倍以上,十分适合数据中心级别的SSD产品。而ET-SoC-1的扩展性也可以让它缩减核心数,用于一些边缘端的推荐系统。

拿计算换空间

不过即便用上了AI-SSD,这也是一种增加硬件成本的路线,除了不差钱的大公司会利用这种产品外,一些小的互联网应用可能并不会直接选择更换SSD的方式,如此一来,也就只有继续优化推荐模型一途。

佐治亚理工学院和Meta的研究院为DLRM提出了一种张量训练压缩的方式,名为TT-Rec。该方法通过将嵌入表分为多个小矩阵相乘的方式进行压缩,进一步降低嵌入表的大小,不过这多出来的计算是肯定躲不掉的额外消耗,好在其评估结果足够优秀。

在Kaggle和Terabyte数据集的测试训练下,TT-Rec分别将数据从2.16GB和12.57GB压缩至18.36MB和0.11GB,整体的大小压缩均在百倍以上,甚至可以做到几乎没有精度损失。而多出来的运算则反映到了训练时间上,分别增加了14.3%和13.9%。因此在实际使用中,必须对内存容量、模型精度和训练时间做出一定的取舍。

小结

尽管从推荐系统配置的角度来说,仍有不少可选的解决方案,但存算一体方面的研究已经全面铺开了。存储市场正在迅速与计算市场发生重叠,像三星、西数和希捷等存储厂商纷纷开始了这块的布局,传统的冯诺依曼架构也将被近数据处理替代。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3061

    浏览量

    121785
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296611
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    兆芯CPU近期适配重点产品推荐

    近期,兆芯携手多家产业伙伴,围绕开胜KH-50000、开先KX-7000等高性能自主CPU产品推进应用生态建设,完成了人工智能算力卡、SSD内存、NAS存储、数据库管理系统、综合安全
    的头像 发表于 11-07 17:13 1127次阅读

    专为内容创作、AI应用打造的存储设备来了!闪迪媒体分享会展示新款SN5100 SSD

    近期在闪迪召开的媒体分享会上,闪迪为参会媒体介绍了其最新产品WD Blue SN5100 NVMe SSD的主要技术特性。这是一款专门为内容创作者和各种生产力套件的专业人士打造的一款产品,因为当前
    的头像 发表于 09-25 17:55 283次阅读
    专为<b class='flag-5'>内容</b>创作、AI应用打造的存储设备来了!闪迪媒体分享会展示新款SN5100 <b class='flag-5'>SSD</b>

    代理供应希力微 SJ MOS管 SSF60R190TH、SSD60R280FTR、SSD60R360METR、SSD65R900FTR

    、快速充电器、LED电源、通讯和服务器电源、电动车充电桩等系统。 SSQ55R115FTH、SSD55R280FTR、SSD100R1K4METR、SSF100R1K4METH、SSD
    发表于 08-27 09:49

    兆芯CPU近期适配软硬件产品推荐

    近日,兆芯持续携手多家产业合作伙伴,围绕开先KX-7000、开胜KH-40000等兆芯高性能自主处理器加强软硬件生态建设,共同完成包括AI加速卡、内存、企业级SSD、服务器操作系统、安全操作系统
    的头像 发表于 08-20 17:39 1776次阅读

    兆芯CPU近期适配重点产品介绍

    近期,兆芯继续与多家产业伙伴通力合作,围绕开先KX-7000、开胜KH-40000等高性能自主CPU产品持续推进应用生态建设,完成了国产SSD内存、Web中间件、分布式数据库、大数据
    的头像 发表于 07-10 17:02 1001次阅读

    工业级SSD为什么需要掉电保护?天硕工业级SSD固态硬盘告诉答案

    在工业控制和嵌入式系统中,电源波动或突发断电是常见问题。这种情况下,如果SSD正在写入数据,很可能导致数据丢失或文件系统损坏,甚至引发系统宕机。天硕(TOPSSD)G40工业级固态硬盘,针对这一
    的头像 发表于 07-09 17:05 571次阅读

    服务器CPU架构解析,从x86到ARM:一文吃透其分类及对应品牌优势

    为什么的服务器总在"喘气"?CPU架构才是关键。大家可能都遇到过这样的情况:公司刚采购的服务器用了不到半年,跑个数据库就像老牛拉车,加内存换硬盘都没用。这时候老工程师会叼着烟告诉
    的头像 发表于 04-30 15:11 1566次阅读
    服务器<b class='flag-5'>CPU</b>架构解析,从x86到ARM:一文吃透其分类及对应品牌优势

    RISC-V五级流水线CPU设计

    本文实现的CPU是一个五级流水线的精简版CPU(也叫PCPU,即pipeline),包括IF(取指令)、ID(解码)、EX(执行)、MEM(内存操作)、WB(回写)。
    的头像 发表于 04-15 09:46 1348次阅读
    RISC-V五级流水线<b class='flag-5'>CPU</b>设计

    树莓派新玩法:基于WiFi的CPU温度与内存使用Web-GUI监控系统

    WiFi网络远程监控RaspberryPi的CPU温度。该GUI可通过浏览器直接访问,操作便捷且用户友好。NiceGUI是一个优秀的Python库,能大幅简化交互式现代
    的头像 发表于 03-25 16:39 758次阅读
    树莓派新玩法:基于WiFi的<b class='flag-5'>CPU</b>温度与<b class='flag-5'>内存</b>使用Web-GUI监控系统

    自媒体别乱推!用好DeepSeek,让内容“稳稳的”!

    DeepSeek,让内容不仅有料,还能稳稳地抓住读者的心! 一,还在瞎猜?用DeepSeek找准方向 自媒体最怕的就是乱跟风,别人推啥咱也推啥,结果呢?内容没新意,读者也不买账。DeepSeek可不是这样,它就像个“智能小助
    的头像 发表于 02-19 16:19 862次阅读

    见多识广的,知道Mini SSD吗?

    在全球数字化转型加速的背景下,存储设备已不再是单纯的数据存储工具,而是推动信息安全、提升运算效率和支持业务创新的关键基石。佰维存储顺应行业趋势,发布全新一代存储解决方案——Mini SSD,突破
    发表于 01-09 10:52 852次阅读
    见多识广的<b class='flag-5'>你</b>,知道Mini <b class='flag-5'>SSD</b>吗?

    MVTRF:多视图特征预测SSD故障

    固态硬盘( Solid State Drive,SSD )在大型数据中心中发挥着重要作用。SSD故障会影响存储系统的稳定性,造成额外的维护开销。为了提前预测和处理SSD故障,本文提出了一种多视角
    的头像 发表于 12-30 11:04 980次阅读
    MVTRF:多视图特征预测<b class='flag-5'>SSD</b>故障

    讯飞星火浏览器插件全新升级

    时刻陪伴,星火插件让浏览器变成真正的生产力工具。
    的头像 发表于 12-25 09:48 1749次阅读

    Flexus X 实例 CPU内存及磁盘性能实测与分析

    的网络带宽支持。最近华为云 828 B2B 企业节正在举办,Flexus X 实例的促销也非常给力,大家可以去看看。为了帮助用户更好地了解其性能表现,我们通过一系列详尽的测试,对 Flexus X 实例的各项性能进行了全面评测,包括 CPU 性能、内存性能、磁盘
    的头像 发表于 12-24 17:35 870次阅读