0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算法画小姐姐,AMD显卡比顶级CPU快30倍!

jf_MYvksKR0 来源:Microcomputer 2023-05-18 15:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从Stable Diffusion这一AI应用出现之后,在极短时间内就迅速走红,成为众多玩家口口相传的“最美小姐姐”生成工具。不过这一AI计算画图工具在Stable Diffusion官方推出之初,无论是WEB UI的部署还是模型的训练生成,都基本是基于NVIDIA CUDA加速的算法,因此A卡最初并不被Stable Diffusion官方支持。不过好在Stable Diffusion算是一个开源的产品,在众多社区聚集玩家的支持下,也出现了许多支持A卡GPU加速计算的分支,比如我们今天要测试的基于DirectML的部署,就能实现AMD Radeon显卡的Stable Diffusion AI计算硬件加速。

48019a9c-f4cd-11ed-90ce-dac502259ad0.jpg

如果要自己在本地部署基于DirectML的Stable Diffusion话,相比便捷的基于CUDA的WEB UI部署要相对复杂一些,不过现在网上已经有比较成熟的整合包供玩家适用,玩家们只需要下载相应的整合包,就能一键实现在本地的傻瓜式安装部署,可以为大家节省相当多的时间。

481e2950-f4cd-11ed-90ce-dac502259ad0.png

4876542c-f4cd-11ed-90ce-dac502259ad0.png

▲我们选择用于测试的这个整合包安装完毕之后,自动进入AMD GPU加速计算模式,在本地开启http://127.0.0.1:7860即可打开本地Stable Diffusion的AI画图界面。

48c176e6-f4cd-11ed-90ce-dac502259ad0.png

▲在本地WEB UI界面上可以自由设置相关的AI艺术图生成参数,点击“生成”即可开始画图。具体请参考线上相关教程,在此我们不赘述。

那么,基于DirectML的Stable Diffusion部署分支能不能实现对AMD显卡的硬件计算加速支持呢?它的效率到底如何?在此前A卡玩家经常只能在Linux系统下运行Stable Diffusion,通过ROCM(Radeon Open Compute)模拟CUDA加速,如今在Windows系统下直接实现A卡的AI加速计算,能否达到我们的预期目标呢?为此,我们选择了AMD Radeon RX 5000系、RX 6000系以及RX 7000系的数款显卡,进行了一番详细的体验。

体验平台

显卡:AMD Radeon RX 5500XT(8GB)、RX 5700(8GB)、RX 6500XT 4GB、RX 6600(8GB)、RX 6700XT(12GB)、RX 6750XT(12GB)、RX 6800(16GB)、RX 6900XT(16GB)、RX 7900 XT(20GB)、RX 7900 XTX(24GB)

CPU英特尔酷睿i9-13900K

主板:英特尔Z790

内存:DDR5 6000 16GB×2

SSD:AORUS NVMe PCIe SSD 2TB

操作系统:Windows 11 Pro 22H2

驱动程序:AMD Software Adrenalin Edition 23.4.3

通过测试,我们想知道:

AMD Radeon 5000系、6000系和7000系之间,在Stable Diffusion的AI画图算力上有多大差别?

相比传统的CPU AI计算加速,AMD GPU加速性能到底如何?

48e6380a-f4cd-11ed-90ce-dac502259ad0.png

▲我们所采用的网络开源共享的部署方案可以正确实现AMD显卡的硬件加速计算,可以看到在图片生成的过程中GPU的占用率一直保持在100%。

模型为Novel AI Final-runed(CKPT)

测试一:AI生成时尚美女

在第一部分的测试中,我们通过关键词生成一个大眼的时尚美女小姐姐,还要有一定的照片感。关键词设置如下(部分引用自网络开源共享关键词):

lora0.6> , best quality, ultra high res, (photorealistic:1.4), 1woman, sleeveless white button shirt, black skirt, black choker, cute, (Kpop idol), (aegyo sal:1), (platinum blonde hair:1), ((puffy eyes)), looking at viewer, full body, facing front,fashion,premium

分辨率设置:512×512

采样步进:20

提示词引导系数:7

生成批次-每批数量:1-1、4-1

48fc27a0-f4cd-11ed-90ce-dac502259ad0.png

49ba82cc-f4cd-11ed-90ce-dac502259ad0.png

49d8eeba-f4cd-11ed-90ce-dac502259ad0.png

在测试中由于绝大部分显卡都拥有8GB以上的显存,因此我们在运行参数上基本设置了正常的高显存默认模式,只有4GB显存版的RX 6500XT运行时采用了添加了--lowvram的低显存运行模式(否则就无法运行)。从整体测试结果来看,AMD从Radeon RX 5000系到RX 7000系的显卡几乎都很好地实现了Stable Diffusion应用的AI计算加速性能,尤其是Radeon RX 7000系显卡性能相比RX 6000系显卡有了巨大的提升。比如RX 6900XT在该设置与模型算法下的图片生成率约为8.87张/秒,而RX 7900 XT则可以达到15.76张/秒,性能提升接近100%。

而相比CPU来说,全系AMD显卡都占有非常明显的优势,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,即使前两代的入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

唯一有点异常的是RX 6500XT,按照核心规格来看,它应该是要强于RX 5500XT的,不过由于显存配置仅为4GB,因此在测试中开启了低显存运行模式之后,其图片上生成速度受到了极大影响,远低于GPU加速的正常表现,仅能达到略高于CPU计算的水准。

测试二:AI生成较为复杂的水边别墅风景照

在接下来的测试中,我们用一系列相对复杂的关键词来生成一座位于水边的别墅,同时还伴有阳光、波纹、倒影等效果要求。关键词如下:

‘beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k,’

分辨率设置:512×512

采样步进:50

提示词引导系数:7.5

生成批次-每批数量:1-1、2-1、4-1

49f4b492-f4cd-11ed-90ce-dac502259ad0.png

4a7bb71c-f4cd-11ed-90ce-dac502259ad0.png

4a9a0ad2-f4cd-11ed-90ce-dac502259ad0.png

这部分的测试结果与前一测试基本保持了一致性。仍然是RX 7000系显卡在性能上独占鳌头,相对于RX 6000系显卡的对位提升在100%左右,与CPU的计算性能相比,GPU加速计算的性能提升仍然非常显著,RX 7900 XT的性能达到了酷睿i9-13900K的30倍左右,入门级显卡RX 5500XT,性能上也几乎接近酷睿i9-13900K的5倍。

4GB显存配置RX 6500XT由于仅能在低显存模式下运行,因此图片上生成速度还是受到了极大影响,远低于GPU加速的正常表现,大致与酷睿i9-13900K相当。

写在最后

这是一次简单但却比较有趣的测试,通过这次体验,我们认为有几点参考意见可以总结给玩家们参考:

1.当前AMD显卡已经可以通过开源的部署方案实现在Windows系统下的Stable Diffusion AI计算加速,而且网上也有许多的傻瓜式整合包,感兴趣的玩家完全可以一试;

2.从测试结果来看,AMD显卡在Stable Diffusion的AI图片生成计算中能够发挥出远胜于CPU计算的性能增幅,使用GPU加速计算能带来事倍功半的效果;

3.从测试情况来看,测试中当渲染分辨率设置超过512时(如768×768),就会出现爆显存的情况,这与部署方案和模型有一定关系,但也反映了在正常模式下运行时,8GB显存几乎是Stable Diffusion的硬性入门要求。如果显存低于8GB,即使在512×512分辨率下渲染,也会出现显存不足的情况,此时就不得不采用--lowvram的低显存运行方案,但会极大地拖累计算速度,如测试中的RX 6500XT 4GB。所以要想畅玩Stable Diffusion,我们建议显卡的显存为8GB或更高为佳;

4.从整体结果来看,我们认为AMD GPU还有极大的算法优化空间,凭不可靠经验判断,从RX 7900 XTX到酷睿i9-13900K的性能差距还不足够大。这和我们部署的算法方案以及模型都有一定关系,也希望各社区的程序员们能开发出更多更优秀的针对AMD显卡的计算加速方案。

不管如何,AMD显卡对Stable Diffusion的硬件加速计算性能已经得到了展现,效果也比较明显,对AMD显卡用户来说毫无疑问是利好的福音消息,剩下的就是玩家与AMD需要坚持的继续优化之路了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5705

    浏览量

    140394
  • 算法
    +关注

    关注

    23

    文章

    4800

    浏览量

    98513
  • AI算法
    +关注

    关注

    0

    文章

    272

    浏览量

    13196

原文标题:AI算法画小姐姐,AMD显卡比顶级CPU快30倍!AMD Radeon显卡Stable Diffusion AI画图体验测试

文章出处:【微信号:Microcomputer,微信公众号:Microcomputer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    历史首次!AMD服务器CPU市占率达50%

      电子发烧友网报道(文/黄晶晶)近日,根据市场研究机构PassMark对于服务器CPU 市场占有率调查的数据显示,截至2025年一季度AMD 在服务器CPU 市场市占率首次达到50%,与竞争对手
    的头像 发表于 08-11 03:20 1.1w次阅读
    历史首次!<b class='flag-5'>AMD</b>服务器<b class='flag-5'>CPU</b>市占率达50%

    AMD扩展锐龙AI嵌入式处理器产品组合,为工业与AI边缘解决方案提供可扩展的高效 AI 计算能力

    新款处理器能在相同的紧凑封装尺寸下,以至多2 CPU 核心数量和更高的 AI 吞吐量实现下一代工业和机器人解决方案。 · 从工业自动化到移动机器人和医学成像,各类嵌入式开发人员都可借助A
    的头像 发表于 03-10 11:22 2.5w次阅读
    <b class='flag-5'>AMD</b>扩展锐龙<b class='flag-5'>AI</b>嵌入式处理器产品组合,为工业与<b class='flag-5'>AI</b>边缘解决方案提供可扩展的高效 <b class='flag-5'>AI</b> 计算能力

    使用NORDIC AI的好处

    × 在 CPU 上运行时可 10×、更省电,平均模型体积 <5 KB。[Edge AI 软件页] Axon NPU 对同一 TensorFlow Lite 模型:* 推理速度最高可比
    发表于 01-31 23:16

    Robotec.aiAMD Silo AI的合作实践

    AMD Silo AI 正与领先的机器人应用仿真平台开发商 Robotec.ai 合作,优化和扩展基于 AMD GPU 和 ROCm 软件堆栈的下一代汽车和机器人系统的数字孪生和场景重
    的头像 发表于 01-28 16:23 866次阅读

    LPDDR5X在AI数据中心多能打?10.7Gbps速率、互连7、推理吞吐高5、延迟低80%!

    厂商们包括三星、美光、SK海力士以及长鑫存储等也不断拉高LPDDR5X的规格,有望拓展继智能终端之后AI数据中心这类新应用。   三星电子   三星发布的前代1.25、功耗效率提
    的头像 发表于 01-27 09:35 6374次阅读
    LPDDR5X在<b class='flag-5'>AI</b>数据中心多能打?10.7Gbps速率、互连<b class='flag-5'>快</b>7<b class='flag-5'>倍</b>、推理吞吐高5<b class='flag-5'>倍</b>、延迟低80%!

    AMD 推出锐龙 AI 嵌入式处理器产品组合,为汽车、工业和物理 AI 领域提供 AI 驱动的沉浸式体验

    新闻亮点 · 全新 AMD 锐龙 AI 嵌入式 P100 和 X100 系列处理器融入了高性能“Zen 5”CPU 核心、AMD RDNA 3.5 GPU 和
    的头像 发表于 01-07 14:30 657次阅读
    <b class='flag-5'>AMD</b> 推出锐龙 <b class='flag-5'>AI</b> 嵌入式处理器产品组合,为汽车、工业和物理 <b class='flag-5'>AI</b> 领域提供 <b class='flag-5'>AI</b> 驱动的沉浸式体验

    性能提升30:当AI存储冲刺“秒速”,谁为它的“出厂体检”按下快门?

    SK 海力士与英伟达合作研发性能提升 30 AI NAND,凸显现有测试验证体系的 “代差” 危机。传统测试难以满足极端负载下的精准性能检测,面临接口带宽延迟、信号完整性、负载真实性三重壁垒
    的头像 发表于 12-15 14:17 428次阅读

    AI算法开发,SpeedDP打辅助!不止10效率

    。而那些能够带来10工作效率的AI自然能够轻松取代人类。当然这也是相对的,不是每个领域都适用,厨师再快,也无法让实物10熟;医生再优秀,也不可能让病人
    的头像 发表于 11-20 18:09 757次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算法</b>开发,SpeedDP打辅助!不止10<b class='flag-5'>倍</b>效率

    AMD Vitis AI 5.1测试版现已开放下载

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元( NPU )的支持。Vitis A
    的头像 发表于 11-08 09:24 1430次阅读

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis A
    的头像 发表于 10-31 12:46 971次阅读

    谷歌芯片实现量子计算新突破,超算13000

    在特定任务上的运行速度传统超级计算机13000,并且这种算法可以在类似平台上得到重现。   量子比特极易受到环境干扰,导致计算错误,这成为量子计算走向实用的一大阻碍。而谷歌的Wi
    的头像 发表于 10-27 06:51 9934次阅读

    今日看点:谷歌芯片实现量子计算经典超算13000;NFC 技术突破:读取距离从 5 毫米提升至 20 毫米

    谷歌芯片实现量子计算经典超算13000 近日,谷歌在《自然》杂志披露与Willow芯片相关的量子计算突破性研究成果。该公司称这是历史上首次证明量子计算机可以在硬件上成功运行一项可验证算法
    发表于 10-23 10:20 1711次阅读

    AMD正在边缘AI领域开拓创新

    AMD 正在边缘 AI 领域开拓创新,并为可能实现的目标设定标准。
    的头像 发表于 09-25 16:55 997次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于AI芯片这个真不知道,以为它是数字芯片的,不晓得属于
    发表于 09-12 16:07

    八天三次收购!AMD收购AI芯片制造商Untether AI团队,刺激创新

    电子发烧友原创 章鹰 6月6日,美国芯片大厂AMD宣布收购加拿大AI推理芯片公司Untether AI。这是AMD公司在短短八天之内完成的第三笔收购。Untether
    的头像 发表于 06-08 07:01 6368次阅读
    八天三次收购!<b class='flag-5'>AMD</b>收购<b class='flag-5'>AI</b>芯片制造商Untether <b class='flag-5'>AI</b>团队,刺激创新