还未设置个性签名
成为VIP会员 享9项特权: 开通会员

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

浪潮NF5468A5系统解析

智能计算芯世界 来源:公众号li12242 作者:公众号li12242 2022-07-05 11:06 次阅读

NF5468A5是浪潮推出的一款面向AI训练和AI推理、视频编解码等多种应用场景的全能型GPU服务器,在4U空间内搭载2颗AMD EPYC处理器,支持多达8张双宽加速卡。浪潮官网显示,这款产品已经支持NVIDIA、AMD、Intel寒武纪、燧原等多家业界主流AI加速卡。

本次拿到的样机采用如下配置:

型号NF5468A5

CPU2*AMD 7543,32核2.8 GHz主频,L3 Cache 256MB

内存512GB,16*32GB DDR4 3200ER

硬盘4*1.92TB NVME U.2

加速卡8*NVIDIA A100 GPU 1*NVIDIA T4 GPU 1*NVIDIA RTX3090显卡 1*寒武纪MLU270-S4智能加速卡 1*浪潮M10A 视频转码卡

电源4*2200W

接下来,笔者将从系统解析、性能测试这两个方面对浪潮NF5468A5服务器进行测评。

1.NF5468A5系统解析

1.1 整体系统设计

浪潮NF5468M5 AI服务器采用了4U机架式机箱,高x宽x深为175mm x 478mm x 830mm。整体风格简约、硬朗,不论做工、还是用料、细节,均彰显出大厂品质。

前面板沿用浪潮一贯稳重的黑色,六边形的格栅结构由金属制成,可以将风扇高速旋转产生的湍流风切割成平稳的平流风,从而更平稳的吹向服务器内部。前面板右上角,电源键下方是ID、Reset按键和系统状态指示灯,前面板左上角则是VGA、两个USB 3.0接口和管理接口。前面版的丰富接口,充分考虑了运维人员的工作场景,十分便捷。

从后窗来看,NF5468A5在4U空间内提供了8个全高全长双宽PCIe x16的物理插槽,支持最新PCIe Gen4,双向通信带宽高达64GB/s,相比PCIe Gen3,功耗不变,但通信性能提升1倍。在此基础上产品还提供了3个全高全长单宽x16物理槽位,可支持25G/100G/200G双口光纤,或者千兆/万兆RJ45网卡以及8/16端口12Gb/s RAID卡,可满足客户对网络及存储的要求。同时可支持1个OCP 3.0网卡专用插槽,支持热插拔,将网卡更换时间从20分钟缩短到1分钟,能够大幅提高运维效率。

NF5468A5支持4个电源模组,可以提供1600W~3000W功率的80 PLUS铂金电源模块,效率高达94%,可选3+1冗余或者2+2冗余,多种组合的冗余电源设计,充分考虑了不同配置AI服务器的负载情况,保障稳定性。

整个服务器采用非常紧凑的布局设计,总共分成四个功能区域,从前往后依次是:磁盘存储区、系统散热区、处理器+内存区、GPU+IO扩展区。

下面我们先看下CPU和内存。这台样机搭配了2颗AMD EPYC 7543处理器,核心数达到了32核心64线程,基准主频2.8GHz,最大加速时钟频率3.7GHz,L3 Cache 256MB,功耗225W。另外,浪潮官网介绍NF5468A5可支持2颗AMD基于“Zen3”微架构内核的EPYC Milan-X处理器,最高128个核心256线程、1536MB L3 Cache 以及18 GT/s XGMI互连链路,CPU TDP最大支持280W。样机配置了16根32GDDR4内存,同时可以看到服务器主板整齐排布了32个DDR4内存插槽,最大容量可达8TB,内存总带宽750GB/s,支持RDIMM/LRDIMM等类型的内存条。NF5468A5强劲的处理器性能、巨大的内存容量和带宽,特别适合AI计算、云计算、HPC以及企业各类业务的工作负载。

笔者手上的这台NF5468A5,最吸引眼球的是本次测试样机搭配了8颗NVIDIA A100 40G加速卡,从京东网上的报价看,8张A100的价格已经与一款中高端轿车相当,这究竟是一款什么样的AI服务器,笔者将带大家一探究竟。

我们来重点看一下NF5468A5的GPU模组。样机搭配了8张NVIDIAA100 PCIE 40GB GPU加速卡,由于每张卡功耗高达250W,服务器也给GPU板卡配置了单独供电线,保证GPU卡的稳定工作。为了满足PCIE卡的高功率运行,我们看到NF5468A5在GPU板上专门设计了4个用于大电流通流的bus bar,据浪潮的工程师介绍,bus bar的通流能力可以达到2880W,这对于各类PCIE加速卡的支持是非常强劲的。

NF5468A5提供了对丰富外插卡的支持,针对A100这种全高全长的卡配置了专用支架,搭配尾部锁片进行固定,这样能增强产品在运输过程中震动、跌落情况下的可靠性。我们翻开尾部锁片,旋转蓝色旋钮,就能非常顺利的取下GPU进行更换,这种针对PCIE卡免工具的操作非常人性化。

1.2 系统散热设计

从浪潮官网产品介绍中看到NF5468A5可以支持2颗280W CPU+8颗300W的GPU,在177mm的空间内浪潮究竟是如何实现的?笔者找浪潮工程师拿到了系统风流图,从中可以看出,系统整体风道采用前进后出的方式,散热风流主要从前面板的硬盘及下方开孔处进入系统。风流经系统风扇后通过导风罩的分配,一部分进入下层前排CPU和内存通道,一部分继续往后吹;经过CPU和内存后的风及未被预热的风大部分流向后方上面3U空间的GPU,小部分流向下面1U空间;最后经后面板流出系统。如此巧妙的风道设计和精准的风流控制,足见浪潮作为全球AI领导厂商深厚的设计功底。

7ddcc2fc-fbab-11ec-ba43-dac502259ad0.png

系统分离式风流设计

这款服务器将整机柜产品中“风扇墙”的设计理念搬到了4U机箱中,“风扇墙”一共由6组可以单独维护的子风扇模组组成,风扇后部搭配了流线型设计的导风罩,覆盖了从风扇到GPU中间的区域,但整个导风罩并没有完全挡住风扇的出风区域,结合上面系统风流图也证明是为实现CPU和GPU独立风道的引流设计,避免风流的串扰,无论多“强悍”的CPU和GPU都可以驯服。

1.3 架构设计

笔者查找了海外网站相关浪潮产品的介绍资料,找到一张产品的拓扑图,发现有别于传统CPU-PCIE Switch-GPU的设计,浪潮产品采用CPU-GPU直连方式。跟浪潮工程师确认,送测的NF5468A5也采用类似设计。工程师介绍,由于省去了PCIE Switch,2颗CPU与GPU的通讯延迟能降低200~300ns,同时GPU到CPU的通信带宽可以达到256GB/s,较GPU通过PCIESwitch只有1条与CPU PCIE通路比,带宽提升4倍,这种极致的互联架构设计,有助于提升GPU与CPU间数据通信的带宽,有效降低数据的处理延迟。

7e23a866-fbab-11ec-ba43-dac502259ad0.jpg

2. NF5468A5性能测评

2.1HPL测试

样机搭配2颗AMDEPYC 7543处理器,这款处理器是32 核 64 线程,基准主频2.8GHz,L3 Cache 256MB,最大加速时钟频率最高可达3.7GHz,功耗225W。为了能够了解CPU实际性能,下面将采用HPL基准软件进行测试。

计算机基准测试软件中,HPL是应用最广泛的基准测试程序之一。通过使用高斯消元法对稠密线性方程组进行求解,HPL可以准确测试系统浮点计算指标。在每年全球超级计算机排名TOP500中,HPL测试性能是唯一的评价标准。

由于笔者拿到的设备是一台未预装任何软件的裸金属服务器,为了进行相关测试,首先在上面安装了Ubuntu20.04操作系统。

然后用HPL软件测试了系统的浮点运行能力。通过如下命令,将测试进程和CCD进行绑定。

# mpi_options=“--mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

# mpi_options=“$mpi_options --map-by pprl3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

# mpirun $mpi_options -app 。/appfile_ccx

在运行之前,还需要设置核心运行在最高频率,清除系统缓存,并开启大页内存等设置,保证获得当前平台最高性能。

echo 3 》 /proc/sys/vm/drop_caches

echo 1 》 /proc/sys/vm/compact_memory

echo 0 》 /proc/sys/kernel/numa_balancing

echo ‘always‘ 》 /sys/kernel/mm/transparent_hugepage/enabled

echo ‘always‘ 》 /sys/kernel/mm/transparent_hugepage/defrag sudo cpupower frequency-set -g performance

最终测试浮点计算速度为2.69 TFLOPS,根据当前AMD平台理论浮点计算速度,计算效率达到93.74%。

7e4b709e-fbab-11ec-ba43-dac502259ad0.png

处理器浮点计算测试结果

2.2 内存带宽测试

我们用业界主流的测试软件STREAM对NF5468A5的内存带宽进行了测试,测试参数如下:

#Thread Binding Options for AMD EPYC 7742/7763 Processor $ export GOMP_CPU_AFFINITY=0-64:8 $ export OMP_NUM_THREADS=8

在运行前,清除系统缓存并且开启透明大页内存设置等,设置参数如下:

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/enabled $ echo madvise | tee /sys/kernel/mm/transparent_hugepage/defrag $ echo 3 》 /proc/sys/vm/drop_caches $ echo 1 》 /proc/sys/kernel/numa_balancing

通过以上编译和运行过程中优化,STREAM测试结果为373 GB/s,根据当前平台理论内存带宽409.6 GB/s,实测内存带宽效率达到91.1%。应该说,这个效率非常高了。

7e76c6fe-fbab-11ec-ba43-dac502259ad0.png

内存带宽测试结果

2.3 训练性能测试

下面我们来测试NF5468A5的AI训练性能。样机配置8张NVIDIAA100 PCIE 40GB GPU,这款GPU采用Ampere架构,基于7nm制造工艺,包含了超过540亿个晶体管,拥有6912个CUDA核心,搭载了40GBHBM2内存,具备1.6TB/s的内存带宽,FP64性能9.7 TFLOPS,FP32性能19.5TFLOPS,FP16性能312 TFLOPS。

笔者从github网站上的公共仓库https://github.com/mlcommons/training_results_v1.0中下载了MLPerf Training V1.0代码,并使用这套代码按照以下测试步骤在NF5468A5上训练ResNet50模型。MLPerf是一套衡量机器学习系统性能的权威标准,将在标准目标下训练或推理机器学习模型的时间,作为一套系统性能的测量标准。MLPerf由图灵奖得主大卫·帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等单位共同成立,是国际上最有影响力的人工智能基准测试之一。ResNet50是计算机视觉领域中最经典的图像分类模型,广泛应用于图像识别、自动驾驶等场景。

MLPerf代码提供了容器配置文件,我们可以很方便的通过配置文件在自己的服务器设备上创建镜像环境,镜像中包含cuda、cudnn、nccl、mxnet等上层组件。但是在运行容器之前,还需要在Host OS中安装NVIDIA GPU Driver、docker、nvidia-docker这些基础软件。

首先,笔者参考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile 教程在Ubuntu20.04操作系统中下载并安装了R470.82.01版本的驱动;然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 教程安装docker和nvidia-docker。

通过以下命令构建容器镜像:

$ cd ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet $ docker build -t mlperf1.0-nvidia:image_classification 。

在测试之前,通过在nf5468a5_cxx.sh文中添加以下内容绑定核心与进程,最大化的利用系统中的计算资源,达到良好的负载均衡,保证获得最优的性能结果。

bind_cpu_cores=([0]=“48-63,176-191”[1]=“32-47,160-175” [2]=“16-31,144-159” [3]=“0-15,128-143” [4]=“112-127,240-254” [5]=“96-111,224-239” [6]=“80-95,208-223” [7]=“64-79,192-207”) bind_mem=([0]=“3” [1]=“2” [2]=“1” [3]=“0” [4]=“7” [5]=“6” [6]=“5” [7]=“4”)

测试环境准备完成,执行以下指令开始测试:

激活环境变量: $ source config_NF5468A5.sh $ export CONT=mlperf1.0-nvidia:image_classification $ export DATADIR=/home/data/mxnet_imagenet/ $ export LOGDIR=/home/resnet50/ 执行测试脚本: $ 。/run_with_docker.sh

7ea16dfa-fbab-11ec-ba43-dac502259ad0.png

ResNet50训练测试结果

测试结果为21486 images/sec,也就是35分钟即可完成ResNet50模型的训练。参考最近几期MLPerf训练榜单,搭载8张NVIDIAA100 40G GPU卡的服务器的最好成绩是36.2分钟。可以说,在同等GPU配置的服务器中,浪潮NF5468A5的ResNet50训练性能是最好的。

2.4 推理性能测试

笔者也测试在目前推理场景中热度最高的NVIDIA TeslaT4,这款精致的GPU卡只有75W,采用Turing架构, 在半高卡的尺寸内集成320个Turing Tensor Core和2560个Turing CUDA Core,配备16GB GDDR6,支持FP32/FP16/INT8/INT4等多种精度的运算,FP16的峰值性能为65T,INT8为130T,INT4为260T。

推理性能测试同样使用了MLPerf测试工具,本次测试是基于MLPerf Inference V1.0.复用了训练测试时使用的OS、docker、nvidia-docker等基础软件环境。

我们在NF5468A5搭载1张NVIDIA T4 GPU,使用github网站上的公开代码https://github.com/mlcommons/inference_results_v1.0,按照如下步骤测试了ResNet50模型的推理性能:

同训练时一样,首先要构建容器镜像:

# unzip mlperf-inference-release.zip # cd /mlperf-inference-release/closed/Inspur # export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/ # make prebuild (备注:prebuild后会自动进入容器实例)

然后执行以下指令开始测试:

sudo CUDA_VISIBLE_DEVICES=0make run RUN_ARGS=“--benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast”

在图像分类应用场景中,使用ImageNet数据集,ResNet50测试结果是每秒处理5671.9 张图片。我们了解到NVIDIA T4的ResNet50推理性能为每秒5000张图片左右。应该说,在NF5468A5上测得的T4推理性能非常好了。

7edab1e6-fbab-11ec-ba43-dac502259ad0.png

ResNet50推理测试结果

笔者也拿到了寒武纪MLU270-S4推理加速卡。MLU270-S4采用TSMC 16nm工艺制造,集成16GB DDR4 内存,支持ECC,同时兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS。

我们发现NF5468A5对寒武纪的板卡也做了很好的兼容性适配,BMC可以显示MLU270-S4的资产信息,风扇转速也根据MLU270-S4的功耗进行了调整,相比A100,能够明显感觉到风扇转速主动降低了。不得不说,浪潮服务器的散热控制做得很精细。

我们在NF5468A5上插了1张MLU270-S4,测试了Caffe框架下的ResNet18、PyTorch框架下的GoogleNet以及TensorFlow下的ResNet101v1.5、VGG16和InceptionV3这几个模型的推理性能,在使用int8精度时,计算性能分别为每秒7440、5800、2400、1400和1000张。

笔者分析,浪潮NF5468A5在训练和推理测试中能取得这么好的成绩主要有三个原因:第一,ResNet50模型从算法上还是需要CPU进行一定的图像预取和处理操作,本次送测的AMD 7543具备32核心2.8GHz主频,有助于图像在CPU端的预处理工作;第二,NF5468A5采用CPU和GPU直连设计,有效降低数据的处理延迟,同时单个CPU与GPU通信带宽高达128GB/s;第三,NF5468A5可以支持NVME SSD作为数据盘,通过将多颗NVME SDD数据盘组建RAID,可以极大的提升磁盘IO能力,在AI这种需要频繁读取数据的场景中,能够非常有效的避免因为IO短板带来的性能瓶颈。

2.5 视频编解码性能测试

笔者在NF5468A5服务器上也评测了浪潮自研的M10A加速卡。

据浪潮官网介绍,M10A是一款面向AI场景优化设计的VPU(Video Processing Unit), VPU是一种全新的视频处理核心引擎,将视频处理功能做成ASIC芯片,具有硬件编码、硬件解码、硬件转码等视频加速功能,可以减少服务器在视频处理业务上的计算性能消耗和降低视频传输对网络带宽的需求。

M10A在8W功耗下可以提供16路1080P30视频的加速能力,相当于每路1080P视频加速仅需0.5W。M10A针对H.265视频格式压缩算法进行了特殊优化,实测数据表明M10A的H.265编码效果可以使得网络带宽利用率翻倍,同时计算CPU负荷最低可降至2%,适用于直播、短视频、云游戏、视频会议等场景。

在FFMPEG视频框架下,我们直接用软件SDK中的demo脚本,测试了M10A在不同视频分辨率下的性能数据,如下是16路1080P全高清视频实时转码的性能测试情况:

7f4848b4-fbab-11ec-ba43-dac502259ad0.png

在测试的过程中,我们发现M10A VPU芯片内部是“多核”结构,这将进一步降低视频处理延迟,提高多路视频转码时的性能稳定性。

从测试结果看到,M10A进行16路1080P全高清视频转码时,每路视频转码性能都能达到33fps,达到了浪潮官方宣传的性能。

7f74ff08-fbab-11ec-ba43-dac502259ad0.png

M10A视频转码性能测试结果

另外,我们还测试了4K超高清和720P高清分辨率下的M10A的性能数据,分别可以达到4K 120fps和720P 960fps,解码、编码和转码的性能都是一致的。

在我们跟视频行业技术大咖的交流中了解到,一张M10A的视频处理能力相当于一台双路服务器的性能,M10A具有高性能、低功耗的优点,这对视频行业来说是一个非常高性价比的解决方案。

2.6 HASH性能测试

除了前面讲到的几张加速卡,笔者也尝试了其他板卡,比如主流的消费级显卡RTX3090等,发现NF5468A5都做了很好的适配工作。

RTX3090采用第2代NVIDIA RTX架构-NVIDIAAmpere架构,采用8纳米工艺,拥有10496个CUDA核心,搭载了24 GB GDDR6X内存,384bit位宽。

下面,我们来看看浪潮5468A5搭载RTX3090显卡在区块链场景的性能。基于T-Rex这个知名的应用软件,笔者对业界主流的哈希算法进行了性能测试。T-Rex不仅支持区块链场景中最常用的ETHASH算法,也支持其他诸如BLAKE3、MTP等哈希算法。

7fca8996-fbab-11ec-ba43-dac502259ad0.png

ETHASH算法性能测试过程

针对每种HASH算法,我们使用了t-rex软件的benchmark模型,在单个3090显卡上进行测试,每次测试持续10分钟时间,并记录了最终的性能数据,如下表所示。

浪潮NF5468A5+单卡RTX3090 HASH算法测试

算法ETHASHETCHASHAUTOLYKOS2BLAKE3MTPMTP-TCROCTOPUS

性能108MH/s108MH/s232MH/s2.44GH/s7.23MH/s28.78MH/s103.07MH/s

算法KAWPOWPROGPOWPROGPOW-VEILPROGPOW-VERIBLOCKPROGPOWZFIROPOW/

性能55MH/s54.4MH/s54.85MH/s27.31MH/s54.37MH/s54.91MH/s/

其中ETHASH算法的单卡性能达到了108MH/s。

这在很大程度上得益于NF5468A5优秀的散热设计。RTX3090的功耗高达350W,在区块链场景,显卡通常是7*24小时运行,因此对散热的要求非常高。笔者监控了整个测试过程中的GPU功耗和温度情况,发现在长达半天的测试过程中,虽然GPU功耗长期维持在330~340W之间,但是GPU的温度一直维持在60℃左右,甚至在多卡同时运行时,GPU的温度也能保持在60℃左右,可以看出NF5468A5的散热设计做得相当不错。

3. NF5468A5服务器测评总结

通过对产品外观和内部设计的评测,我们看到,浪潮NF5468A5在产品设计上,存储、计算、风扇、GPU扩展等各模块简洁明朗,尤其是巧妙的分区散热设计有效实现CPU与GPU模组的分流,丰富的存储+IO扩展性,同时人性化的设计以扎实的做工,也彰显出浪潮对产品细节的严谨和大厂雄厚的设计实力。

在整体实际性能的综合测试,得益于浪潮高效的产品架构,最大发挥CPU与GPU之间的通讯效能,处理器计算效率达到93.74%,实测内存带宽373 GB/s,搭配8张A100训练ResNet50模型得到每秒处理21486张图片的惊人算力,在ImageNet数据集下进行ResNet50推理测试展现超出T4标称13%的图片处理能力,这台算力猛兽全方位的表现,相信给笔者和大家都留下了深刻的印象。

此外,ETHASH算法单卡性能突破100MH/s;很好地支持寒武纪国产推理卡,轻松实现每秒处理图片超7000张;搭载视频转码卡M10A展示了480fps1080P视频转码性能。浪潮NF5468A5还有很多意想不到的潜能,笔者期待进一步的发掘,给大家带来更精彩的评测。

审核编辑 :李倩

  • gpu
    gpu
    +关注

    关注

    27

    文章

    2841

    浏览量

    116766
  • 服务器
    +关注

    关注

    10

    文章

    4564

    浏览量

    76797
  • AI
    AI
    +关注

    关注

    85

    文章

    20402

    浏览量

    238483
收藏 人收藏

    评论

    相关推荐

    穿梭于货架之间的AI:数百家日本便利店开始使用机器人补货

      总部位于东京的初创企业 Telexistence 本周宣布将在日本数百家全家(FamilyMar....
    发表于 08-12 17:54 29次 阅读
    穿梭于货架之间的AI:数百家日本便利店开始使用机器人补货

    ALMCB使用说明书

    ALMCB板是控制系统的核心部分,按照模块化设计,包含了OCSS(操作控制)、 MCSS(运行控制....
    发表于 08-12 17:29 8次 阅读

    边缘AI推理将覆盖60%设备,莱迪思FPGA+sensAI 4.1组合拳如何打?

    ABI的研究调查表明,预计到2024年设备端的AI推理功能将覆盖近60%的设备。FPGA作为实现边缘....
    的头像 花茶晶晶 发表于 08-12 16:39 256次 阅读
    边缘AI推理将覆盖60%设备,莱迪思FPGA+sensAI 4.1组合拳如何打?

    英伟达AI技术 助体育运动大数据分析和收集提升内容价值

    人工智能在大数据分析应用的作用越来越大,更多的专业数据分析也开始采用上基于英伟达AI 技术来大幅提升....
    的头像 电子麦克风 发表于 08-12 16:32 278次 阅读
    英伟达AI技术 助体育运动大数据分析和收集提升内容价值

    如何设置 Cloudflare 的免费 DNS 服务——世界上最快、最私密的服务

    Cloudflare 比领先的 DNS 系统快 28%,可防止 ISP 监控您的网络流量
    的头像 陈利妮 发表于 08-12 15:52 72次 阅读
    如何设置 Cloudflare 的免费 DNS 服务——世界上最快、最私密的服务

    使用高集成度MCU实现网络支持的技术

    制造的 DSC80C400是一款高度集成的基于 8051 的 MCU,包括用于汽车和工业网络的 CA....
    发表于 08-12 15:03 40次 阅读
    使用高集成度MCU实现网络支持的技术

    快手正式对外官宣自研芯片 以自用为主

    该芯片由快手旗下的芯片公司北京流溪湖科技有限公司所研制,这款芯片的推出也是为其视频云服务Stream....
    的头像 电子发烧友网 发表于 08-12 14:18 92次 阅读

    壁仞科技发布首款通用GPU芯片 苹果智能指环专利曝光

    近日,亚马逊宣布将以约17亿美元的价格收购真空吸尘器制造商iRobot。根据公告,亚马逊表示,将以每....
    的头像 Camsense 发表于 08-12 13:50 107次 阅读

    机器学习更接近您附近的微控制器

    广泛应用于基于云的人工智能,机器学习即将开始出现在微处理器和微控制器硬件中
    发表于 08-12 12:00 0次 阅读
    机器学习更接近您附近的微控制器

    芯动科技风华2号GPU与麒麟操作系统完成互认证

    近期,由芯动科技(INNOSILICON)自主研发的“风华2号”GPU与银河麒麟桌面操作系统全面完成....
    的头像 芯动科技Innosilicon 发表于 08-12 11:37 121次 阅读

    NVIDIA Studio技术如何加速创意工作流

    编辑注:本文是 NVIDIA Studio 创意加速系列的一部分,该系列旨在介绍一些特邀艺术家、提供....
    的头像 NVIDIA英伟达企业解决方案 发表于 08-12 11:21 128次 阅读

    NVIDIA SIGGRAPH的最新发布与重要更新

    在今年的 SIGGRAPH 2022 上,NVIDIA 宣布,为基于通用场景描述(USD)连接和构建....
    的头像 NVIDIA英伟达企业解决方案 发表于 08-12 11:14 90次 阅读

    NVIDIA谈引发图形革命的三大驱动力

    AI、虚拟世界和数字人正在推动视觉设计进入更宽广的轨道。
    的头像 NVIDIA英伟达企业解决方案 发表于 08-12 11:12 82次 阅读

    NVIDIA Instant NeRF赢得SIGGRAPH最佳论文

    世界各地的开发者和创作者下载了来自 NVIDIA Research 的最新代码,以使用 2D 图像创....
    的头像 NVIDIA英伟达企业解决方案 发表于 08-12 11:10 128次 阅读

    浅谈实时软件进程中的阻塞行为和缓冲

    使用XC 的XMOS 平台上,服务器和客户端进程将是 XC 线程,通信机制将是 XC 通道。   ....
    发表于 08-12 11:06 44次 阅读
    浅谈实时软件进程中的阻塞行为和缓冲

    利用Yocto/OpenEmbedded进行嵌入式软件部署

      该过程确保使用明确定义的第三方版本以及我们自己的组件自动创建我们的图像,并简化了通过部署清单手动....
    的头像 星星科技指导员 发表于 08-12 10:39 89次 阅读

    提高基于Linux的网络连接系统的安全性

      所描述的服务和方法使用 IPv4 协议。IPv6 协议的安全配置被忽略,这使得保持启用是不安全的....
    的头像 星星科技指导员 发表于 08-12 10:34 139次 阅读

    IP平台支持云连接设备开发

      越来越广泛的高度便携应用平台,如 Linux、Android 和复杂的实时操作系统 (RTOS)....
    的头像 星星科技指导员 发表于 08-12 10:27 23次 阅读

    Kneron的3D AI解决方案满足安全防范和现代化管理需求

    Kneron创办人暨执行长刘峻诚表示:“Kneron致力于发展人工智能在终端装置上的应用,3D AI....
    发表于 08-12 10:15 25次 阅读

    简化SBC的嵌入式Linux软件开发

      Eclipse 提供了一个环境,让 GNU 工具和商业工具可以一起发挥作用。只需稍加集成,OEM....
    发表于 08-12 09:39 62次 阅读
    简化SBC的嵌入式Linux软件开发

    瑞为智慧机场解决方案覆盖全国2/3的千万级机场

    扎根租住行业的7年,深圳市优电智能有限公司(以下简称“优电智能”)的创始团队对这句话的理解应该更加深....
    的头像 瑞为技术Reconova 发表于 08-12 09:02 104次 阅读

    基于Redfish的COM-HPC平台管理接口

      开发人员现在可以决定是否需要具有 COM-HPC PMI 的模块,或者是否足以通过载板上的 BM....
    的头像 星星科技指导员 发表于 08-11 17:06 88次 阅读

    单个器件中的表面贴装保险丝额定电流高达100A

    这些器件还具有令人印象深刻的电气特性。在 75 V 工作电压下,它们的额定电流范围为 60 至 10....
    发表于 08-11 16:45 33次 阅读

    使用AI技术改进医学成像

      RDMA 的一个典型用例是超声波。在大多数情况下,超声波利用 FPGA 等前端设备在数据到达 G....
    的头像 星星科技指导员 发表于 08-11 16:37 228次 阅读

    边缘分析补充云计算

      实时性能和更快的处理速度:边缘计算显着减少了必须通过网络发送的数据量,从而减少网络拥塞并加快运行....
    的头像 星星科技指导员 发表于 08-11 16:30 114次 阅读

    物联网如何改变医疗保健行业

      数字医疗保健系统利用物联网和大数据与患者建立无缝数字连接。这些系统也越来越多地通过互联网连接到各....
    发表于 08-11 16:28 48次 阅读

    为什么智能医院的医疗级平板电脑

      具有 3D 医学成像功能的 MXM 显卡还将医学成像提升到一个新的水平,并且还允许集成网络摄像头....
    的头像 星星科技指导员 发表于 08-11 15:59 187次 阅读

    通信周动态

    行业相关 1、筑路数字经济 中兴通讯携创新终端产品亮相2022世界5G大会 8月10日,中兴通讯亮相....
    的头像 研精毕智 发表于 08-11 15:33 121次 阅读

    创新促进科技发展,云端未来亮相第十届电子信息博览会

    8月16日,以“奋进十载,智创未来“为主题的第十届电子信息博览会(CITE2022)在深圳会展中心举....
    的头像 科技发烧友 发表于 08-11 15:18 335次 阅读
    创新促进科技发展,云端未来亮相第十届电子信息博览会

    GPU引擎增强了超声检测到的大脑运动计算

      平均而言,GPU 计算位移的时间为 51.50 毫秒,而 CPU 计算的时间为 621.5 毫秒....
    的头像 星星科技指导员 发表于 08-11 15:00 126次 阅读
    GPU引擎增强了超声检测到的大脑运动计算

    去中心化互联网的优缺点

    CNBC将区块链定义为“任何有互联网连接的人都可以使用的全球在线数据库,但它不属于任何人。” 作为比....
    发表于 08-11 14:27 30次 阅读

    燧原科技发布基于OAI的E级液冷人工智能系统解决方案

    8月10日第四届OCP China Day 2022在北京召开,燧原科技与OCP Foundatio....
    的头像 燧原科技Enflame 发表于 08-11 14:08 199次 阅读

    下一代人工智能基础设施的特征

    自动驾驶领域在近两年被大家所熟悉,主要的市场诱导因素是Tesla在辅助智能驾驶和采用全视觉技术的影子....
    发表于 08-11 10:02 64次 阅读

    零距离了解昇腾AI的软硬件能力

    旅行中的我们,总是在看一些关于过去的东西,比如自然的造化,历史的遗存。但或许你也会偶尔有个想法,想在....
    的头像 华为数字中国 发表于 08-11 09:54 294次 阅读

    基于昇腾AI的MoloSight针对不同的使用场景提供3种不同版本选择

    近日,基于昇腾AI,摩赛恩与华为携手推出质谱智能计算系统MoloSight,并正式加入昇腾万里伙伴计....
    的头像 华为计算 发表于 08-11 09:49 218次 阅读

    2024年设备端AI推理功能将覆盖近60%的设备

    去年莱迪思发布了sensAI 4.1解决方案,当时介绍的一个典型案例是用于PC智能和感知体验。如今,....
    的头像 电子发烧友网 发表于 08-11 09:32 181次 阅读

    NVIDIA Jetson TX2 NX GPU助力微链DaoAI加速数据处理

    微链 DaoAI是市场领先的3D 视觉和 AI 机器人系统供应商,拥有全球领先的 3D 视觉认知技术....
    的头像 NVIDIA英伟达企业解决方案 发表于 08-11 09:31 120次 阅读

    NVIDIA发布Omniverse重要版本

    NVIDIA 新发布的工具和功能包括:Avatar Cloud Engine;DeepSearch ....
    的头像 NVIDIA英伟达 发表于 08-11 09:29 77次 阅读

    全新NVIDIA Omniverse ACE加速虚拟形象开发工作

    Omniverse Avatar Cloud Engine(ACE)为游戏、聊天机器人、数字孪生和虚....
    的头像 NVIDIA英伟达 发表于 08-11 09:24 120次 阅读

    NVIDIA 将为StreamLake释放更多视频云计算能力

    8 月 10 日,快手 StreamLake 品牌发布会正式举办,以“云启共生·水润万象”为主题,推....
    的头像 NVIDIA英伟达 发表于 08-11 09:19 130次 阅读

    参天生长大模型:昇腾AI如何强壮模型开发与创新之根?

    自2018年谷歌发布BERT以来,预训练大模型经过几年的发展,以强大的算法效果,席卷了以NLP为代表....
    的头像 脑极体 发表于 08-11 09:10 254次 阅读

    MediaTek APU以DLA VPU为核心 高能效AI赋能全场景体验

    为新趋势而生 MediaTek APU 以深度学习加速器(DLA)、视觉处理单元(VPU),以及基于....
    发表于 08-10 19:30 104次 阅读

    小成本的V853 AI小开发板DIY设计

    全志最新发布的V853芯片拥有1T的NPU算力,还有Arm+RISC-V+NPU三核异构和丰富的音视....
    的头像 全志在线 发表于 08-10 17:36 93次 阅读

    AI+边缘计算,让城市治理难题“看得见”

    国家“十四五”规划纲要强调“加快数字化发展,建设数字中国”,提出“以数字化助推城乡发展和治理模式创新....
    的头像 英码科技 发表于 08-10 16:59 135次 阅读
    AI+边缘计算,让城市治理难题“看得见”

    下一代IIoT生态系统助力开发人员

    通过自定义的OPC UA 应用程序可以帮助工业组织管理现场设备,降低总体运营和维护成本。
    的头像 city_prolove 发表于 08-10 15:07 79次 阅读

    基于NI USRP高思科技通感一体科研平台 赋能更多细分应用

    随着6G行至深处,作为其关键技术之一的通信感知一体化(ISAC)的研究获得了高度关注。通信感知一体化....
    的头像 恩艾NI知道 发表于 08-10 14:22 323次 阅读

    SVSSVR-N 通过IPv6 Ready Logo认证

    近日,数安时代科技股份有限公司旗下签名验签服务器 / SVSSVR-N在下一代互联网国家工程中心-全....
    的头像 世界资讯 发表于 08-10 14:09 41次 阅读
    SVSSVR-N 通过IPv6 Ready Logo认证

    DesignCon芯片和电路板盛会强调合规性和 AI 辅助测试

    从汽车到物联网,从芯片到电路板等等,降低成本和提高测试可预测性的目标取得了实质性进展
    发表于 08-10 11:33 5次 阅读
    DesignCon芯片和电路板盛会强调合规性和 AI 辅助测试

    ARM服务器构架&开源软件系统分享

    ...
    发表于 08-05 14:18 1209次 阅读

    基于Eclipse paho-mqtt源码包的MQTT客户端设计(上)

    MQTT 软件包介绍 Paho MQTT 是 Eclipse 实现的 MQTT 协议的客户端,本软件包是在 Eclipse paho-mqtt 源码包的基...
    发表于 08-04 16:28 2388次 阅读

    怎么使用ARM处理器上的GPU进行编程工作呢

    怎么使用ARM处理器上的GPU进行编程工作呢?有哪位大神可以解释一下 ...
    发表于 08-04 14:17 1691次 阅读

    求助,CH579工作在DHCP模式时socket重连怎样操作才比较标准?

    CH579工作在DHCP模式,通过MQTT连接外界服务器,网络存在各种异常情况导致MQTT掉线,CH579如何重连比较可靠呢?...
    发表于 08-03 09:28 84次 阅读

    基于RT-Thread+RA6M4的Lora网关设计方案分享

    1、基于RT-Thread+RA6M4的Lora网关设计 本项目使用RA6M4和Lora模组Ra-01组成简易Lora网关。网关将接收子设备发送的...
    发表于 07-29 14:39 1389次 阅读

    在有root用户和无root用户情况下如何完成jdk的安装

    前言 在Linux系统中,如果需要使用诸如zookeeper等中间件之前,都需要先行在Linux系统中安装jdk。 1、获取jdk安装包 jdk安装...
    发表于 07-28 15:25 1384次 阅读

    构建黑色家庭服务器的教程

    描述 黑色家庭服务器 使用此设备控制和监督您的家,您不需要云,它是您个人应用程序的个人云,由于覆盆子 CM4 的强大功能,除...
    发表于 07-25 07:20 540次 阅读

    请问大神如何使用RK3568的自带系统上的GPU呢

    请问大神如何使用RK3568的自带系统上的GPU呢?有什么方法吗 ...
    发表于 07-22 16:27 2342次 阅读

    SYN Flood攻击的原理是什么?如何实现呢

    我们知道,TCP 协议是一个可靠的、面向连接的协议。因此,使用 TCP 方式进行网络通信前,首先要进行建立连接。 三次握手过...
    发表于 07-19 14:40 1024次 阅读

    视频大数据采集怎么选服务器?

    硬件的要求 要是做数据采集的话,硬件配置是比较重要的,无论是网站爬虫还是内容采集,对于数据库生成的索引文件的压力是比...
    发表于 07-19 09:38 11202次 阅读