All Programmable 器件的灵活性
赛灵思器件经过精心设计,能满足多种高性能终端系统的计算、效率、成本和灵活性需求。赛灵思将硬件可编程资源(例如逻辑、走线和 I/O)与灵活、独立的集成内核模块(例如 DSP Slice 和 UltraRAM)组合在一起,全部构建在领先的工艺技术上,例如台积电 (TSMC) 的 16nm FinFET 工艺技术,从而达到这种平衡。
赛灵思器件具备硬件可编程性和灵活性,意味着底层硬件通过配置可满足给定工作负载的需求。随后,甚至在运行时也可通过部分重配置功能方便地重新配置数据路径 [ 参考资料 35]。图 4 试图捕捉赛灵思 All Programmable 器件提供的部分灵活性,但是赛灵思器件的真正灵活性无法通过单张图片来体现。内核(或用户设计元素)可以直接连接可编程 I/O、任意其它内核、LUTRAM、block RAM 和UltraRAM、外部存储器等。

图 4 :All Programmable 数据路径和任意到任意 I/O
赛灵思器件具有独特的硬件可编程性,意味着它们不存在特定局限性,例如 SIMT 或固定数据路径。无论是大规模并行、适度并行、流水线连续或者混合形式,都能获得赛灵思器件的计算能力和效率。此外,如果底层算法改变(例如机器学习网络的发展),则平台也能相应调整。
很多系统和工作负载中都能看到赛灵思器件发挥灵活性优势。其中一种工作负载就是机器学习推断。机器学习推断的趋势之一是向稀疏网络过渡。赛灵思器件的用户已经在利用这种趋势。英伟达公司本身就是这些用户中的一个。在最近与英伟达联合编写的关于语音辨识的一篇文章中,通过使用赛灵思FPGA,相对 CPU 实现了 43 倍速度提升和 40 倍效率提升,相对 NVidia GPU 实现了 3 倍速度提升和11.5 倍效率提升 [ 参考资料 36]。可编程数据路径还减少了赛灵思 FPGA 批处理需求。批处理是系统的时延 vs 实时性能的重要决定因素。
从大数据角度看,赛灵思器件的灵活性也展现出明显优势。赛灵思 FPGA 在处理 SQL 工作负载时非常高效和快速,包括具有复杂数据(例如可变长度字符串)的情况。百度利用基于赛灵思 Kintex®UltraScale ™ KU115 器件的加速卡实现了 25 倍以上的提速。该加速卡的功耗仅 50W。百度该解决方案的效率比 GPU 方案快 4 倍 [ 参考资料 37]。对于文本和图案匹配工作负载,研究表明基于赛灵思的RegEx 方案比 CPU 方案快 14.5–18 倍,比 GPU 方案快了将近 3 倍 [ 参考资料 38][ 参考资料 39]。
基因组分析是另一个切实的实例。有人已经利用 GPU 来加速基因组分析,可相较于 Intel Xeon CPU 方案提速 6–10 倍 [ 参考资料 40]。不过,赛灵思 FPGA 的提速效果要高得多,相较于同等 CPU 可提速 80倍 [ 参考资料 41]。
赛灵思器件的灵活性还使其成为云服务提供商的理想选择,可作为计算平台即服务的一部分。多种类型的软件即服务都可以利用赛灵思器件的优势。
最后,对于正在努力研发自动驾驶功能的汽车系统设计人员来说,赛灵思器件的灵活性能够为他们提供可扩展的平台,用以满足完全自动驾驶道路上的各种美国汽车工程师学会 (SAE) 标准。如需了解关于SAE 标准的更多信息 , 敬请访问 SAE 网站。赛灵思器件可以高效处理来自各种源头的传感器数据,例如雷达、照相机和超声波,同时保持系统的实时 / 时延目标。
任意到任意 I/O 灵活性
除了器件计算资源的灵活性,赛灵思的任意到任意 I/O 灵活性能够确保器件可无缝集成到现有的基础架构,例如直接连接到网络或存储设备,无需使用主机 CPU [ 参考资料 42]。I/O 灵活性还允许平台针对基础架构的变化或更新进行调整。
片上存储器
如表 2 所示,赛灵思器件提供业界领先的灵活、高带宽、低时延的 500Mb 片上存储器 [ 参考资料 44]。如此大的片上存储器缓存意味着工作负载的很大一部分存储器要求都能通过片上存储器来满足,从而减小外部存储器访问带来的存储器瓶颈问题,以及高存储器带宽解决方案(例如 HBM2)的功耗和成本问题。例如,针对大多数深度学习网络技术(例如 GoogLeNet)的系数 / 特性图都可存在片上存储器中,以提高计算效率和降低成本。
表 2 :器件片上存储器大小

片上存储能消除片外存储器访问引起的巨大时延问题,将系统的实时性能最大化。
封装内的 HBM
针对需要高带宽存储器的情况,赛灵思在部分 Virtex UltraScale+ 器件中提供 HBM。除了封装内 HBM堆栈的 460GB/s 存储器带宽,赛灵思 HBM 存储器控制器还增加更大的灵活性,以便将工作负载高效映射到器件和可用存储器带宽,将效率和计算效率最大化。
功能安全性
赛灵思长期以来能够满足各种功能安全性,包括工业自动化以及最近的 ADAS。赛灵思工具和器件经过重新设计,以便支持功能安全性应用,并达到相应认证等级 [ 参考资料 45]。
因此,多家汽车制造商在安全关键型 ADAS 应用中采用 Zynq®-7000 All Programmable SoC 量产器件。Zynq UltraScale+ MPSoC 还进一步扩大对功能安全应用的支持。
结论
系统设计人员在这个新的计算时代面对不同选择。赛灵思 FPGA 和 SoC 为系统设计人员提供最低风险,帮助其满足未来系统的核心要求与挑战,同时提供足够的灵活性以确保平台在未来不会落伍。
在深度学习领域,UltraScale 架构中的 DSP 架构内在的并行性能够针对具有可伸缩 INT8 向量点积性能的神经网络加强卷积和矩阵乘法计算量。这能为深度学习推断实现更低时延。快速 DSP 阵列、最高效的block RAM 存储器层级以及 UltraRAM 存储器阵列可实现最佳功率效率。
现在,利用xilinx官网中的开发套件,以及多种设计输入工具,例如 HLS、SDSoC 和 SDAccel 工具,用户可发挥赛灵思器件的诸多优势。
参考资料
1. ZDNET."Vision and neural nets drive demand for more powerful chips."Accessed April 6, 2017.
.
2. NVidia Corporation. .
3. MJ Misic, DM Durdevic, MV Tomasevic."Evolution and trends in GPU computing" MIPRO, 2012 Proceedings of the 35th International Convention, 289-294. .
4. Nicole Hemsoth."FPGAs Focal Point for Efficient Neural Network Inference."Last accessed on April 6,
2017. https://www.nextplatform.com/2017/01/26/fpgas-focal-point-efficient-neur... ce/ .
5. .
6. Babak Falsafi, Bill Dally, Desh Singh, Derek Chiou, Joshua J. Yi, Resit Sendag, "FPGAs versus GPUs in Datacenters," IEEE Micro, vol. 37, no. 1, pp. 60-72, Jan 2017. ?arnumber=7866802 .
7. Richard Vuduc, Aparna Chandramowlishwaran, Jee Choi, Murat Guney, Aashay Shringarpure. "On the limits of GPU acceleration."HotPar'10 Proceedings of the 2nd USENIX conference on Hot topics in parallelism.Pages 13-13.Berkeley, CA.June 14–15, 2010.
8. Fowers, J., Ovtcharov, K., Strauss, K., Chung, E.S., Stitt, G.:A High Memory Bandwidth FPGA Accelerator for Sparse Matrix-Vector Multiplication.In:IEEE Int. Symp. on Field-Programmable Custom Computing Machines (2014). ?arnumber=6861585
9. B. Liu, M. Wang, H. Foroosh, M. Tappen, and M. Pensky."Sparse Convolutional Neural Networks."Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference. .
10. Yaman Umuroglu, et al."Random Access Schemes for Efficient FPGA SpMV Acceleration."Microprocessors & Microsystems Volume 47 Issue PB, November 2016 Pages 321-332. (figure 4 - shows utilization)
11. Sparsh Mittal, Jeffrey S. Vetter."A Survey of CPU-GPU Heterogeneous Computing Techniques."ACM Computing Surveys (CSUR) Volume 47 Issue 4, July 2015 Article No. 69.
12. Xilinx white paper, "Reduce Power and Cost by Converting from Floating Point to Fixed Point." Last accessed April 6, 2017.
https://www.xilinx.com/support/documentation/white_papers/wp491-floating... .
13. Marc Baboulin et al."Accelerating Scientific Computations with Mixed Precision Algorithms."Computer Physics Communications 180 (2009) 2526-2533. .
14. Suyog Gupta et al."Deep Learning with Limited Numerical Precision."ICML'15 Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37 Pages1737-1746. https://arxiv.org/pdf/1502.02551.pdf .
15. William Dally."High-Performance Hardware for Machine Learning."Last accessed April 6, 2017. https://media.nips.cc/Conferences/2015/tutorialslides/Dally-NIPS-Tutoria... .
16. NVidia Corporation."NVIDIA TensorRT."Last accessed April 6, 2017.
https://developer.nvidia.com/tensorrt .
17. Xinxin Mei, Xiaowen Chu."Dissecting GPU Memory Hierarchy through Microbenchmarking." IEEE Transactions on Parallel and Distributed Systems Volume:28, Issue:1, Page 72-86, Jan. 1 2017.
https://arxiv.org/pdf/1509.02308.pdf .
18. NVidia Corporation."Cuda C Programming Guide" Last accessed on April 6, 2017.
.
19. Mark Gebhart et al."Unifying Primary Cache, Scratch, and Register File Memories in a Throughput Processor."MICRO-45 Proceedings of the 2012 45th Annual IEEE/ACM International Symposium on Microarchitecture, Pages 96-106, Vancouver, B.C., CANADA - December 01–05, 2012.
https://research.nvidia.com/sites/default/files/publications/Gebhart_MIC... .
20. Chris Edwards."Minimize Memory Moves for Greener Data Centers" Last accessed April 6, 2017.
.
21. Vincent Vanhouckehttps et al."Improving the Speed of Neural Networks on CPUs" Proc.Deep Learning and Unsupervised Feature Learning NIPS Workshop 2011 [online] Available: .
22. Christian Szegedy et al."Going Deeper with Convolutions" Proceedings Computer Vision and Pattern Recognition (CVPR).Pages 1–9, 2015.
.
23. Funding Universe."Xilinx, Inc. History" Last accessed April 6, 2017.
.
24. Xilinx Inc. "Software Zone."Last accessed April 6, 2017.
https://www.xilinx.com/products/design-tools/software-zone.html .
25. Xilinx Inc. "Acceleration Zone."Last accessed April 6, 2017.
.
26. ANANDTECH."NVIDIA Announces Tesla P40 & Tesla P4 - Neural Network Inference."Last accessed April 6, 2017.
27. Xilinx white paper, ''Deep Learning with INT8 Optimization on Xilinx Devices."Last accessed April 6,2017.
https://www.xilinx.com/support/documentation/white_papers/wp486-deep-lea... .
28. Philipp Gysel et al."Hardware-Oriented Approximation of Convolutional Neural networks."ICLR2016.
https://arxiv.org/pdf/1604.03168v3.pdf .
29. Chenzhuo Zhu et al."Trained ternary quantization."ICLR 2017.https://arxiv.org/pdf/1612.01064.pdf.
30. Yaman Umuroglu et al."FINN:A Framework for Fast, Scalable Binarized Neural Network Inference."25th International Symposium on FPGAs, February 2017.
https://arxiv.org/pdf/1612.07119.pdf .
31. Wonyong Sunget et al."Resiliency of Deep Neural Networks under Quantization."ICLR 2016.
https://arxiv.org/pdf/1511.06488v3.pdf .
32. Nicholas J. Fraser et al."Scaling Binarized Neural Networks on Reconfigurable Logic."HiPEAC 2017.
https://arxiv.org/abs/1701.03400 .
33. Cl´ement Farabet, Yann LeCun, Koray Kavukcuoglu, Eugenio Culurciello, Berin Martini, Polina Akselrod, Selcuk Talay.Large-Scale FPGA-based Convolutional Networks.
34. C. Zhang, P. Li, G. Sun, Y. Guan, B. Xiao, and J. Cong.Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks.ACM/SIGDA ISFPGA, pages 161–170.ACM, 2015.
https://pdfs.semanticscholar.org/2ffc/74bec88d8762a613256589891ff323123e...
35. Xilinx, Inc. "Partial Reconfiguration in the Vivado Design Suite."Last accessed April 6, 2017.
https://www.xilinx.com/products/design-tools/vivado/implementation/parti... .
36. Song Han et al."ESE:Efficient Speech Recognition Engine with Sparse LSTM on FPGA."International Symposium on FPGA 2017.
https://arxiv.org/pdf/1612.00694.pdf .
37. Jian Ouyang et al."SDA:Software-Defined Accelerator for General-Purpose Big Data Analysis System."Hotchip 2014.
.
38. Shreyas G Singapura et al."FPGA Based Accelerator for Pattern Matching in YARA Framework."CENG 2015. %20CENG-2015-05.pdf .
39. Yuichiro Utan et al."A GPGPU Implementation of Approximate String Matching with Regular Expression Operators and Comparison with Its FPGA Implementation."PDPTA 2012.
https://pdfs.semanticscholar.org/2667/ac95d36ab63ae6eeb4b352f4c20dc46344... .
40. BarraCUDA."The BarraCUDA Project."Last accessed April 6, 2017.
.
41. Edico Genome."DRAGEN Genome Pipeline."Last accessed April 6, 2017. .
42. Microsoft paper, "A Cloud-Scale Acceleration Architecture."Last accessed April 6, 2017.
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/Clou... .
43. Xilinx, Inc. "UltraScale Architecture."Last accessed April 6, 2017.
https://www.xilinx.com/support/documentation/white_papers/wp470-ultrasca... .
44. Xilinx white paper, “UltraRAM:Breakthrough Embedded Memory Integration on UltraScale+Devices.”Last accessed April 6, 2017.
https://www.xilinx.com/support/documentation/white_papers/wp477-ultraram... .
45. Xilinx white paper, "Xilinx Reduces Risk and Increases Efficiency for IEC61508 and ISO26262 Certified Safety Applications."Last accessed April 6, 2017.
https://www.xilinx.com/support/documentation/white_papers/wp461-function...
电子发烧友App







评论