0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA基础之HLS

FPGA设计论坛 来源:未知 2022-12-02 12:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1、HLS简介

HLS(High-Level Synthesis)高层综合,就是将 C/C++的功能用 RTL 来实现,将 FPGA 的组件在一个软件环境中来开发,这个模块的功能验证在软件环境中来实现,无缝的将硬件仿真环境集合在一起,使用软件为中心的工具、报告以及优化设计,很容易的在 FPGA 传统的设计工具中生成 IP。

传统的 FPGA 开发,首先写 HDL 代码,然后做行为仿真,最后做综合、时序分析等,最后生成可执行文件下载到 FPGA 使用,开发周期比较漫长。

使用 HLS,用高级语言开发可以提高效率。

因为在软件中调试比硬件快很多,在软件中可以很容易的实现指定的功能,而且做 RTL仿真比软件需要的时间多上千倍。

HLS使用模式

2.我们为什么需要高层次综合

高层次综合(High-level Synthesis)简称 HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的电路模型的过程。所谓的高层次语言,包括 C、C++、SystemC等,通常有着较高的抽象度,并且往往不具有时钟或时序的概念。相比之下,诸如Verilog、VHDL、SystemVerilog 等低层次语言,通常用来描述时钟周期精确(cycle-accurate)的寄存器传输级电路模型,这也是当前ASICFPGA设计最为普遍使用的电路建模和描述方法。

然而,HLS 技术在近十年来获得了大量的关注和飞速的发展,尤其是在 FPGA 领域。纵观近年来各大 FPGA 学术会议,HLS 一直是学术界和工业界研究最集中的领域之一。究其原因,主要有以下几点。

第一,使用更高的抽象层次对电路建模,是集成电路设计发展的必然选择。集成电路伴随摩尔定律发展至今,其复杂性已经逐渐超过人类可以手工管理的范畴。例如,苹果 iPhone11 内置的 A13 芯片,就有着约 85 亿支晶体管


然而,根据 NEC 2004 年发布的研究,一个拥有 100 万逻辑门的芯片设计通常需要编写 30 万行 RTL 代码。因此,完全使用 RTL 级的逻辑抽象设计当代芯片是不现实的,并将对设计、验证、集成等各个环节造成巨大的压力。

相比之下,使用诸如 C、C++等高层语言对系统建模,可以将代码密度压缩 7 到 10 倍,这极大的缓解了设计复杂度。

第二,高层语言能促进 IP 重用的效率。传统的基于 RTL 的 IP 往往需要定义固定的架构和接口标准,在 IP 重用时需要花费大量时间进行系统互联和接口验证。相比之下,高层语言隐藏了这些要求,转而由 HLS 工具负责具体实现。

对于 FPGA 而言,现代 FPGA 里有着大量成熟的 IP 单元,如嵌入式存储器、算术运算单元、嵌入式处理器,以及最近逐渐兴起的AI加速器、片上网络系统等等。这些 FPGA IP 有着固定的功能和位置,因此可以被 HLS 工具充分利用,在提升 IP 重用效率的同时,简化综合算法、提高综合后电路的性能。

第三,HLS 能帮助软件和算法工程师参与、甚至主导芯片或 FPGA 设计。这是由于 HLS 工具能封装和隐藏硬件的实现细节,从而使软件和工程师能专注于上层算法的实现。对于硬件工程师而言,HLS 也能帮助他们进行快速的设计迭代,并专注于对性能、面积或功耗敏感的模块和子系统的优化设计。

3、HLS相关知识概念

HLS是高层综合(High level Synthesis),是将C或者c++语言编译为FPGA能够读懂和运行的RTL级别的语言。


HLS包含下面这些阶段


  • scheduling:确定每个时钟周期中执行哪些步骤

  • Binding:确定哪些硬件资源会被用到

  • 控制逻辑提取:提取控制逻辑,创建一个有限状态机(FSM:Finite state machine)来进行RTL的设计。

  • HLS需要对相应的c代码进行下面的综合

  • Area:用到的LUT,寄存器,BRAM和DSP48的数量

  • 时延:函数算出所有输出用的时钟周期

  • II(Initiation interval):函数可以接受新的输入数据需要的时钟周期

  • 循环迭代时延:运行一次循环需要的时钟周期

  • 循环间隔时延:新运行一次循环需要的时钟周期

  • 循环时延:运行循环需要的所有时钟周期

  • vivado HLS需要进行的步骤

  • 编译、执行(仿真)、调试相应的c语言代码

  • 把c算法综合为RTL实现,在这个过程中可以使用优化指令

  • 生成综合分析报告并分析设计

  • 验证RTL的实现

  • 打包RTL进入IP块

  • vivado HLS软件需要的输入信息

  • c函数用c/c++、SystemC、OpenCL API或者C kernel写成

  • Constrains:资源限制,例如时钟周期、时钟不确定性、与FPGA目标板

  • Directives:可选的过程,来实现特定的优化

  • c测试台(c test bench)与相关文档

  • HLS用c测试台来仿真c代码并且验证相应用c/RTL联合仿真得到的RTL输出

  • vivado HLS软件输出的信息

  • RTL实现文件,用HDL(hardware description language)语言写成,这是最重要的输出,有两种模式,VHDL语言和Verilog语言。这种实现文件会被作为IP块,并且可以被其他xilinx的设计工具所使用。

  • 报告文档:综合、c/RTL协同仿真、IP封装的输出结果。

  • Synthesis,optimization,analysis

  • 创建工程,初始solution

  • 验证相应的c没有错误

  • 运行synthesis获得一系列结果

  • 分析结果

  • 在HLS中有下面这些优化方法

  • pipeline,在上个进程运行结束前开始下个进程

  • 给函数、循环、区域指定时延

  • 针对具体的操作指令同时运行

  • 选择相应的I/O协议确保硬件可以与其他的设施相连接

4、HLS属于研究重点原因

高层次综合(High-level Synthesis)简称 HLS,指的是将高层次语言描述的逻辑结构,自动转换成低抽象级语言描述的电路模型的过程。所谓的高层次语言,包括 C、C++、SystemC 等,通常有着较高的抽象度,并且往往不具有时钟或时序的概念。相比之下,诸如 Verilog、VHDL、SystemVerilog 等低层次语言,通常用来描述时钟周期精确(cycle-accurate)的寄存器传输级电路模型,这也是当前 ASIC 或 FPGA 设计最为普遍使用的电路建模和描述方法。


使用更高的抽象层次对电路建模,是集成电路设计发展的必然选择;

高层语言能促进 IP 重用的效率;

HLS 能帮助软件和算法工程师参与、甚至主导芯片或 FPGA 设计。

二、HLS技术认识


1、与VHDL/Verilog关系

在 FPGA 硬件开发上,VHDL/Verilog 与 HLS 相比,就好比是几十年前的汇编语言与现在的 C 语言。RTL(寄存器传输级别,基于 VHDL/Verilog 语言)逐步发展,但 VLSI 系统的复杂性呈指数级增长,使 RTL 设计和验证过程成为生产力的瓶颈。

HLS(高级综合)通过提高抽象级别, 可以减少最初的设计工作量,设计人员可以集中精力描述系统的行为,而不必花费时间来实现微体系结构的细节,且验证被加速、设计空间探索(DSE)更快、定位新平台非常简单、软件工程师可以访问 HLS 等这些好处加在一起,减少了设计和验证时间,降低了开发成本,并降低了进行硬件项目的门槛,因此缩短了产品上市时间,并且在异构系统上使用硬件加速已成为更具吸引力的选择。但是在结果质量(QoR)上,HLS 工具还落后于 RTL,但 HLS 的开发时间少、生产率高这些优点还是当前用于快速原型设计和较短上市时间的可行选择。


2、关键技术问题

字长分析和优化

FPGA 的一个最主要特点就是可以使用任意字长的数据通路和运算。因此,FPGA 的 HLS 工具不需要拘泥于某种固定长度(如常见的 32 位或 64 位)的表达方式,而可以对设计进行全局或局部的字长优化,从而达到性能提升和面积缩减的双重效果。

循环优化

循环优化一直是 HLS 优化方法的研究重点和热点,因为这是将原本顺序执行的高层软件循环有效映射到并行执行的硬件架构的重点环节。

一个流行的循环优化方法,就是所谓的多面体模型,即 Polyhedral Model。多面体模型的应用非常广泛,在 HLS 里主要被用来将循环语句以空间多面体表示,然后根据边界约束和依赖关系,通过几何操作进行语句调度,从而实现循环的变换。需要指出的是,多面体模型在 FPGA HLS 里已经取得了相当的成功,很多研究均证明多面体模型可以帮助实现性能和面积的优化,同时也能帮助提升 FPGA 片上内存的使用效率。

对软件并行性的支持

C/C++与 RTL 相比,一个主要的区别是,前者编写的程序被设计用来在处理器上顺序执行,而后者可以通过直接例化多个运算单元,实现任务的并行处理。

随着处理器对并行性的逐步支持,以及如 GPU 等非处理器芯片的兴起,C/C++ 开始逐渐引入对并行性的支持。例如,出现了 pthreads 和 OpenMP 等多线程并行编程方法,以及 OpenCL 等针对 GPU 等异构系统进行并行编程的 C 语言扩展。

因此作为 HLS 工具,势必要增加对这些软件并行性的支持。例如,LegUp 就整合了度 pthreads 和 OpenMP 的支持,从而可以实现任务和数据层面的并行性。


3、存在的技术局限性

字长分析和优化需要 HLS 的使用者对待综合的算法和数据集有深入的了解,这也是限制这种优化方式广泛使用的主要因素之一。

HLS 工具的结果质量(QoR)往往落后于手动寄存器传输级别(RTL)流程的质量。

在性能和执行时间上,HLS 设计的平均水平明显较差,但在延迟和最大频率方面,与 RTL 差异不那么明显,且 HLS 方法还会浪费基本资源,平均而言,HLS 使用的基本 FPGA 资源比 RTL 多 41%,在以千位为单位的 BRAM 使用情况的论文中,RTL 更胜一筹。






精彩推荐



至芯科技12年不忘初心、再度起航11月12日北京中心FPGA工程师就业班开课、线上线下多维教学、欢迎咨询!
FPGA vs ASIC
FPGA学习-边沿检测技术
扫码加微信邀请您加入FPGA学习交流群




欢迎加入至芯科技FPGA微信学习交流群,这里有一群优秀的FPGA工程师、学生、老师、这里FPGA技术交流学习氛围浓厚、相互分享、相互帮助、叫上小伙伴一起加入吧!


点个在看你最好看





原文标题:FPGA基础之HLS

文章出处:【微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1655

    文章

    22288

    浏览量

    630340

原文标题:FPGA基础之HLS

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2025安路科技AEC FPGA技术沙龙北京站圆满落幕

    2025年11月12日,安路科技AEC FPGA技术沙龙收官站在北京圆满落幕。本次沙龙以“定制未来,共建生态”为主题,聚焦国产FPGA在边缘计算、工业控制及汽车电子等前沿领域的技术创新与生态发展,现场吸引了超250名客户代表、
    的头像 发表于 11-19 17:12 1204次阅读

    蜂鸟处理器+OV5640摄像头模块开发

    的运行。 接下来介绍OV5640摄像头模块,可以参考OV5640 datasheet,这里推荐CrazyBingo提供的教程 http://crazyfpga.com/ 。 在实际工程中
    发表于 10-31 07:59

    基于FPGA实现FOC算法PWM模块设计

    哈喽,大家好,从今天开始正式带领大家从零到一,在FPGA平台上实现FOC算法,整个算法的框架如下图所示,如果大家对算法的原理不是特别清楚的话,可以先去百度上学习一下,本教程着重介绍实现过程,弱化原理的介绍。那么本文将从PWM模块开始进入FOC算法中去。
    的头像 发表于 07-17 15:21 3130次阅读
    基于<b class='flag-5'>FPGA</b>实现FOC算法<b class='flag-5'>之</b>PWM模块设计

    基于FPGA的压缩算法加速实现

    法的速度。我们将首先使用C语言进行代码实现,然后在Vivado HLS中综合实现,并最终在FPGA板(pynq-z2)上进行硬件实现,同时于jupyter notebook中使用python来进行功能验证。
    的头像 发表于 07-10 11:09 2091次阅读
    基于<b class='flag-5'>FPGA</b>的压缩算法加速实现

    如何在Unified IDE中创建视觉库HLS组件

    最近我们分享了开发者分享|AMD Vitis HLS 系列 1 - AMD Vivado IP 流程(Vitis 传统 IDE)和开发者分享|AMD Vitis HLS 系列 2:AMD
    的头像 发表于 07-02 10:55 1136次阅读
    如何在Unified IDE中创建视觉库<b class='flag-5'>HLS</b>组件

    使用AMD Vitis Unified IDE创建HLS组件

    这篇文章在开发者分享|AMD Vitis HLS 系列 1 - AMD Vivado IP 流程(Vitis 传统 IDE) 的基础上撰写,但使用的是 AMD Vitis Unified IDE,而不是之前传统版本的 Vitis HLS
    的头像 发表于 06-20 10:06 1931次阅读
    使用AMD Vitis Unified IDE创建<b class='flag-5'>HLS</b>组件

    如何使用AMD Vitis HLS创建HLS IP

    本文逐步演示了如何使用 AMD Vitis HLS 来创建一个 HLS IP,通过 AXI4 接口从存储器读取数据、执行简单的数学运算,然后将数据写回存储器。接着会在 AMD Vivado Design Suite 设计中使用此 HLS
    的头像 发表于 06-13 09:50 1291次阅读
    如何使用AMD Vitis <b class='flag-5'>HLS</b>创建<b class='flag-5'>HLS</b> IP

    FPGA调试方式VIO/ILA的使用

    在Vivado中,VIO(Virtual Input/Output)是一种用于调试和测试FPGA设计的IP核,它允许设计者通过JTAG接口实时读取和写入FPGA内部的寄存器,从而检查设计的运行状态并修改其行为。VIO IP核提供了一个简单易用的接口,使得用户可以轻松地与
    的头像 发表于 06-09 09:32 3124次阅读
    <b class='flag-5'>FPGA</b>调试方式<b class='flag-5'>之</b>VIO/ILA的使用

    智多晶FPGA设计工具HqFpga接入DeepSeek大模型

    在 AI 赋能工程设计的时代浪潮中,智多晶率先迈出关键一步——智多晶正式宣布旗下 FPGA 设计工具 HqFpga 接入 DeepSeek 大模型,并推出 FPGA 设计专属 AI 助手——晶小助!这是
    的头像 发表于 06-06 17:06 1131次阅读

    Vivado HLS设计流程

    为了尽快把新产品推向市场,数字系统的设计者需要考虑如何加速设计开发的周期。设计加速主要可以从“设计的重用”和“抽象层级的提升”这两个方面来考虑。Xilinx 推出的 Vivado HLS 工具可以
    的头像 发表于 04-16 10:43 1356次阅读
    Vivado <b class='flag-5'>HLS</b>设计流程

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    合。未来,FPGA将更多地集成到系统级芯片(SoC)中,形成更高效的计算平台。• 开发工具与门槛降低:随着高级综合工具(HLS)和AI框架(如NVIDIA Modulus)的发展,FPGA的开发门槛逐渐
    发表于 03-03 11:21

    使用HLS流程设计和验证图像信号处理设备

    STMicroelectronics成像部门负责向消费者、工业、安全和汽车市场提供创新的成像技术和产品。该团队精心制定了一套通过模板实现的High-Level Synthesis(HLS)高层次综合流程,使得上述产品能够迅速上市。对于汽车市场,该流程符合ISO 26262标准,因此能确保可靠性。
    的头像 发表于 01-08 14:39 1142次阅读
    使用<b class='flag-5'>HLS</b>流程设计和验证图像信号处理设备

    大多数FPGA的程序存储器(FLASH)为什么都放在外面呢?FPGA的主要应用

    FPGA的主要应用:  FPGA由于其较高的价格和成本,决定了FPGA不能像单片机那样被广泛的使用,FPGA的针对于高端处理市场(类如:手机处理器,平板,工业控制系统)或许你会有些疑问
    的头像 发表于 12-24 11:04 1848次阅读
    大多数<b class='flag-5'>FPGA</b>的程序存储器(FLASH)为什么都放在外面呢?<b class='flag-5'>FPGA</b>的主要应用

    基于FPGA实现图像直方图设计

    简单,单采用FPGA来实现直方图的统计就稍显麻烦。若使用Xilinx和Altera的FPGA芯片,可以使用HLS来进行图像的加速处理。但这暂时不是我的重点。 用C语言实现直方图统计:unsigned
    的头像 发表于 12-24 10:24 1209次阅读
    基于<b class='flag-5'>FPGA</b>实现图像直方图设计

    MATLA B助力数字与模拟芯片设计:高效实现HLS、UCIe和UVM

      本文将分享 MathWorks 参与 中国集成电路设计业高峰论坛暨展览会 ICCAD-Expo 的展台展示以及发表主题演讲《MATLAB 加速数字和模拟芯片设计--高效实现 HLS、UCIe
    的头像 发表于 12-20 11:11 1273次阅读
    MATLA B助力数字与模拟芯片设计:高效实现<b class='flag-5'>HLS</b>、UCIe和UVM