0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

并行驱动与异构验证,思尔芯如何面对大模型芯片的复杂挑战?

思尔芯S2C 2024-03-21 08:22 次阅读

13189d28-e719-11ee-9118-92fbcf53809c.jpg

在大语言模型时代,急剧增长的底层算力需求和多样化的创新应用催生了芯片行业的新机遇。往往机遇与挑战并存,我们又该如何面对?近日,“从设计到量产,大模型算力芯片IP和IC定制技术研讨会”在北京、上海、深圳成功举办。在此次研讨会上,思尔芯副总裁陈正国发表了精彩演讲。他强调:“大模型算力芯片设计往往呈现出几个特征,多核架构设计规模更庞大,内存带宽与内存容量需求更高、芯片功能与内部结构更复杂等等,因此对数字验证EDA解决方案提出了更高的要求。


01

复杂多核、复杂拓扑、复杂挑战

首先,大模型算力芯片往往包括性能强劲的CPU,还包括GPU(图形处理单元)、NPU(神经网络处理单元)和DPU(数据处理单元)等多核结构,功能更复杂,对安全性的要求也更高,这就对芯片设计、验证和测试提出了更大的挑战。例如,考虑到不同类型的处理单元如何协同工作,多个大小核的CPU架构在数据交互与系统调试方面变得更为复杂。此外,对于每种CPU类型,都需要进行严格的规范测试以确保其按照设计要求正确运行。因此需要帮助开发者更早发现错误,实现更快的覆盖率收敛,提升芯片验证的效率。


其次,复杂的芯片内部拓扑结构也是一项重要挑战。随着大模型算力芯片对高速接口和高吞吐量需求的不断提升,设计者需构建高效的数据传输和通信网络。例如,网络芯片(NoC)架构,由于其能够支持高速且灵活的通信网络,并联结多个处理和存储单元,因而不仅需要考虑每个单元的独立性能,更要综合考量它们之间的通信与协同工作方式。同时,Chiplet封装技术则要求确保芯片之间可以实现高速的互联、宽广的带宽、低能耗、低延迟,同时还要保持传输的高可靠性、强大的路由功能以及统一的内存处理能力等关键指标。


132c1e20-e719-11ee-9118-92fbcf53809c.jpg

大模型算力芯片呈现出的这些特征,极大地增加了系统级芯片验证的复杂性。一方面设计规模不断呈指数级增长,往往达到几十乃至数百亿门;另一方面,多核和异构核、软件内容的日益增多,进一步加剧了系统验证和测试的复杂度和耗时性。


如何加强功能验证的覆盖率和提高验证效率就成了关键因素,它们直接影响到芯片产品的最终成功。面对“如何确保设计正确芯片”,以及“确保芯片设计正确”,思尔芯公司凭借多年的技术沉淀,已经构建了一套完善的数字芯片前端EDA解决方案,包含架构设计、软件仿真硬件仿真、原型验证、调试工具等,并支持全面上云,满足多种芯片验证场景的技术需要。

02

如何面对大模型芯片的设计挑战?

“一个好的架构往往是芯片成功的一半。”陈正国在演讲中说道。“传统的架构设计往往依赖于经验丰富的架构工程师的经验和专业知识。然而,随着芯片的复杂性和规模的增加,这种传统方法已经无法满足当前的需求。这就要求引入更专业、更先进的EDA工具来应对新的挑战。“
在这方面,思尔芯的芯神匠架构设计提供了一个建模、分析、仿真和软硬件协作的平台,在设计之初就实现周密的架构探索。
在硬件设计方面,可以根据模型库快速模拟不同理器内核、总线类型、存储、仲裁机制等配置,运行仿真,直至得到理想的满足性能和功能的指标的系统架构。在软件设计方面,该软件还帮助工程师评估设计质量、激励机制、配置以及功耗对整体设计的影响,从而优化整个系统的性能和效率。在性能优化方面,支持分析总线通信量、端到端延时、系统吞吐率、最大化内存命中率等。在功耗分析方面,该软件能够测量并分析最大瞬时功耗和平均功耗,以及不同任务执行下的能耗情况,帮助工程师在设计阶段就预见和优化能耗问题。在功能安全方面,尤其是在汽车电子应用中,这款软件能够提供符合ISO-26262和DO-254标准的分析结果,通过故障注入的方式,检验硬件失效、软件失效、网络失效、RTOS失效、功耗失效等状态下的系统反应,这对于设计符合相关行业安全标准的芯片至关重要。
陈正国表示:“当我们确定了芯片系统架构后,就转入代码编写、IP集成测试、系统验证、软件验证等阶段,思尔芯提供数字芯片验证的重要法宝——软件仿真(芯神驰)、硬件仿真(芯神鼎)、原型验证系统(芯神瞳),帮助用户加速其芯片验证的效率。”
1336dd56-e719-11ee-9118-92fbcf53809c.jpg
芯神驰软件仿真是思尔芯打造的一款多语言混合、高性能的商用数字仿真器,并覆盖了当前主流的设计与验证语言标准。并采用创新架构算法,具备高效的仿真和约束求解能力,能够应对数亿门级的超大规模数字设计仿真。
思尔芯还与国微芯展开深度合作,比如:一方面联合芯神驰仿真软件平台和国微芯的模拟仿真工具,通过标准VPI接口协同工作,实现了高效的数模混合仿真;另一方面与国微芯的形式验证工具相结合,通过芯神驰仿真软件输出覆盖率报告,形式验证工具进行分析并报告出理论可达,当前测试激励未覆盖的部分,并自动生成测试激励,进而提升总体的验证覆盖率。
陈正国还介绍到,为应对芯片设计中算力需求不均衡的问题,思尔芯还与腾讯云合作,将软件仿真工具部署至云端,不仅提升了仿真并行运行效率,缩短了测试周期,还解决算力需求的波动性的问题。
虽然软件仿真能够高效地模拟和分析设计的逻辑和功能,但它通常无法完全捕捉到硬件在实际物理环境中的细微差异和潜在问题,这就需要用到硬件仿真。
陈正国介绍到,思尔芯的芯神鼎硬件仿真是我们自主研发的一款全自动、全可视的企业级硬件仿真系统,凭借多项自主知识产权的核心技术,提供了针对超大规模集成电路验证的高效解决方案。芯神鼎提供了便捷易用的软件系统,集成编译、运行、调试的完整流程。用户可依赖它轻松迁移和部署设计,享受 AI 驱动的全自动编译、MHz 级仿真加速、强大的调试功能、多种仿真验证模式和丰富的 VIP 库,全面满足当前汽车电子、AI、5G、HPC 等热门应用的芯片设计验证需求。
原型验证对于芯片设计验证同样重要。思尔芯的芯神瞳原型验证凭借20年的技术积累,已成为市场上公认的高性能、易扩展、成熟可靠的产品。客户端已成功部署60亿门系统,7*24无故障运行一年多。通过思尔芯提供完整的EDA解决方案,如自动设计编译与分割软件、远程控制与管理工具、多FPGA并行调试软件,以及丰富的外设接口子卡、内存模型、降速桥方案等,提升验证效率,缩短芯片的验证周期。
在自动化和高性能方面,芯神瞳的优势尤为突出。它的全自动编译流程可以一键处理从RTL代码直至Bitstream生成的流程,支持多种时分复用技术、总线切割技术等,大大提升了原型验证效率。系统级STA工具提供了完整的系统延时报告,包括用户设计、TDM IP、板级走线、互连线缆等延时模型,加速用户的性能迭代与优化。

03

精准芯策略加速大模型芯片开发


思尔芯作为国内首家数字EDA供应商,面向大模型芯片开发已提供高效的技术方案和战略布局。围绕精准芯策略(Precision Chip Strategy, PCS),通过异构验证方法,以及并行驱动、左移周期方法,确保芯片设计正确,确保设计正确芯片。这不仅是为了应对设计错误带来的高昂成本和错失市场机会的风险,更是为了满足大模型芯片开发中不断变化的市场需求和技术挑战。
134fd3ec-e719-11ee-9118-92fbcf53809c.jpg芯片开发一直以来都在强调设计的准确性,流片失败不仅会导致高额的成本损失,还可能使企业错过重要的市场窗口。观察整个芯片开发流程中,每个阶段的设计和验证需求是各不相同的。为了确保每一步都设计准确,就需要充分的仿真和验证。为此,思尔芯的异构验证方法整合了架构设计(芯神匠)、软件仿真(芯神驰)、硬件仿真(芯神鼎)以及原型验证(芯神瞳)等多种先进仿真与验证技术,针对不同阶段采用相应的设计与验证策略。并通过使用通用数字电路调试软件(芯神觉)和丰富的外置应用库/降速桥/VIP,建立统一的设计、验证与调试环境。从而在短时间内高效实现“确保芯片设计正确”的目标。在传统的工作流程中,许多关键环节,如软件开发和系统认证,只能在流片回来上板后才能进行。然而,随着大模型芯片开发的快速演进,若是流片后才发现早期的规格或架构错误,或是并不符合市场需求,就会导致巨大的损失。思尔芯通过“并行周期,左移周期”方法改变了这一点,即在设计初期就开始并行工作流程。使用思尔芯的芯神匠架构设计软件,团队能在设计初期就进行高效规划和架构设计。随后,通过芯神瞳原型验证与芯神匠架构设计的协同建模,可以提前进行软件开发和客户演示,甚至提前完成各种认证。这种方法大大缩短了开发时间,同时实现了设计和验证过程的时间提前,即“左移”,从而又快又好地实现“确保设计正确芯片”。通过这些设计方法和工具,思尔芯帮助客户大大加速大模型芯片的设计过程,确保设计正确芯片,确保芯片设计正确,在激烈的芯片市场中获得竞争优势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • eda
    eda
    +关注

    关注

    71

    文章

    2540

    浏览量

    170872
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10051
  • 思尔芯
    +关注

    关注

    0

    文章

    84

    浏览量

    1169
收藏 人收藏

    评论

    相关推荐

    思尔芯如何面对模型芯片复杂挑战

    在大语言模型时代,急剧增长的底层算力需求和多样化的创新应用催生了芯片行业的新机遇。
    的头像 发表于 03-20 17:29 222次阅读
    思尔芯如何<b class='flag-5'>面对</b>大<b class='flag-5'>模型</b><b class='flag-5'>芯片</b>的<b class='flag-5'>复杂</b><b class='flag-5'>挑战</b>?

    华为云盘古大模型通过金融大模型标准符合性验证

    近日,在中国信通院组织的可信AI大模型标准符合性验证中,华为云的盘古大模型表现出色,成功通过了金融大模型标准的符合性验证,并荣获优秀级(4+
    的头像 发表于 03-05 10:12 209次阅读

    异构专用AI芯片的黄金时代

    异构专用AI芯片的黄金时代
    的头像 发表于 12-04 16:42 288次阅读
    <b class='flag-5'>异构</b>专用AI<b class='flag-5'>芯片</b>的黄金时代

    天数智芯支持智源研究院首次完成大模型异构算力混合训练,突破异构算力束缚

    基于英伟达混合资源及天数智芯混合资源完成训练的大模型, 也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用 GPU 产品支持大模型训练的能力,以及与主流产品的兼容能力。 据林咏华副院长介绍,为了解决异构算力混合训
    的头像 发表于 11-30 13:10 1107次阅读
    天数智芯支持智源研究院首次完成大<b class='flag-5'>模型</b><b class='flag-5'>异构</b>算力混合训练,突破<b class='flag-5'>异构</b>算力束缚

    异构集成 (HI) 与系统级芯片 (SoC) 有何区别?

    异构集成 (HI) 与系统级芯片 (SoC) 有何区别?
    的头像 发表于 11-29 15:39 538次阅读
    <b class='flag-5'>异构</b>集成 (HI) 与系统级<b class='flag-5'>芯片</b> (SoC) 有何区别?

    芯片变身 3D系统,3D异构集成面临哪些挑战

    芯片变身 3D 系统,3D 异构集成面临哪些挑战
    的头像 发表于 11-24 17:51 304次阅读
    当<b class='flag-5'>芯片</b>变身 3D系统,3D<b class='flag-5'>异构</b>集成面临哪些<b class='flag-5'>挑战</b>

    任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法

    相比于仅使用logits的蒸馏方法,同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在异构模型的情况下,由于不同架构模型对特征的不同学习偏好,它们的中间层特征往往具有较大的差异,直接将针对同架构
    的头像 发表于 11-01 16:18 537次阅读
    任意<b class='flag-5'>模型</b>都能蒸馏!华为诺亚提出<b class='flag-5'>异构模型</b>的知识蒸馏方法

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?
    发表于 09-14 08:13

    Testcase在芯片验证中的作用

    随着半导体技术的快速发展,集成电路芯片复杂度日益增加,芯片设计中的验证工作变得越来越重要。验证的目的是确保
    的头像 发表于 09-09 09:32 616次阅读

    百度千帆大模型2.0一天可跑通大模型效果验证

    百度千帆大模型2.0一天可跑通大模型效果验证 今天的2023百度云智大会上,百度智能云宣布千帆大模型平台2.0全面升级,百度千帆大模型2.0
    的头像 发表于 09-05 16:17 723次阅读

    周期模型编译器11.4版用户指南

    ARM周期模型工具提供了一个集成环境,该环境将系统验证与硬件开发流程并行。 周期模型编译器采用RTL硬件模型并创建一个高性能的可链接对象,称
    发表于 08-16 06:30

    周期模型编译器9.2版用户手册

    ARM周期模型工具提供了一个集成环境,该环境将系统验证与硬件开发流程并行,如图1.1所示。 周期模型编译器采用RTL硬件模型并创建一个高性能
    发表于 08-12 06:46

    图解大模型训练之:数据并行上篇(DP, DDP与ZeRO)

    数据并行的核心思想是:在各个GPU上都拷贝一份完整模型,各自吃一份数据,算一份梯度,最后对梯度进行累加来更新整体模型。理念不复杂,但到了大模型
    发表于 06-16 09:54 2051次阅读
    图解大<b class='flag-5'>模型</b>训练之:数据<b class='flag-5'>并行</b>上篇(DP, DDP与ZeRO)

    浅谈芯片设计最大的挑战和机遇

    芯片以及异构3D-IC系统既是目前最大的机遇,也是面临的最大挑战。中国公司也是一个巨大的挑战,尤其在EDA领域。他们那有很多初创公司,我们向中国销售产品也变得具有
    发表于 06-08 12:38 437次阅读

    PrimeSimSPICE:异构计算模型实现数量级性能突破

    随着对更高计算性能的需求不断增加,HPC 行业正朝着异构计算模型发展,其中 GPU 和 CPU 协同工作以执行通用计算任务。在这种异构计算模型中,GPU 充当 CPU 的加速器,以减轻
    的头像 发表于 05-24 16:53 591次阅读
    PrimeSimSPICE:<b class='flag-5'>异构</b>计算<b class='flag-5'>模型</b>实现数量级性能突破