0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“高举高打”挑战云端AI训练芯片

新思科技 来源:新思科技 2020-08-28 15:35 次阅读

-燧原科技-

“数据”这一人类自身创造的资源,在算力的开启下,已正式拉开人类对数字经济新模式的探索序章。以数据中心智能计算中心为代表的算力基础设施以及人工智能AI)产业,在“新基建”的助推下将迎来爆发式增长,而这两者的基础层硬件核心就是AI芯片

“高举高打”

挑战云端AI训练芯片

云端AI的实现包括两个环节:训练、推理。用于构建神经网络模型的训练芯片,首先需要使用大量数据进行训练操作,对模型进行训练(Training),整个过程可能耗时数天,通常需要通过大量的数据输入让芯片做海量繁复运算;利用训练好的模型响应实际请求,使用新的数据去“推断”(Inference)出各种结论。

▲ 图1:AI训练和推断的区别和联系。来源:腾讯云社区 云端训练芯片难度大、壁垒高、开发周期长,必须用到最新半导体工艺和高级封装技术,而且在配套软件上也需要很强的支持。同时芯片越大,整个设计难度也会呈指数级上升。单从芯片晶圆制造所用的掩膜(mask)层级来看,AI训练芯片与AI推理芯片的难度差异好比建一座70-80层大厦与建一栋20-30层楼房的区别。在过去5年中,国内新增的AI研发类初创公司数量多达上千家,其中云端推理百家争鸣,而针对云端训练做加速的初创芯片公司寥若晨星。 2019年12月11日燧原科技发布首款云端AI训练芯片——“邃思”,这款芯片不仅代表了国内同类最高性能,即使放眼全球最顶尖的产品,其算力依然旗鼓相当。“我们的两位创始人非常靠谱,都是真正能够做成事的人。”谈到自己与燧原科技的结缘,项目组合管理负责人(Portfolio Management Office,PMO)Tina表示,“两年前,AI训练芯片领域是一片蓝海,虽然挑战更大,但我很了解这个团队的技术实力和过往的工程实战经历,我相信我们有能力把握住这个市场机会,收到邀请后我就在公司创立的第三个月加入了燧原,和靠谱的人一起迎接挑战。” 作为一家新创公司,只用18个月打造云端AI训练芯片,除了燧原创业团队的多年技术积淀,首战告捷的另一个关键要素正是它对建立科学的工程化方法学的重视,而这一点是目前中国IC设计产业普遍缺乏,却是真正打造强“芯”的必由之路。

PMO:

让公司的每一个项目都成功

行军打仗,瞬息万变。想要在一场战役中取得胜利,方向正确,团队协同,步步为营是关键。一步一个脚印地打下一个个山头,最终带领整个团队取得胜利,助力公司在一个个关键项目取得成功是PMO的终极使命。

战略决策支持

使公司战略与项目执行形成信息双向反馈,帮助公司做出正确的决策,并确保公司的战略落实到项目,做到战略和执行的闭环。

端到端项目管理

PM对每个项目进行完整生命周期的管理,以纵观全局的角度,高效协同多个项目;以客户需求为导向,对项目做好风险把控,最终保证项目高效地执行并成功地交付。

最佳实践中心建立最佳实践与集训中心机制,保证燧原各项目之间的成功可复制、经验有传承。

▲图2:燧原科技的PMO闭环模型 PM是运筹帷幄的军师,在分析事实、问题折叠与拆解、资源配置的每一步路上,必须拥有全局观、对产品有完整的理解及敏锐的洞察力,一如Tina领导的PMO“军师联盟”始终在正确的道路上航行,与各环节团队并肩作战,完成一个个项目的攻坚。

在探索和创新的过程中

方法学就是工具

相比成熟的大芯片公司,全新的架构、团队及有限的资源,燧原的创芯之路也并不平静。回望一路经历的挑战,在项目执行的过程中保持团队的高度协调、保持效率,保证最终按时按质的完成交付,燧原已经熔炼出一套独门心法。 “大概在2018年11、12月前后,整个芯片的开发临近设计冻结的里程碑,理论上来讲这个时间点所有的设计、所有的IP应该都已经完成了开发,只需要进行最终一轮集成,就可以进入流片前的最后一轮物理实现阶段。这时出现了突发状况,一个非常关键模块的验证出现延迟,同时又产生了功能变更的新需求,一旦解决不好,不仅项目计划会延期,甚至流片后的产品质量也将难以保证。”当时的挑战还历历在目,Tina条理清晰的复盘了当时的举措:

Reset

重新梳理需求的优先级,快速锁定,把需求的串扰先解决掉;

Prioritize

把已经出现的所有问题再次梳理,在资源和时间有限的情况下抓大放小,先解决主要矛盾;

Reorganize

对资源进行了重新配置,把非关键路径上的资源调度到关键路径上来,优先解决重要的事情;

Plan

对整个项目下游的所有环节做详细的统筹规划,确保可以最大程度上把这个模块对于系统可能会出现的影响消解掉。

完善的方法学离不开EDA工具和平台的配套支持,“新思科技完整的工具链和成熟稳定的IP,帮助我们在架构设计前期就能验证架构思路,并且加快SoC的收敛;从软硬件迭代的角度,借助新思的VDK平台、ZeBu平台和技术支持,我们使软件开发测试工作提前了三个月以上,极大缩短后续硬件加速器或者FPGA平台上的软硬协同验证的时间。“在Tina看来,评估并聚合资源以保障项目进度与质量,对复杂的AI训练芯片能加速面世尤为关键。 燧原用18个月的时间,向行业展示了其过硬的研发实力,但作为一家云端AI芯片的初创公司来说,真正硬核的是燧原科技“靠谱” 的团队DNA,完整的工程化方法学加持高效专业的团队,每一个细节都在为成功加码。

迎接芯片PM大时代

今年3月,国家提出了加快新型基础设施建设(“新基建”)的战略目标,作为云端训练芯片的主战场,人工智能和数据中心均被列为重点发展方向。AI市场需求不断扩大,其需求的多样性也在增加,全新业务场景、业务模型、技术框架随之而来,推动芯片公司必须推出更加创新的架构和设计,以及始终不变的——更快、再快的市场需求响应速度。 面对这些挑战,需要整个上下游产业链共同发力——成熟创新的优秀人才、与时俱进的EDA工具、稳定可靠开放的IP核、先进的制造和封装技术、更好地协作方式和技术支持等,共同赋能芯片开发,达到缩短设计周期,实现更可控的、风险更低的开发过程。 从职业发展角度出发,Tina也谈到身为一位PM的自我修养:“PM需要一定的技术背景,因为在带领项目的过程中,需要和研发团队无缝交流;此外,对PM这个角色以及对集成电路这个行业来说,终身学习是我们所有人都需要拥抱的一个行业特质,终身学习的能力和个人愿望非常重要。当然还有一些像沟通能力、组织能力、逻辑思维能力等基本素质必须过关。” 在复杂度呈指数升级的后摩尔时代,正有这样一群默默奉献的人也开始成为创“芯“的中流砥柱,为IC开发项目的成功保驾护航。伴随国家和社会对人工智能和集成电路产业的重视加深,两大领域的前景一片欣欣向荣,然而关注度的爆发改变不了芯片开发周期长、投入大、风险高、复杂度高的事实。Tina展望道:“若想做好芯片,除了技术扎实之外,对于科学、完善的项目管理体系的重要性,我想业内越来越多有识之士也认识到了这一点。这背后也会对PM这个职业有一个正向的促进作用,我相信未来会有越来越多优秀的人才加入到PM这个岗位中来,一同推动集成电路行业的繁荣发展。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    446

    文章

    47655

    浏览量

    408562
  • 神经网络
    +关注

    关注

    42

    文章

    4558

    浏览量

    98605
  • AI
    AI
    +关注

    关注

    87

    文章

    26306

    浏览量

    263903

原文标题:燧人取火非常业,AI世界日日新

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌发布Axion新款数据中心AI芯片,性能超越x86及云端

    谷歌预计将通过Google Cloud提供Axion AI芯片给客户。谷歌强调这款基于ARM的CPU产品具有优越的性能表现,甚至超越了传统的x86芯片云端通用ARM
    的头像 发表于 04-10 16:32 423次阅读

    黑马Groq单挑英伟达,AI芯片要变天?

    AI训练AI推理
    的头像 发表于 02-26 12:01 109次阅读

    英伟达将用AI设计AI芯片

    AI芯片行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月19日 17:54:43

    #芯片 #AI 世界最强AI芯片H200性能大揭秘!

    芯片AI
    深圳市浮思特科技有限公司
    发布于 :2023年11月15日 15:54:37

    云边AI的必然趋势和硬件承载

    云边AI是指把AI大模型和算法在云端训练和优化后,部署到边缘设备上运行,从而将AI能力融入终端设备。在前期的
    的头像 发表于 11-07 17:46 353次阅读
    云边<b class='flag-5'>AI</b>的必然趋势和硬件承载

    硅谷:设计师利用生成式 AI 辅助芯片设计

    如何助力芯片设计,后者是当今最复杂的工程工作之一。   这项工作展示了高度专业化领域的公司如何利用内部数据训练大语言模型,从而开发提高生产力的 AI 助手。   像半导体设计这样如此具有挑战
    发表于 11-01 14:45 160次阅读
    硅谷:设计师利用生成式 <b class='flag-5'>AI</b> 辅助<b class='flag-5'>芯片</b>设计

    训练大语言模型带来的硬件挑战

    生成式AI和大语言模型(LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大语言模型,训练这些模型带来的硬件挑战,以及GPU和网络行业如何针对训练的工作负载不断优化硬件。
    的头像 发表于 09-01 17:14 1081次阅读
    <b class='flag-5'>训练</b>大语言模型带来的硬件<b class='flag-5'>挑战</b>

    AI新品 | 兆瀚RA5900-B AI训练服务器

    END 原文标题:AI新品 | 兆瀚RA5900-B AI训练服务器 文章出处:【微信公众号:拓维信息】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 08-14 17:25 615次阅读

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    AI芯片的优势和主要挑战 AI芯片和存储芯片的区别

      AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。当前,AI芯片主要
    的头像 发表于 08-03 17:19 2059次阅读

    NVIDIA Omniverse让AI训练变得更加简单易用

    Rendered.ai 将 NVIDIA Omniverse Replicator 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。
    的头像 发表于 07-24 09:14 821次阅读
    NVIDIA Omniverse让<b class='flag-5'>AI</b><b class='flag-5'>训练</b>变得更加简单易用

    统统上云!NexSight功能上新,这些场景在云端就解决了

    NexSight是一款基于深度学习的云端工业AI视觉算法平台,以阿丘科技自研视觉算法库为核心,云端一站式构建常见场景工业AI视觉检测模型。任意电脑联网登录即用,不限终端!内置自动化
    的头像 发表于 07-04 10:06 561次阅读
    统统上云!NexSight功能上新,这些场景在<b class='flag-5'>云端</b>就解决了

    什么是预训练AI模型?

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 625次阅读

    人工智能训练数据集:误区、挑战与应对方法

    人工智能训练数据集是人工智能技术发展中至关重要的一环。然而,在构建和使用数据集时,我们常常会遇到一些误区和挑战,这些问题可能会影响数据集的质量和使用效果。本文将探讨人工智能训练数据集的误区、
    的头像 发表于 04-27 17:50 689次阅读