昆仑芯重磅打造xHuggingface开源推理套件-电子发烧友网

新一轮人工智能热潮下，国内大模型群雄逐鹿，目前已有超过80个大模型公开测试。而相关数据显示，ChatGPT自发布以来，全球访问量环比增幅持续下降，6月首次出现环比下滑9.7%。泡沫退去，如何在大模型时代保持市场竞争力？

针对大模型场景，昆仑芯早已在产品定义上作出布局，相较第一代产品，昆仑芯2代AI 芯片可大幅优化算力、互联和高性能，而在研的下一代产品则将提供更佳的性能体验。

在近日落幕的XceedCon2023人工智能芯片生态大会上，昆仑芯大模型端到端解决方案正式发布，该解决方案随即入选2023世界人工智能大会卓越人工智能引领者奖（Super AI Leader，简称SAIL奖）TOP30榜单。

昆仑芯副总裁王勇、昆仑芯互联网行业总经理王志鹏先后在XceedCon2023人工智能芯片生态大会、2023世界人工智能大会对昆仑芯大模型端到端解决方案进行发布与推介。本篇以下内容整理自现场实录。

软硬协同、技术创新

打造高性能产品矩阵

集十余年AI加速领域研发积累，昆仑芯核心团队于2017年在Hot Chips上发布自研、面向通用人工智能计算的芯片核心架构——昆仑芯XPU。目前，已有两代昆仑芯AI芯片基于该架构实现量产和规模部署。

昆仑芯XPU专为密集型计算而设计，相比GPU可提供更多AI加速单元，同时支持C/C++、类CUDA语法编程，兼具高性能和可编程性，适配几乎所有主流AI场景，满足不同行业的大模型训推需求。

大模型的演进必将伴随参数量的增加，更加依赖于分布式训练与推理能力。昆仑芯2代系列产品搭载新一代核心架构XPU-R，性能相较一代提升2-3倍，在分布式场景中优势明显。

01.

大显存

昆仑芯2代产品拥有32GB显存容量，在同价位产品中内存优势突出。

02.

高互联

昆仑芯通过领先技术，可实现单机八卡高速互联，带宽达到200GB/s；支持Direct RDMA，可实现跨机间低延时、高速通讯。

昆仑芯推出针对不同参数级别的大模型产品矩阵，兼具显存和算力成本优势。

昆仑芯AI加速卡R200-8F面向百亿以内参数量级，相比同类型产品性能提升20%；

昆仑芯AI加速器组R480-X8面向百亿至千亿参数量级，性能达到同类型产品的1.3倍以上；

昆仑芯AI加速器组R480-X8集群针对千亿以上参数量级，可实现多机多卡分布式推理。

昆仑芯大模型解决方案软件栈

软件生态层面，昆仑芯提供了针对大模型场景的专用加速库、丰富的云原生插件，支持文心一言、LLaMA、Bloom、ChatGLM、GPT等行业主流大模型。

昆仑芯XFT（XPU Fast Transformer）推理加速库，较原生框架小算子版本性能提升5倍以上。目前，XFT加速库已与百度飞桨、PyTorch等主流深度学习框架完成适配；

昆仑芯云原生插件可帮助用户快速完成和大模型平台的适配；同时提供昆仑芯SDK，帮助用户快速完成适配和实时自定义开发。

昆仑芯xHuggingface开源推理套件

此外，昆仑芯全面拥抱开源社区，积极携手生态伙伴构建软硬一体的AI芯片生态。

昆仑芯打造了xHuggingface开源推理套件，仅修改1-2行代码，即可快速搭建基于XPU的智能客服APP。同时，昆仑芯与飞桨PaddlePaddle的AI Studio社区紧密合作，基于xHuggingface开源推理套件向广大开发者提供更快、更强、更省的算力产品；

昆仑芯与飞桨深入协同适配行业主流大模型，可支持超大规模分布式训练与推理。针对稠密大模型，昆仑芯支持飞桨的Sharding并行、数据并行、模型并行、流水线并行四种并行方式；针对稀疏大模型，昆仑芯与飞桨共同打造大规模参数服务器架构，实现了万亿参数的大模型训练。

深入场景、真实历练

打磨端到端解决方案

昆仑芯深入了解不同应用场景下客户的真实需求，凭借软硬协同技术与高性能产品矩阵，为千行百业提供开箱即用的产品和全栈式AI服务。

大语言模型场景

昆仑芯推理加速方案

目前，昆仑芯已与业界主流开源大模型完成适配，向客户开放开源软件库，供客户进行二次修改、微调，满足不同推理场景下的个性化定制需求。

GPT百亿参数大模型场景：昆仑芯产品的QPS相比主流165W产品提高30%以上，同时首字时延更低。

文心一格：目前已大规模应用昆仑芯产品，成本降低的同时，可实现2秒快速出图。

昆仑芯训练产品总览

针对大语言模型训练场景，昆仑芯也可提供一整套精调的训练策略。目前，昆仑芯已适配pretrain、post-pretrain、SFT、LoRA等模型，可根据客户的数据量与计算资源情况，灵活推荐不同的训练模式。

能源行业：昆仑芯解决方案通过SFT训练模式，客户仅使用少量数据即可2天打造专属行业大模型。

智源研究院：昆仑芯和智源研究院在大模型方面已有深入合作。昆仑芯已完成和Aquila大语言模型推理任务的适配、精度调试和性能优化，并实现大规模分布式推理上线，训练任务适配优化中；同时也适配了智源eva视觉大模型，初步验证了大规模分布式预训练能力。

稀疏大模型推荐场景

稀疏大模型存在训练门槛高、算力消耗大等技术挑战。对于算法和模型持续高频迭代的推荐场景，昆仑芯始终将“安全可信”、“从GPU零成本无缝迁移”作为目标，实现训练与推理系统的紧密耦合，为客户降本增效。目前，昆仑芯已与互联网头部客户完成了训练场景的端到端联合开发，并在TB级以上稀疏大模型上完成了“替换主流GPU的全量上线”。

大模型的持续迭代加速了我国AI技术及AI产业的演进，利好政策的相继出台同时开启了我国大模型商用浪潮。面向未来，昆仑芯将始终坚持软硬协同创新，夯实AI领域综合优势，加速大模型产业落地，勇立大模型时代潮头。

责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4422

浏览量
126715
开源

开源

+关注

关注
3

文章
2989

浏览量
41720
昆仑芯科技

昆仑芯科技

+关注

关注
0

文章
27

浏览量
381

原文标题：来了！一文读懂昆仑芯大模型端到端解决方案

文章出处：【微信号：昆仑芯科技，微信公众号：昆仑芯科技】欢迎添加关注！文章转载请注明出处。

AI推理框架软件ONNX Runtime正式支持龙架构

近日，知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。

发表于 03-12 12:23 •266次阅读

AI<b class='flag-5'>推理</b>框架软件ONNX Runtime正式支持龙架构

昆仑联通IPO终止，原拟募资5.38亿元

近日，上海证券交易所公开披露，北京昆仑联通科技发展股份有限公司（以下简称“昆仑联通”）及其保荐机构东方证券已主动撤回了发行上市申请。因此，上交所决定终止对昆仑联通的发行上市审核。

发表于 03-11 14:55 •298次阅读

昆仑联通终止上交所主板IPO

上海证券交易所（上交所）近日宣布，已终止对北京昆仑联通科技发展股份有限公司（以下简称“昆仑联通”）首次公开发行股票并在主板上市的审核。这一决定意味着昆仑联通的上市计划暂时受挫。

发表于 03-05 13:55 •258次阅读

昆仑联通终止上交所主板IPO

北京昆仑联通科技发展股份有限公司（简称“昆仑联通”）的发行上市审核已被上海证券交易所终止。这是因为昆仑联通及其保荐人撤回了发行上市申请，根据相关规定，上交所决定终止其发行上市的审核程序。

发表于 03-04 09:29 •210次阅读

介绍一款基于昆仑芯AI加速卡的高效模型推理部署框架

昆仑芯科技公众号全新栏目“用芯指南”重磅推出！面向AI行业技术从业者，系列好文将提供手把手的昆仑芯产品使用指南。第一期围绕昆仑芯自研效能工具——昆仑

发表于 10-17 11:16 •940次阅读

昆仑太科发布支持国产飞腾腾锐D2000芯片的开源BIOS固件版本

近日，中国首家开源固件社区OpenKunlun，发布了由昆仑太科（北京）技术股份有限公司（以下简称“昆仑太科”）贡献的，支持国产飞腾腾锐D2000芯片的开源BIOS固件版本。

发表于 09-21 09:17 •1669次阅读

昆仑太科推动代码合入OpenKunlun社区共建产业生态

近日，中国首家开源固件社区 OpenKunlun 发布了由昆仑太科（北京）技术股份有限公司（以下简称 “昆仑太科” ）贡献的、支持国产飞腾腾锐 D2000 芯片的开源 BIOS 固件版

发表于 09-21 09:17 •497次阅读

昆仑芯临港办公区正式启用

9月19日上午，在上海临港滴水湖AI创新港，昆仑芯临港办公区盛大开业。中国（上海）自由贸易试验区临港新片区党工委委员、专项办主任龚红兵、港城集团副总经理金玮琦、昆仑芯CEO欧阳剑、副总裁

发表于 09-20 09:49 •857次阅读

昆仑芯科技携手生态伙伴领跑大模型产业落地

芯片产品重磅亮相主会场及“智能计算大模型技术论坛”上，昆仑芯科技芯片研发总监漆维带来了“昆仑芯端到端大模型算力解决方案”主题分享。面对大模型时代计算的效率和成本问题，昆仑芯通过架构创新

发表于 09-08 10:32 •935次阅读

生态合作再度升级！昆仑芯已入驻飞桨AI Studio硬件生态专区

8月16日，昆仑芯在Wave Summit 2023深度学习开发者大会上正式宣布与百度联合发起飞桨+文心大模型硬件生态共创计划。双方将强强联合，进一步推进在昆仑芯硬件上与飞桨+文心大模型的适配

发表于 08-18 10:12 •1537次阅读

C++演示中的推理速度比Python演示中的推理速度更快是为什么？

在同一主机机上采用相同型号的 Ran Object Detection C++ 演示和对象检测 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度更快。

发表于 08-15 06:52

重磅消息:北京打造国内领先机器人产业集群,构建“1+4”机器人产品体系

重磅消息:北京打造国内领先机器人产业集群,构建“1+4”机器人产品体系

发表于 07-19 09:21 •526次阅读

昆仑芯AI加速器组R480-X8满足大型模型训练和推理的需求

打造特装展区。届时，昆仑芯将携多层级产品矩阵亮相，生动展示公司十余年发展历程、产品优势性能、端到端解决方案及生态共创成果。现场更有工作人员进行互动讲解，欢迎莅临参观。 7月6日 1000 7月7日-8日 900 上海世博展览馆H2馆B601 展区亮点

发表于 06-30 14:56 •2588次阅读

重磅！微软开源Deep Speed Chat，人人拥有ChatGPT……

关注微软科技视频号了解更多科技前沿资讯点亮在看，给BUG点好看原文标题：重磅！微软开源Deep Speed Chat，人人拥有ChatGPT…… 文章出处：【微信公众号：微软科技】欢迎添加关注！文章转载请注明出处。

发表于 05-11 20:16 •365次阅读

新思科技正积极打造AI EDA套件

新思科技正积极打造AI EDA套件 EDA可以利用计算机辅助设计（CAD）软件，来完成超大规模集成电路（VLSI）芯片的功能设计、综合、验证、物理设计（包括布局、布线、版图、设计规则检查

发表于 05-11 18:40 •950次阅读

搜索历史

昆仑芯重磅打造xHuggingface开源推理套件

评论

AI推理框架软件ONNX Runtime正式支持龙架构

昆仑联通IPO终止，原拟募资5.38亿元

昆仑联通终止上交所主板IPO

昆仑联通终止上交所主板IPO

介绍一款基于昆仑芯AI加速卡的高效模型推理部署框架

昆仑太科发布支持国产飞腾腾锐D2000芯片的开源BIOS固件版本

昆仑太科推动代码合入OpenKunlun社区共建产业生态

昆仑芯临港办公区正式启用

昆仑芯科技携手生态伙伴领跑大模型产业落地

生态合作再度升级！昆仑芯已入驻飞桨AI Studio硬件生态专区

C++演示中的推理速度比Python演示中的推理速度更快是为什么？

重磅消息:北京打造国内领先机器人产业集群,构建“1+4”机器人产品体系

昆仑芯AI加速器组R480-X8满足大型模型训练和推理的需求

重磅！微软开源Deep Speed Chat，人人拥有ChatGPT……

新思科技正积极打造AI EDA套件