0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息发布源2.0基础大模型,千亿参数全面开源

全球TMT 来源:全球TMT 作者:全球TMT 2023-11-28 09:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

11月27日,浪潮信息发布"源2.0"基础大模型,并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。

当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行业和应用落地能力表现的核心支撑,但基础大模型的发展也面临着在算法、数据和算力等方面的诸多挑战。源2.0基础大模型则针对性地提出了新的改进方法并获得了能力的提升。

算法方面,源2.0提出并采用了一种新型的注意力算法结构:局部注意力过滤增强机制(LFA:Localized Filtering-based Attention)。LFA通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。

wKgZomVkrZuAFWGyAACX2OTQDsk961.jpg


数据方面,源2.0通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。为了获取中文数学数据,我们清洗了从2018年至今约12PB的互联网数据,但仅获取到了约10GB的数学数据,投入巨大,收益较小。为了更高效地获得相对匮乏的高质量中文数学及代码数据集,源2.0采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。

wKgaomVkrZuAeYSmAADRtny3Qdk117.jpg


算力方面,源2.0采用了非均匀流水并行的方法,综合运用流水线并行+优化器参数并行+数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题,该方法显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。

wKgaomVlP6mALQxWAAM0Ok9OLqE815.jpg


源2.0作为千亿级基础大模型,在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,测试结果显示,源2.0在多项模型评测中,展示出了较为先进的能力表现。

wKgZomVkrZ6Af_R2AABvvDO94lM918.jpg


源2.0采用全面开源策略,全系列模型参数和代码均可免费下载使用。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    339

    文章

    31194

    浏览量

    266317
  • 浪潮
    +关注

    关注

    1

    文章

    490

    浏览量

    25479
  • 大模型
    +关注

    关注

    2

    文章

    3747

    浏览量

    5268
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小马智行发布PonyWorld世界模型2.0

    4月10日,小马智行正式发布其在物理AI领域的最新技术成果——PonyWorld世界模型2.0
    的头像 发表于 04-10 17:21 1076次阅读

    浪潮信息直播发布业界首个企业级OpenClaw方案“企千虾”

    月2日,浪潮信息直播发布业界首个企业级OpenClaw方案——「企千虾」,为企业规模化部署、管理和应用OpenClaw,打造了安全、高效、易用的全链路方案。实操演示了「企千虾」基于元脑服务器实现
    的头像 发表于 04-05 17:44 2052次阅读

    云知声发布“山海·知音”大模型2.0,医疗AI加速落地驱动业绩高增长

    今年1月,云知声正式发布其自研大模型“山海·知音”2.0版本,并同步披露2025年度业绩预告——全年营收预计同比增长超60%,净利润实现扭亏为盈。这一系列动作不仅彰显了云知声在大模型
    发表于 02-06 10:28 1102次阅读
    云知声<b class='flag-5'>发布</b>“山海·知音”大<b class='flag-5'>模型</b><b class='flag-5'>2.0</b>,医疗AI加速落地驱动业绩高增长

    百度正式发布开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文
    的头像 发表于 01-30 10:03 786次阅读
    百度正式<b class='flag-5'>发布</b>并<b class='flag-5'>开源</b>新一代文档解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    光庭信息与Epic Games在CES 2026发布3D HMI开发平台UEA 2.0

    在CES 2026上,光庭信息与战略合作伙伴 Epic Games 打造的UEA 2.0(UE for Automotive 2.0)正式发布。UEA
    的头像 发表于 01-10 11:44 1065次阅读

    今日看点:小米正式发布开源模型 MiMo-V2-Flash;磷酸铁锂开启涨价潮

    小米正式发布开源模型 MiMo-V2-Flash 近日小米正式发布开源模型 MiMo-V
    的头像 发表于 12-17 09:42 4465次阅读

    商汤科技正式发布开源全新多模态模型架构NEO

    商汤科技正式发布开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1141次阅读
    商汤科技正式<b class='flag-5'>发布</b>并<b class='flag-5'>开源</b>全新多模态<b class='flag-5'>模型</b>架构NEO

    成都汇阳投资关于大模型白热化,应用加速分化

    Gemini 2.5 Flash Image登顶 多主流图像榜,Meta 也从 Midjourney 授权 AI 图像模型;视频领域,阿里字节等刷新能力高度 ,谷歌将视频模型推进至实时交互通用世界模型阶段。        De
    的头像 发表于 09-09 09:30 1073次阅读

    浪潮信息发布&quot;元脑SD200&quot;超节点,面向万亿参数模型创新设计

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息发布面向万亿参数模型的超节点AI服务器"元脑SD200"。该产品基于浪潮信息
    的头像 发表于 08-08 22:17 773次阅读
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>发布</b>&quot;元脑SD200&quot;超节点,面向万亿<b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>创新设计

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放模型
    的头像 发表于 08-06 14:25 1123次阅读

    万亿参数!元脑企智一体机率先支持Kimi K2大模型

    北京2025年7月21日 /美通社/ -- 浪潮信息宣布元脑企智一体机已率先完成对Kimi K2 万亿参数模型的适配支持,并实现单用户70 tokens/s的流畅输出速度,为企业客户高效部署
    的头像 发表于 07-22 09:27 659次阅读
    万亿<b class='flag-5'>参数</b>!元脑企智一体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    , Gemma等开源模型。当然,一些闭的(类似chatgpt, gemini)是不支持部署的。如下图: 在端侧部署大模型,个人认为最大的好处:是可以避免因文本或图片上传而造成的
    发表于 07-19 15:45

    中国移动携手华为发布网络运行大模型2.0

    发布2.0版本是对1.0版本的全方位迭代升级,模型知识深度与广度得到进一步扩展,用户行为、业务趋势、网络状态等融合信息得到统一关联,形成面向多类客群、多维粒度、多类场景的精细化分析能
    的头像 发表于 07-01 15:32 1163次阅读

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 1230次阅读

    上新:小米首个推理大模型开源 马斯克:下周推出Grok 3.5

    开源新一代通义千问模型Qwen3。据悉,Qwen3模型参数量仅为DeepSeek - R1的1/3,能够大幅降低成本,而且性能全面超越R1、
    的头像 发表于 04-30 16:08 1474次阅读