0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

性能超越开源模型标杆Llama2-70B,书生·浦语大模型InternLM-20B开源发布

商汤科技SenseTime 来源:未知 2023-09-20 16:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今日,商汤科技与上海人工智能实验室联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,并在阿里云魔搭社区(ModelScope)开源首发。

同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与InternLM-20B一同继续全面开放,向企业和开发者提供免费商用授权

今年6月首次发布以来,书生·浦语历多轮升级,在开源社区和产业界产生广泛影响。InternLM-20B模型性能先进且应用便捷,以不足三分之一的参数量,达到当前被视为开源模型标杆的Llama2-70B的能力水

代码库

https://github.com/InternLM/InternLM

魔搭社区

https://modelscope.cn/organization/Shanghai_AI_Laboratory

16e52c5e-5791-11ee-939d-92fbcf53809c.png  

书生·浦语“增强版”

增的不只是量

相比国内社区之前陆续开源的7B和13B规格模型,20B量级模型具备更强大的综合能力,在复杂推理和反思能力上尤为突出,因此对于实际应用能够带来更有力的性能支持。

另一方面,20B量级模型可以在单卡上进行推理,经过低比特量化后,可以运行在单块消费级GPU,给实际使用带来很大的便利。

InternLM-20B是基于2.3T Tokens预训练语料从头训练的中量级语言大模型。相较于InternLM-7B,训练语料经过更高水平的多层次清洗,补充了高知识密度和用于强化理解及推理能力的训练数据。

在理解能力、推理能力、数学能力、编程能力等考验语言模型技术水平方面,InternLM-20B与此前已开源模型相比,性能显著增强:优异的综合性能,通过更高水平的数据清洗和高知识密度的数据补充,以及更优的模型架构设计和训练,显著提升了模型的理解、推理、数学与编程能力。

InternLM-20B全面领先量级相近的开源模型,使之以不足三分之一的参数量,评测成绩达到了被视为开源模型的标杆Llama2-70B水平。
  • 拥有强大的工具调用能力,实现大模型与现实场景的有效连接,并具备代码解释和反思修正能力,为智能体(Agent)的构建提供了良好的技术基础。

  • 支持更长语境,支持长度达16K的语境窗口,更有效地支撑长文理解、长文生成和超长对话,长语境同时成为支撑在InternLM-20B之上打造智能体(Agent)的关键技术基础。

  • 具备更安全的价值对齐,书生·浦语团队对InternLM-20B进行了基于SFT(监督微调)和RLHF(基于人类反馈的强化学习方式)两阶段价值对齐以及专家红队的对抗训练,当面对带有偏见的提问时,它能够给出正确引导。

16fbe250-5791-11ee-939d-92fbcf53809c.png基于OpenCompass的InternLM-20B及相近量级开源模型测评结果

全链条工具体系再巩固

各环节全面升级

今年7月,商汤科技与上海AI实验室联合发布书生·浦语的同时,在业内率先开源了覆盖数据、预训练、微调、部署和评测的全链条工具体系

历经数月升级,书生·浦语全链条开源工具体系巩固升级,并向全社会提供免费商用

全面升级的全链条工具体系

数据-OpenDataLab开源“书生·万卷”预训练语料

书生·万卷是开源的多模态语料库,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。

目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练,为模型性能提升起到重要作用。

预训练-InternLM高效预训练框架

除了大模型外,InternLM仓库也开源了预训练框架InternLM-Train。深度整合了Transformer模型算子,使训练效率得到提升,并提出了独特的Hybrid Zero技术,使训练过程中的通信效率显著提升,实现了高效率千卡并行,训练性能达行业领先水平。

微调-InternLM全参数微调、XTuner轻量级微调

InternLM支持对模型进行全参数微调,支持丰富的下游应用。同时,低成本大模型微调工具箱XTuner也在近期开源,支持多种大模型及LoRA、QLoRA等微调算法

通过XTuner,最低仅需 8GB 显存即可对7B模型进行低成本微调,在24G显存的消费级显卡上就能完成20B模型的微调。

部署-LMDeploy支持十亿到千亿参数语言模型的高效推理

LMDeploy涵盖了大模型的全套轻量化、推理部署和服务解决方案,支持了从十亿到千亿级参数的高效模型推理,在吞吐量等性能上超过FasterTransformer、vLLM和Deepspeed等社区主流开源项目。

评测-OpenCompass一站式、全方位大模型评测平台

OpenCompass大模型评测平台构建了包含学科、语言、知识、理解、推理五大维度的评测体系,支持超过50个评测数据集和30万道评测题目,支持零样本、小样本及思维链评测,是目前最全面的开源评测平台。

自7月发布以来,受到学术界和产业界广泛关注,目前已为阿里巴巴、腾讯、清华大学等数十所企业及科研机构广泛应用于大模型研发。

应用-Lagent轻量灵活的智能体框架

书生·浦语团队同时开源了智能体框架,支持用户快速将一个大语言模型转变为多种类型的智能体,并提供典型工具为大语言模型赋能。

Lagent集合了ReAct、AutoGPT 及ReWoo等多种类型的智能体能力,支持智能体调用大语言模型进行规划推理和工具调用,并可在执行中及时进行反思和自我修正。


基于书生·浦语大模型,目前已经发展出更丰富的下游应用,将于近期陆续向学术及产业界分享。

面向大模型掀起的新一轮创新浪潮,商汤科技坚持原创技术研究,通过前瞻性打造新型人工智能基础设施,建立大模型及研发体系,持续推动AI创新和落地,引领人工智能进入工业化发展阶段,同时赋能整个AI社区生态的繁荣发展。全链条工具体系开源链接

“书生·万卷”预训练语料

https://github.com/opendatalab/WanJuan1.0

InternLM预训练框架

https://github.com/InternLM/InternLM

XTuner微调工具箱

https://github.com/InternLM/xtuner

LMDeploy推理工具链

https://github.com/InternLM/lmdeploy

OpenCompas大模型评测平台

https://github.com/open-compass/opencompass

Lagent智能体框架

https://github.com/InternLM/lagent

171a704e-5791-11ee-939d-92fbcf53809c.gif

相关阅读,戳这里

《AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大型》

《大语言模型“书生·浦语”多项专业评测拔头筹》

172516d4-5791-11ee-939d-92fbcf53809c.jpg


原文标题:性能超越开源模型标杆Llama2-70B,书生·浦语大模型InternLM-20B开源发布

文章出处:【微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 商汤科技
    +关注

    关注

    8

    文章

    618

    浏览量

    37669

原文标题:性能超越开源模型标杆Llama2-70B,书生·浦语大模型InternLM-20B开源发布

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 — 预测” 一体化的
    的头像 发表于 03-14 16:54 1988次阅读
    大晓机器人<b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-4<b class='flag-5'>B</b>

    百度正式发布开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文
    的头像 发表于 01-30 10:03 789次阅读
    百度正式<b class='flag-5'>发布</b>并<b class='flag-5'>开源</b>新一代文档解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    “明牌”对局,自变量开源模型超越pi0

    “明牌”对局,自变量开源模型超越pi0
    的头像 发表于 01-10 12:00 5731次阅读
    “明牌”对局,自变量<b class='flag-5'>开源</b><b class='flag-5'>模型</b><b class='flag-5'>超越</b>pi0

    壁仞科技壁砺166M产品适配腾讯混元开源翻译模型1.5版本

    中文、英语、日语等常见语种,也包含捷克、马拉地、爱沙尼亚、冰岛等小语种。目前两个模型均已在腾讯混元官网上线,在Github和Hugg
    的头像 发表于 01-05 15:39 432次阅读
    壁仞科技壁砺166M产品适配腾讯混元<b class='flag-5'>开源</b>翻译<b class='flag-5'>模型</b>1.5版本

    今日看点:小米正式发布开源模型 MiMo-V2-Flash;磷酸铁锂开启涨价潮

    小米正式发布开源模型 MiMo-V2-Flash 近日小米正式发布开源
    的头像 发表于 12-17 09:42 4466次阅读

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1391次阅读

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企
    的头像 发表于 08-14 11:34 1530次阅读

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源发布两款全新的大语言模型:gpt-oss-120b和gpt-oss-20b
    的头像 发表于 08-13 16:43 1857次阅读

    阿里通义千问发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新
    的头像 发表于 08-12 17:15 6981次阅读
    阿里通义千问<b class='flag-5'>发布</b>小尺寸<b class='flag-5'>模型</b>Qwen3-4<b class='flag-5'>B</b>,手机也能跑

    OpenAI发布2开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的头像 发表于 08-06 14:25 1123次阅读

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年6月30日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型及基于昇腾的模型
    的头像 发表于 07-06 05:51 7597次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型
    的头像 发表于 06-30 11:19 1429次阅读

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家
    的头像 发表于 05-08 11:45 3199次阅读
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳实践