0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

硬科技星球 来源:硬科技星球 作者:硬科技星球 2023-06-27 16:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。

01

悟道·天鹰(Aquila)

开源商用许可语言大模型系列

悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,

后续将持续更新迭代并开源更新版本。

开源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基础模型(7B、33B)

在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2

将近8倍的训练效率

AquilaChat 对话模型(7B、33B)

支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。

AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。

AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。

AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。

AquilaCode-7B “文本-代码”生成模型,

基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。

此外,AquilaCode-7B 分别在英伟达和***上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。

02

天秤(FlagEval)

大模型评测体系及开放平台

天秤(FlagEval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。

在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。

但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。

悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中,因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。

天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。

作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序),定期发布权威评测榜单。

总的来说,智源此次发布的 2 大重磅成果仅仅是一个新的起点:

一方面,悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放。

另一方面,天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。

「模型 + 评测」双轮驱动,

加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    3452

    浏览量

    4974
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶大模型中常提的泛化能力是指啥?

    ”这个词看起来比较抽象,也更容易被模糊使用。 它没有直观的评价标准,却决定了模型能不能真正走出训练数据、应对真实道路中的未知情况。理解清楚它到底指的是什么、为什么难、又该如何评估,是理解自动驾驶大模型
    的头像 发表于 12-10 09:15 178次阅读
    自动驾驶大<b class='flag-5'>模型</b>中常提的泛化<b class='flag-5'>能力</b>是指啥?

    65%央企大模型落地首选百度智能云

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可推广、可复制的标杆
    的头像 发表于 06-11 15:44 744次阅读

    云知声再度登顶MedBench榜单

    近日,中文医疗大模型权威评测平台MedBench公布最新自测榜单结果,云知声基于山海大模型打造的医疗行业专用大模型(UniGPT-Med-U
    的头像 发表于 05-20 10:12 651次阅读

    深兰科技医疗大模型荣获MedBench评测第一

    近日,国内权威医疗大模型评测平台MedBench在官网更新了榜单,多个知名医疗AI产品及研究团队入榜,其中深兰DeepBlue-MR-v1医疗大模型以复杂医学推理评测第一的成绩领跑Me
    的头像 发表于 04-30 16:08 710次阅读

    芯盾时代助力打造智慧医疗安全新标杆

    芯盾时代中标‌安徽医科大学第二附属医院(以下简称“安医二附院”)!芯盾时代基于零信任安全理念,融合动态身份验证、智能风险感知与策略执行能力,将为安医二附院构建动态化、智能化的零信任安全防护体系,助力其打造智慧医疗安全新标杆。‌
    的头像 发表于 04-02 17:18 970次阅读

    云知声深度参与三项大模型国家标准编写

    》、20231746-T-469《人工智能 大模型第2部分:评测指标与方法》以及20231741-T-469《人工智能大模型 第3部分:服务能力成熟度评估》正式批准发布。
    的头像 发表于 03-18 18:19 769次阅读

    商汤“日日新”融合大模型登顶大语言与多模态榜单

    据弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布的《2025年中国大模型年度评测》结果显示:在语言和多模态核心能力测评中,商汤“日日新”融合大模型
    的头像 发表于 03-18 10:35 945次阅读

    上能电气打造微电网储能项目标杆

    近日,上能电气助力新疆华电天山北麓50MW/200MWh微电网储能项目顺利并网投运,积极探索源网荷储友好互动的新型电网形态,成功打造又一世界级微电网储能项目标杆
    的头像 发表于 02-11 16:41 919次阅读

    生成式人工智能模型的安全可信评测

    受到关注。但当前大模型仍然面临可信瓶颈,无法开展大规模应用。大模型的安全可信受到高度关注,国内外已经有多项法规与标准快速制定并落地。本文以层次化的结构,构建了生成式人工智能的安全可信评测
    的头像 发表于 01-22 13:55 1571次阅读
    生成式人工智能<b class='flag-5'>模型</b>的安全可信<b class='flag-5'>评测</b>

    商汤科技推出“日日新”融合大模型

    刚刚,商汤正式推出“日日新”融合大模型,领先实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为“双冠王”。
    的头像 发表于 01-10 15:59 1139次阅读

    首批首家!DataCanvas Alaya NeW智算操作系统通过中国信通院“大模型计算资源调度平台” 标准评测

    1月8日,“大模型工程化成果发布会”在北京圆满召开。会上,中国信息通信研究院(简称“中国信通院”)正式发布6项AIInfra(人工智能基础平台)标准成果,凭借领先的应用效能和灵活的扩展能力,九章云极
    的头像 发表于 01-10 11:24 824次阅读
    首批首家!DataCanvas Alaya NeW智算操作系统通过中国信通院“大<b class='flag-5'>模型</b>计算资源调度平台” <b class='flag-5'>标准</b><b class='flag-5'>评测</b>

    上能电气成功打造高海拔构网型储能项目标杆

    近日,上能电气助力西藏阿里革吉高海拔构网型储能电站顺利并网投运,成功打造高海拔构网型储能项目标杆
    的头像 发表于 01-07 10:00 1117次阅读

    腾讯混元文生图登顶智源FlagEval评测榜首

    近日,北京智源人工智能研究院(BAAI)发布了最新的FlagEval模型评测排行榜,其中多模态模型评测榜单的文生图
    的头像 发表于 12-25 10:06 1198次阅读

    云知声山海大模型多项评测名列前茅

    近日,智源研究院发布并解读了国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
    的头像 发表于 12-24 10:29 764次阅读

    商汤日日新多模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1505次阅读