0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

硬科技星球 来源:硬科技星球 作者:硬科技星球 2023-06-27 16:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。

01

悟道·天鹰(Aquila)

开源商用许可语言大模型系列

悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,

后续将持续更新迭代并开源更新版本。

开源地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

Aquila基础模型(7B、33B)

在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2

将近8倍的训练效率

AquilaChat 对话模型(7B、33B)

支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。

AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。

AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。

AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。

AquilaCode-7B “文本-代码”生成模型,

基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。

此外,AquilaCode-7B 分别在英伟达和***上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。

02

天秤(FlagEval)

大模型评测体系及开放平台

天秤(FlagEval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。

在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。

但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。

悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中,因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。

天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。

作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序),定期发布权威评测榜单。

总的来说,智源此次发布的 2 大重磅成果仅仅是一个新的起点:

一方面,悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放。

另一方面,天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。

「模型 + 评测」双轮驱动,

加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    3770

    浏览量

    5269
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战课

    API,无异于将企业命脉交由他人掌控。一旦面临网络封锁、服务停机或协议条款变更,企业的智能化进程将瞬间瘫痪。因此,将开源基础大模型“请回自家机房”,通过微调技术注入企业独有的“灵魂”,打造一个懂行
    发表于 04-16 18:48

    ASPICE 是什么?汽车系统过程改进和能力确定概念(一)

    33020 标准搭建了能力等级评定体系,为过程能力量化打分提供统一标尺;三是过程评估模型,明确了评估方法、评估师资质要求与评估流程,确保评估结果的权威性与一致性。 以上为本次技术分享
    发表于 04-02 13:53

    昆仑万维AI音乐大模型Mureka V8登顶Artificial Analysis榜单第一

    3月25日,昆仑万维旗下AI音乐大模型Mureka V8在全球权威第三方评测机构Artificial Analysis榜单中,登顶Vocals(人声)、Instrumental(乐器)榜单第一
    的头像 发表于 03-26 10:02 489次阅读

    登临科技与合作伙伴打造AI+油气工程融合创新标杆

    在油气工程领域向深层、高难、智能转型的关键阶段,登临科技以核心技术为支撑,与合作伙伴“强强联合”,打造“AI+油气工程”融合创新标杆,推动钻井、地质、井控等关键环节从“经验驱动”向“智能决策”跃迁,大力推进工程数智化,力争在行业新一轮变局中赢得先机。
    的头像 发表于 03-02 14:36 501次阅读

    云知声山海医疗大模型问鼎MedBench4.0三项榜首

    12月16日,中文医疗大模型权威评测平台MedBench4.0发布最新评测结果。云知声自主研发的“山海医疗大模型(UniGPT‑Med)”展现出全面领先的技术实力,一举斩获医疗智能体、
    的头像 发表于 12-29 14:35 3552次阅读
    云知声山海医疗大<b class='flag-5'>模型</b>问鼎MedBench4.0三项榜首

    自动驾驶大模型中常提的泛化能力是指啥?

    ”这个词看起来比较抽象,也更容易被模糊使用。 它没有直观的评价标准,却决定了模型能不能真正走出训练数据、应对真实道路中的未知情况。理解清楚它到底指的是什么、为什么难、又该如何评估,是理解自动驾驶大模型
    的头像 发表于 12-10 09:15 916次阅读
    自动驾驶大<b class='flag-5'>模型</b>中常提的泛化<b class='flag-5'>能力</b>是指啥?

    华为如何通过大模型技术打造智能IP网络

    2025年非洲通信展在南非开普敦召开,华为数据通信产品线NCE数据通信领域总裁王辉受邀参加“Telecoms For Tomorrow”论坛,发表题为“拥抱AI时代,打造面向未来的智能IP网络”的演讲,分享华为如何通过大模型技术打造
    的头像 发表于 11-14 16:39 1626次阅读

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1460次阅读

    软通动力携手金盘科技打造智能制造新标杆

    ,软通动力凭借在AI和智能制造领域的深厚积累,赋能金盘科技构建AI平台及相关智能体,助力其数字化工厂向智能制造全面转型并打造智能制造标杆企业。
    的头像 发表于 09-09 09:41 919次阅读

    华为携手中国地质大学武汉校区打造智慧校园新标杆

    新学期伊始,中国地质大学(武汉)校园内洋溢着青春的活力与喜悦,数千名新生怀揣梦想在此开启人生新篇章。与往年相比,今年的迎新现场不仅秩序井然,更透露出浓浓的“智慧”气息——流畅高效的网络体验、精准智能的运维保障。这成为学校积极响应国家“人工智能+”行动与教育数字化战略,打造智慧校园
    的头像 发表于 09-05 11:07 1369次阅读

    伺服电机驱动的钻床齿隙模型仿真分析

    的电枢电压,是大齿轮的角速度,是大齿轮的转动惯量。 纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:伺服电机驱动的钻床齿隙模型仿真分析.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-18 16:26

    65%央企大模型落地首选百度智能云

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可推广、可复制的标杆
    的头像 发表于 06-11 15:44 1021次阅读

    云知声再度登顶MedBench榜单

    近日,中文医疗大模型权威评测平台MedBench公布最新自测榜单结果,云知声基于山海大模型打造的医疗行业专用大模型(UniGPT-Med-U
    的头像 发表于 05-20 10:12 921次阅读

    华为助力湖北移动打造“九州”算力互联网区域标杆

    地”的使命,基于AI集群路由器,成功打造“九州”算力互联网区域标杆,实现了网络架构的智能化升级,显著提升算力连接、算力调度、算力保障等关键能力,为智能制造、智慧城市、智慧家庭等提供数智化支撑,推动实体经济和新质生产力的发展,为湖
    的头像 发表于 05-13 16:11 985次阅读

    深兰科技医疗大模型荣获MedBench评测第一

    近日,国内权威医疗大模型评测平台MedBench在官网更新了榜单,多个知名医疗AI产品及研究团队入榜,其中深兰DeepBlue-MR-v1医疗大模型以复杂医学推理评测第一的成绩领跑Me
    的头像 发表于 04-30 16:08 1037次阅读