两大AI模型性能提升登上国际榜单-电子发烧友网

近日，由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B，登上国际知名AI排行榜榜首。其中，Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型，目前位列BFCL Leaderboard总榜单第一。

据悉，榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一，工具调用(Function-Calling)是为了让LLM理解，并能准确使用API(应用程序编程接口)，来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中，Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分，比排名第十的Gemini-1.5-Pro 领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说，还有助于从底层数据标注到人机交互的体系化建设，让大模型初步实现从“光说不练”到“能文能武”。

此外，由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本，采用更全面和严格评估标准，对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力，通过搭配数据筛选机制等，在多个核心评测维度，该模型性能有了大幅提升。

据公开报道，2023年初，盛大集团宣布All in AI战略，去年10月，联合多家高校发表了AI与长期记忆方面的论文，其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖，举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目，助力培养跨学科青年AI人才等。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
89

文章
38091

浏览量
296588
人工智能

人工智能

+关注

关注
1813

文章
49734

浏览量
261509
语言模型

语言模型

+关注

关注
0

文章
570

浏览量
11255

搜索历史

两大AI模型性能提升登上国际榜单

评论

搜索历史

两大AI模型性能提升 登上国际榜单

评论

两大AI模型性能提升登上国际榜单