0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

两大AI模型性能提升 登上国际榜单

爱云资讯 2025-01-16 12:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,由盛大AI团队研发的模型Watt-tool-70B和Newsbang/homer-72B,登上国际知名AI排行榜榜首。其中,Watt-tool-70B是由盛大旗下Watt团队研发的旗舰模型,目前位列BFCL Leaderboard总榜单第一。

wKgZO2eIhJiAH1CJAANvX9TW0Qo480.png

据悉,榜单BFCL Leaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大语言模型(LLM)最热门的研究方向之一,工具调用(Function-Calling)是为了让LLM理解,并能准确使用API(应用程序编程接口),来执行更复杂而具体的任务。在近期公布的最新一轮评估结果中,Watt的“多轮对话执行能力”相较于排名第二的GPT-4o 领先11分,比排名第十的Gemini-1.5-Pro 领先近40分。

“这个模型将加速大模型落地‘融合’过程。”Watt有关负责人说,还有助于从底层数据标注到人机交互的体系化建设,让大模型初步实现从“光说不练”到“能文能武”。

此外,由盛大集团NewsBang团队开发的Newsbang/homer-72B 模型位列Open LLM LeaderBoard v2榜单第一。Open LLM Leaderboard V2是由Hugging Face维护的开源语言模型评测平台升级版本,采用更全面和严格评估标准,对各类开源大语言模型进行多维度测试和排名。Newsbang/homer-72B重视提升模型在推理和思考方面的能力,通过搭配数据筛选机制等,在多个核心评测维度,该模型性能有了大幅提升。

wKgZPGeIhJiAM0HvAAHlAh0t4MU103.png

据公开报道,2023年初,盛大集团宣布All in AI战略,去年10月,联合多家高校发表了AI与长期记忆方面的论文,其自研的OMNE大模型多智能体框架登上GAIA 基准测试排行榜榜首;其旗下的天桥脑科学研究院(TCCI)与国际学术杂志《Science》合作推出全球AI驱动科学大奖,举办和支持包括“AI+精神健康”在内的各种高水平国际会议和夏校项目,助力培养跨学科青年AI人才等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296588
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261509
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    本章节作者分析了下AI的未来在哪里,就目前而言有来那个种思想:①继续增加大模型②将大模型改为小模型,并将之优化使之与大
    发表于 09-14 14:04

    水晶光电荣登2025年度浙江省两大榜单

    近日,浙江省经信厅公布2025年度"浙江省制造精品"和"浙江省优秀工业新产品"名单,水晶光电自主研发的高端摄像头蓝宝石保护器件与合式折叠光路微棱镜分别荣登两大榜单
    的头像 发表于 08-20 17:47 2009次阅读

    全球首个胃癌影像筛查AI模型发布

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE,首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日
    的头像 发表于 06-30 14:37 3668次阅读

    天合储能Elementa金刚2荣获两大国际权威机构认证

    近日,天合储能Elementa 金刚2以其卓越的安全性、可靠性和可融资性,同时获得DNV和UL Solutions两大国际权威机构的认证。Elementa 金刚2针对海外不同的储能需求提供4MWh和5MWh种配置方案,其创新设计和卓越
    的头像 发表于 04-27 15:48 583次阅读

    DevEco Studio AI辅助开发工具两大升级功能 鸿蒙应用开发效率再提升

    使用结合机制和反馈优化手段,有效融合检索模块和生成模块,以及不断提升RAG系统性能: 1、结合机制: (1) 概率加权:通过对检索到的文档分配权重,影响生成模型的输出。 (2) 多文档处理:结合多篇相关文档
    发表于 04-18 14:43

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    的端侧部署,Token产生速度提升了40%,让端侧大模型拥有更高的计算效率和推理性能,使端侧AI交互响应更及时,用户体验更贴心。 联发科还与vivo和全民K歌携手,借助天玑
    发表于 04-13 19:52

    适用于数据中心和AI时代的800G网络

    ,成为新一代AI数据中心的核心驱动力。 AI时代的两大数据中心:AI工厂与AIAI时代
    发表于 03-25 17:35

    KLA荣登两大权威“最佳雇主”榜单

    近日,《福布斯》与《金融时报》(FT)相继公布了2024年和2025年的“最佳雇主”榜单,KLA公司在两大榜单中均榜上有名,彰显了其在员工关怀和企业社会责任方面的卓越表现。 《福布斯》发布
    的头像 发表于 02-19 14:41 957次阅读

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为一款强大的语言
    发表于 02-14 17:42

    阿里国际AI升级,接入DeepSeek等先进模型

    提升AI在外贸生意中的应用效果,阿里国际站已经接入了DeepSeek等先进的大模型。这些模型将全面应用于外贸生意的各个核心环节,从客户接待到
    的头像 发表于 02-13 09:52 910次阅读

    AI模型思维链功能升级,提升透明度与可信度

    的透明度。 值得注意的是,此次更新发生在DeepSeek-R1推理模型发布之后。作为OpenAI的竞争对手,DeepSeek-R1同样具备展示其反应背后思维过程的能力。两大模型在这一功能上的不谋而合,无疑彰显了
    的头像 发表于 02-10 09:06 788次阅读

    商汤科技推出“日日新”融合大模型

    刚刚,商汤正式推出“日日新”融合大模型,领先实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为“双冠王”。
    的头像 发表于 01-10 15:59 1121次阅读

    格陆博科技荣登两大权威机构榜单

    近日,格陆博科技凭借其卓越的技术实力和市场表现力,荣登《2024年度中国智能电动汽车核心零部件100强》和《2024创业邦100未来独角兽》两大权威机构榜单
    的头像 发表于 12-26 09:18 1444次阅读

    谷歌正式发布Gemini 2.0 性能提升

    在智能体时代,谷歌再次引领技术潮流,正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现了显著提升,更是在多模态表现和原生工具应用方面展现了前所未有的强大功能。
    的头像 发表于 12-12 14:22 1117次阅读