近日,联影智能在GitHub、Hugging face等国际知名开发者平台正式发布全球规模最大、性能最强的医疗视频理解大模型——元智医疗视频理解大模型(uAI-NEXUS-MedVLM ),同步首批开源由6245个视频-指令对构成的标准测试集和模型,并设立“医疗视频理解大模型榜单”,向全世界开发者发出打榜邀请,以期推动构建统一、可验证的技术评测体系。
当前,人工智能已在影像辅助诊断、智能问诊等场景实现落地应用,但在手术等复杂动态临床场景中仍面临显著技术瓶颈。相较于静态影像,医疗视频理解对空间精度、时序逻辑和临床语义提出了更高要求:既要精准识别毫米级器械位置与解剖结构,又要完整还原手术过程中的关键步骤与先后关系,还需以专业语言准确表述具体操作及其临床意义。在多重挑战叠加下,即便全球领先的通用大模型,也难以有效完成手术视频理解任务,长期以来都是医疗大模型研发的“技术深水区”。
元智医疗视频理解大模型汇聚53万余条视频-指令数据、整合8个专业医学数据集,覆盖内镜、腹腔镜、开放手术、机器人手术及护理操作等核心临床场景,模型参数达70亿规模。在视频摘要、关键安全视野评估、下一步操作预测等8项医疗视觉任务测试中,模型整体性能显著优于 GPT-5.4、Gemini-3.1 等通用大模型,多项指标实现数倍领先。同时,模型支持4B/7B参数规模灵活切换,可实现单卡部署,具备良好的临床应用潜力。相关研究成果已被人工智能领域最具影响力的顶级会议IEEE国际计算机视觉与模式识别会议(CVPR 2026)收录。
在具体任务表现上,元智医疗视频理解大模型在手术安全评估任务中准确率达到89.4%,显著高于 GPT-5.4(1.8%)和 Gemini-3.1(10.1%);在满分5分的视频报告生成任务中,评分达到4.2分,同样大幅领先于通用模型。此外,该模型不仅能够正确识别医疗器械与手术操作,还可进一步理解其空间位置及临床操作意图,可应用于手术引导、术中安全保障、手术记录、医学教学及具身智能手术设备研发等场景。
在开源方面,模型研发负责人吴子彦表示:“相较于‘闭门造车’式的单点创新,我们选择开源高质量数据集,就是希望能为手术视频分析、特定病种诊断等细分赛道提供一把 ‘公共标尺’,让全球研究者和开发者能在可复现、可验证的环境下开展协同创新。这不仅能持续驱动技术迭代与场景落地,也有望促进医疗视频理解领域从分散探索迈向体系化发展,推动形成一个开放、共享的全球创新生态,与全球开发者共同推动创造一个更智能化的医疗未来。
审核编辑 黄宇
-
大模型
+关注
关注
2文章
3787浏览量
5273
发布评论请先 登录
2025开放原子开发者大会AtomGit开源实践交流分论坛即将开启
华为发布全球最强算力超节点和集群
华为与全球开发者共赢昇腾生态
2025 openKylin开发者大会圆满落幕
华为正式启动HarmonyOS 6开发者Beta
从“开发者孤岛”到“生态星河”:开鸿Bot如何重构开源鸿蒙开发体验
润和软件旗下润开鸿亮相开源鸿蒙开发者大会2025
迅龙软件应邀出席开源鸿蒙开发者大会2025,AI分论坛发表主旨演讲
开源鸿蒙开发者大会2025圆满闭幕,触觉智能Purple Pi OH荣获明星开发板
全球最强医疗视频理解大模型发布并开源 邀请开发者共建创新生态
评论