全球最强医疗视频理解大模型发布并开源邀请开发者共建创新生态-电子发烧友网

近日，联影智能在GitHub、Hugging face等国际知名开发者平台正式发布全球规模最大、性能最强的医疗视频理解大模型——元智医疗视频理解大模型（uAI-NEXUS-MedVLM ），同步首批开源由6245个视频-指令对构成的标准测试集和模型，并设立“医疗视频理解大模型榜单”，向全世界开发者发出打榜邀请，以期推动构建统一、可验证的技术评测体系。

当前，人工智能已在影像辅助诊断、智能问诊等场景实现落地应用，但在手术等复杂动态临床场景中仍面临显著技术瓶颈。相较于静态影像，医疗视频理解对空间精度、时序逻辑和临床语义提出了更高要求：既要精准识别毫米级器械位置与解剖结构，又要完整还原手术过程中的关键步骤与先后关系，还需以专业语言准确表述具体操作及其临床意义。在多重挑战叠加下，即便全球领先的通用大模型，也难以有效完成手术视频理解任务，长期以来都是医疗大模型研发的“技术深水区”。

元智医疗视频理解大模型汇聚53万余条视频-指令数据、整合8个专业医学数据集，覆盖内镜、腹腔镜、开放手术、机器人手术及护理操作等核心临床场景，模型参数达70亿规模。在视频摘要、关键安全视野评估、下一步操作预测等8项医疗视觉任务测试中，模型整体性能显著优于 GPT-5.4、Gemini-3.1 等通用大模型，多项指标实现数倍领先。同时，模型支持4B/7B参数规模灵活切换，可实现单卡部署，具备良好的临床应用潜力。相关研究成果已被人工智能领域最具影响力的顶级会议IEEE国际计算机视觉与模式识别会议（CVPR 2026）收录。

在具体任务表现上，元智医疗视频理解大模型在手术安全评估任务中准确率达到89.4%，显著高于 GPT-5.4（1.8%）和 Gemini-3.1（10.1%）；在满分5分的视频报告生成任务中，评分达到4.2分，同样大幅领先于通用模型。此外，该模型不仅能够正确识别医疗器械与手术操作，还可进一步理解其空间位置及临床操作意图，可应用于手术引导、术中安全保障、手术记录、医学教学及具身智能手术设备研发等场景。

在开源方面，模型研发负责人吴子彦表示：“相较于‘闭门造车’式的单点创新，我们选择开源高质量数据集，就是希望能为手术视频分析、特定病种诊断等细分赛道提供一把 ‘公共标尺’，让全球研究者和开发者能在可复现、可验证的环境下开展协同创新。这不仅能持续驱动技术迭代与场景落地，也有望促进医疗视频理解领域从分散探索迈向体系化发展，推动形成一个开放、共享的全球创新生态，与全球开发者共同推动创造一个更智能化的医疗未来。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉