格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单-电子发烧友网

洞察AI变革，见证智能未来

2025中国技术力量年度榜单

AI开源明星项目TOP10

LLaVA-OneVision-1.5多模态大模型

灵感实验室联合LLaVA社区发布的多模态大模型LLaVA-OneVision-1.5，实现了训练数据、代码和模型权重的全链路开源，在多项公开多模态基准上表现优于同等规模的Qwen2.5-VL。

在创新性上，技术团队对“视觉编码器+投影层+大语言模型”的LLaVA架构进行模块升级：视觉编码器从CLIP替换为格灵深瞳自研Glint-ViT v1.5(RICE)，大语言模型从Qwen2替换为Qwen3。

在训练数据方面，团队推出完整开放的85M预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛22M指令数据集(LLaVA-OV-1.5-Instruct-22M)，并且做到“概念均衡”——构建一个50万的词表，利用图像特征与词表特征碰撞，并控制每个词碰到的图片数，制作出一个不同于随机采样的概念均衡训练集。

除了数据集以外，LLaVA-OneVision-1.5 技术报告、代码、模型也已开源：

LLaVA-OneVision-1.5

技术报告：

https://arxiv.org/abs/2509.23661

代码：

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型：

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo：

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

数据集：

Pretrain Data：https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data：https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
4325

浏览量
46427
格灵深瞳

格灵深瞳

+关注

关注
1

文章
95

浏览量
6011
大模型

大模型

+关注

关注
2

文章
3750

浏览量
5268

原文标题：LLaVA-OneVision-1.5多模态大模型入选InfoQ 2025中国技术力量年度榜单

文章出处：【微信号：shentongzhineng，微信公众号：格灵深瞳】欢迎添加关注！文章转载请注明出处。

搜索历史

格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单

评论