洞察AI变革,见证智能未来
2025中国技术力量年度榜单
AI开源明星项目TOP10
LLaVA-OneVision-1.5多模态大模型
灵感实验室联合LLaVA社区发布的多模态大模型LLaVA-OneVision-1.5,实现了训练数据、代码和模型权重的全链路开源,在多项公开多模态基准上表现优于同等规模的Qwen2.5-VL。
在创新性上,技术团队对“视觉编码器+投影层+大语言模型”的LLaVA架构进行模块升级:视觉编码器从CLIP替换为格灵深瞳自研Glint-ViT v1.5(RICE),大语言模型从Qwen2替换为Qwen3。
在训练数据方面,团队推出完整开放的85M预训练数据集(LLaVA-OV-1.5-Mid-Training-85M)与精筛22M指令数据集(LLaVA-OV-1.5-Instruct-22M),并且做到“概念均衡”——构建一个50万的词表,利用图像特征与词表特征碰撞,并控制每个词碰到的图片数,制作出一个不同于随机采样的概念均衡训练集。
除了数据集以外,LLaVA-OneVision-1.5 技术报告、代码、模型也已开源:
LLaVA-OneVision-1.5
技术报告:
https://arxiv.org/abs/2509.23661
代码:
https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
模型:
https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct
Demo:
https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5
数据集:
Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M
Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data
-
开源
+关注
关注
3文章
4325浏览量
46427 -
格灵深瞳
+关注
关注
1文章
95浏览量
6011 -
大模型
+关注
关注
2文章
3750浏览量
5268
原文标题:LLaVA-OneVision-1.5多模态大模型入选InfoQ 2025中国技术力量年度榜单
文章出处:【微信号:shentongzhineng,微信公众号:格灵深瞳】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
格灵深瞳多模态大模型荣登InfoQ 2025中国技术力量年度榜单
评论