Hugging Face平台于1月23日发布博文,推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct仅有2.56亿参数,是有史以来发布的最小视觉语言模型,可在内存低于1GB的PC上运行并提供卓越性能。SmolVLM-500M-Instruct有5亿参数,主要针对硬件资源限制,帮助开发者应对大规模数据分析挑战。
这两款模型具备先进的多模态能力,可执行图像描述、短视频分析以及回答关于PDF或科学图表的问题等任务。其开发依赖于The Cauldron和Docmatix两个专有数据集。The Cauldron包含50个高质量图像和文本数据集,侧重于多模态学习;Docmatix专为文档理解定制,将扫描文件与详细标题配对以增强理解。
此外,模型采用了更小的视觉编码器SigLIP base patch-16/512,通过优化图像标记处理方式,减少了冗余,还将图像编码速率提升至每个标记4096像素,相比早期版本的每标记1820像素有了显著改进。
Hugging Face此次推出的最小AI视觉语言模型,为AI在低资源设备上的应用开辟了新的道路。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
人工智能
+关注
关注
1819文章
50287浏览量
266826 -
语言模型
+关注
关注
0文章
573浏览量
11341 -
AI视觉
+关注
关注
0文章
115浏览量
5007
发布评论请先 登录
相关推荐
热点推荐
NVIDIA Alpamayo 1模型在Hugging Face平台下载量已突破10万次
NVIDIA Alpamayo 1 在 Hugging Face 的下载量已突破 10 万次,且仍在持续增长,已成为 Hugging Face 平台下载量最高的机器人
NVIDIA推动面向数字与物理AI的开源模型发展
NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRI
NVIDIA推出面向语言、机器人和生物学的全新开源AI技术
NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。NVIDIA 正将这些
NVIDIA开源Audio2Face模型及SDK
NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
什么是AI模型的推理能力
NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face
研华科技推出基于NVIDIA Jetson Thor平台的边缘AI新品MIC-743
研华重磅推出基于NVIDIA Jetson Thor平台的边缘AI新品 MIC-743,这款突破性产品以高达2070 FP4 TOPS的AI算力重新定义边缘计算性能边界,适用于当前机器人、边缘端VLM(
【HZ-T536开发板免费体验】3 - Cangjie Magic调用视觉语言大模型(VLM)真香,是不是可以没有YOLO和OCR了?
和管理 Agent 的专用语言。它允许开发人员通过结构化的系统提示词、工具和各类协作策略来增强 Agent 的功能。
今天我们就尝试在开发板上利用质谱AI的视觉语言
发表于 08-01 22:15
【BPI-CanMV-K230D-Zero开发板体验】AI 算法模型(人脸检测、躯干检测、车牌识别)
K230D 支持多种 AI 应用,并且内置于 CanMV 镜像中,分为单模型应用和多模型应用两种,内容涵盖物体、人脸、人手、人体、车牌、OCR、音频(KWS、TTS)等多个应用领域。
这里选择几种
发表于 07-05 00:52
最新人工智能硬件培训AI基础入门学习课程参考2025版(离线AI语音视觉识别篇)
端侧离线 AI 智能硬件作为 AI 技术的重要载体之一,凭借其无需依赖网络即可实现智能功能的特性,在一些网络条件受限或对数据隐私有较高要求的场景中,发挥着不可或缺的作用。本章基于CSK6大模型语音
发表于 07-04 11:14
NVIDIA助力图灵新讯美推出企业级多模态视觉大模型融合解决方案
中国推出企业级多模态视觉大模型融合解决方案,推动先进 AI 模型在交通治理、工业质检、金融风控等领域实现高效识别、精准预警和稳定交付。
【教程】使用NS1串口服务器对接智普清言免费AI大语言模型
AI大语言模型可以帮助我们解决各种问题,如翻译、写文案、创作诗歌、解决数学问题、情感陪伴等等。今天教大家如何使用NS1串口服务器模块实现对接智普清言AI大
商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一
体Agent测试任务中获得国内最高分。 同时,根据Hugging Face——全球最大的AI开源社区上的数据,在Open Compass本月的多
大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品
、Qwen2.5-0.5B 以及 Qwen2.5-1.5B等丰富大模型资源,以及文本转语音模型(melotts)、语音转文本模型(paraformer)和视觉
发表于 04-25 17:59
Hugging Face推出最小AI视觉语言模型
评论