7月22日最新资讯,Hugging Face科技公司在语言模型领域再创新高,正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言模型家族。该系列包含三个版本,分别搭载了1.35亿、3.6亿及17亿参数,旨在以高效能应对不同应用场景。
据Hugging Face SmolLM项目的首席机器学习工程师Loubna Ben Allal介绍:“我们认识到,并非每项任务都需要庞大的模型来支撑,正如钻孔无需重型破碎球一样。专为特定任务定制的小型模型,同样能够胜任繁重的工作。”
尤为引人注目的是,即便是家族中最小的成员SmolLM-135M,在训练数据相对有限的情况下,其性能仍超越了Meta的MobileLM-125M模型,展现出非凡的潜力。而SmolLM-360M则自豪地宣称,在性能上已凌驾于所有参数少于5亿的模型之上。至于旗舰产品SmolLM-1.7B,更是在一系列基准测试中力压群雄,包括微软的Phi-1.5和Meta的MobileLM-1.5B等强劲对手。
Hugging Face不仅在技术上追求卓越,更在开放共享上树立了典范。公司决定将SmolLM的整个开发流程,从数据管理到训练步骤,全部对外开源。这一举措不仅彰显了公司对开源文化的坚定支持,也体现了对可重复研究的高度重视,为行业内的科研人员提供了宝贵的资源。
SmolLM系列的卓越表现,离不开其背后精心策划的高质量训练数据。这些模型依托于Cosmo语料库构建,该语料库融合了Cosmopedia v2(包含合成教科书与故事)、Python Edu(教育导向的Python示例)以及FineWeb Edu(精选教育网络内容)等多维度资源,确保了模型学习内容的丰富性与准确性。
Loubna Ben Allal强调:“SmolLM系列的成功,是对数据质量重要性的有力证明。我们创新性地结合了网络数据与合成数据,通过精心策划,打造出了这些性能卓越的小型模型。”这一成就不仅为语言模型领域注入了新的活力,也为未来智能应用的发展开辟了更加广阔的道路。
-
数据管理
+关注
关注
1文章
349浏览量
20637 -
语言模型
+关注
关注
0文章
575浏览量
11370
发布评论请先 登录
蚂蚁百灵Ring-2.6-1T发布,双档推理重新定义智能效率
联影智能发布、开源医疗视频理解大模型 邀全球开发者共探技术上限
沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型
NVIDIA Alpamayo 1模型在Hugging Face平台下载量已突破10万次
谷歌推出TranslateGemma全新开放翻译模型系列
AutoDrill 推出创新型在线产品配置器,提升客户体验
谷歌正式推出Gemini 3 Flash模型
NVIDIA 推出 Nemotron 3 系列开放模型
Microchip推出模型语境协议服务器
NVIDIA推出面向语言、机器人和生物学的全新开源AI技术
Motion Controls推出以CADENAS技术创建的D系列气缸配置器
NVIDIA开源Audio2Face模型及SDK
什么是AI模型的推理能力
商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一
Hugging Face科技公司推出SmolLM系列语言模型
评论