0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hugging Face科技公司推出SmolLM系列语言模型

要长高 2024-07-23 16:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

7月22日最新资讯,Hugging Face科技公司在语言模型领域再创新高,正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言模型家族。该系列包含三个版本,分别搭载了1.35亿、3.6亿及17亿参数,旨在以高效能应对不同应用场景。

据Hugging Face SmolLM项目的首席机器学习工程师Loubna Ben Allal介绍:“我们认识到,并非每项任务都需要庞大的模型来支撑,正如钻孔无需重型破碎球一样。专为特定任务定制的小型模型,同样能够胜任繁重的工作。”

尤为引人注目的是,即便是家族中最小的成员SmolLM-135M,在训练数据相对有限的情况下,其性能仍超越了Meta的MobileLM-125M模型,展现出非凡的潜力。而SmolLM-360M则自豪地宣称,在性能上已凌驾于所有参数少于5亿的模型之上。至于旗舰产品SmolLM-1.7B,更是在一系列基准测试中力压群雄,包括微软的Phi-1.5和Meta的MobileLM-1.5B等强劲对手。

Hugging Face不仅在技术上追求卓越,更在开放共享上树立了典范。公司决定将SmolLM的整个开发流程,从数据管理到训练步骤,全部对外开源。这一举措不仅彰显了公司对开源文化的坚定支持,也体现了对可重复研究的高度重视,为行业内的科研人员提供了宝贵的资源。

SmolLM系列的卓越表现,离不开其背后精心策划的高质量训练数据。这些模型依托于Cosmo语料库构建,该语料库融合了Cosmopedia v2(包含合成教科书与故事)、Python Edu(教育导向的Python示例)以及FineWeb Edu(精选教育网络内容)等多维度资源,确保了模型学习内容的丰富性与准确性。

Loubna Ben Allal强调:“SmolLM系列的成功,是对数据质量重要性的有力证明。我们创新性地结合了网络数据与合成数据,通过精心策划,打造出了这些性能卓越的小型模型。”这一成就不仅为语言模型领域注入了新的活力,也为未来智能应用的发展开辟了更加广阔的道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据管理
    +关注

    关注

    1

    文章

    333

    浏览量

    20476
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。NVIDIA 正将这些模型、数据和训练框架贡献给
    的头像 发表于 11-06 11:49 693次阅读

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 543次阅读
    NVIDIA开源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理
    的头像 发表于 09-23 15:19 836次阅读

    商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

    卫冕“双冠”! 通用语言能力并列国内榜首、多模态能力全球最强,商汤「日日新V6」近期斩获“双料第一”。 5月28日,权威大模型测评机构SuperCLUE《中文大模型基准测评2025年5月报告》全新
    的头像 发表于 05-30 11:13 1403次阅读
    商汤科技日日新V6大<b class='flag-5'>模型</b>斩获“双料第一” 一项国内榜首,一个全球第一

    如何基于Android 14在i.MX95 EVK上运行Deepseek-R1-1.5B和性能

    Internet,或者您可以手动下载模型。按“ ”并选择 “从Hugging Face添加” 并搜索1.5B,找到deepseek-R1-1.5B模型,下载
    发表于 04-04 06:59

    利用英特尔OpenVINO在本地运行Qwen2.5-VL系列模型

    近期阿里通义实验室在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包含 3B、7B 和 72B 在内的 3 个
    的头像 发表于 03-12 13:42 2295次阅读
    利用英特尔OpenVINO在本地运行Qwen2.5-VL<b class='flag-5'>系列</b><b class='flag-5'>模型</b>

    海康威视推出视觉大模型系列摄像机

    依托海康观澜大模型技术体系,海康威视将大模型能力直接部署至端侧,推出系列视觉大模型摄像机。
    的头像 发表于 03-05 14:06 1258次阅读

    使用face-detection-retail-0004运行OpenVINO™模型服务器时“缺少特定名称的输入”怎么解决?

    使用 face-detection-retail-0004 OpenVINO™模型服务器启动。 通过与 KServe 兼容的 RESTful API 启动推理: \"inputs
    发表于 03-05 08:05

    从OpenVINO™ 2019_R3下载的face-detection-retail-0004模型,运行时报错怎么解决?

    从 OpenVINO™ 2019_R3 下载的 face-detection-retail-0004 模型。 构建开源OpenVINO™版本 2020.1 运行 Interactive
    发表于 03-05 06:00

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    的核心功能之一,它允许用户将Hugging Face或GGUF格式的大语言模型转换为RKLLM模型,从而将RKLLM
    发表于 02-27 16:45

    DeepSeek模型为何掀起如此大的波澜

    DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型,不久前,在人工智能开源平台 Hugging Face 上发布数
    的头像 发表于 02-11 09:13 969次阅读

    Hugging Face推出最小AI视觉语言模型

    Hugging Face平台于1月23日发布博文,推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。 其中
    的头像 发表于 01-24 14:15 1432次阅读

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何加速系统上为 AI 智能体提供强效助力。
    的头像 发表于 01-09 11:11 1191次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大语言
    的头像 发表于 12-19 11:29 1221次阅读