0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hugging Face科技公司推出SmolLM系列语言模型

要长高 2024-07-23 16:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

7月22日最新资讯,Hugging Face科技公司在语言模型领域再创新高,正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言模型家族。该系列包含三个版本,分别搭载了1.35亿、3.6亿及17亿参数,旨在以高效能应对不同应用场景。

据Hugging Face SmolLM项目的首席机器学习工程师Loubna Ben Allal介绍:“我们认识到,并非每项任务都需要庞大的模型来支撑,正如钻孔无需重型破碎球一样。专为特定任务定制的小型模型,同样能够胜任繁重的工作。”

尤为引人注目的是,即便是家族中最小的成员SmolLM-135M,在训练数据相对有限的情况下,其性能仍超越了Meta的MobileLM-125M模型,展现出非凡的潜力。而SmolLM-360M则自豪地宣称,在性能上已凌驾于所有参数少于5亿的模型之上。至于旗舰产品SmolLM-1.7B,更是在一系列基准测试中力压群雄,包括微软的Phi-1.5和Meta的MobileLM-1.5B等强劲对手。

Hugging Face不仅在技术上追求卓越,更在开放共享上树立了典范。公司决定将SmolLM的整个开发流程,从数据管理到训练步骤,全部对外开源。这一举措不仅彰显了公司对开源文化的坚定支持,也体现了对可重复研究的高度重视,为行业内的科研人员提供了宝贵的资源。

SmolLM系列的卓越表现,离不开其背后精心策划的高质量训练数据。这些模型依托于Cosmo语料库构建,该语料库融合了Cosmopedia v2(包含合成教科书与故事)、Python Edu(教育导向的Python示例)以及FineWeb Edu(精选教育网络内容)等多维度资源,确保了模型学习内容的丰富性与准确性。

Loubna Ben Allal强调:“SmolLM系列的成功,是对数据质量重要性的有力证明。我们创新性地结合了网络数据与合成数据,通过精心策划,打造出了这些性能卓越的小型模型。”这一成就不仅为语言模型领域注入了新的活力,也为未来智能应用的发展开辟了更加广阔的道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据管理
    +关注

    关注

    1

    文章

    349

    浏览量

    20637
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    蚂蚁百灵Ring-2.6-1T发布,双档推理重新定义智能效率

    和二次开发。模型权重已同步上线Hugging Face与ModelScope平台,此前已在OpenRouter开放限时免费API体验,引发社区高度关注。
    的头像 发表于 05-17 09:20 615次阅读

    联影智能发布、开源医疗视频理解大模型 邀全球开发者共探技术上限

    近日,联影智能在GitHub、Hugging face等国际知名开发者平台正式发布全球规模最大、性能最强的医疗视频理解大模型——元智医疗视频理解大模型(uAI-NEXUS-MedVLM
    的头像 发表于 05-06 14:40 262次阅读

    沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。沐曦股份旗下曦云 C 系列 GPU已完成Day 0适配,为率先支持该模型的国产算力。
    的头像 发表于 04-28 15:51 1678次阅读
    沐曦股份曦云C<b class='flag-5'>系列</b>GPU产品Day 0适配腾讯混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    NVIDIA Alpamayo 1模型Hugging Face平台下载量已突破10万次

    NVIDIA Alpamayo 1 在 Hugging Face 的下载量已突破 10 万次,且仍在持续增长,已成为 Hugging Face 平台下载量最高的机器人
    的头像 发表于 03-04 16:27 1095次阅读

    谷歌推出TranslateGemma全新开放翻译模型系列

    我们已正式推出 TranslateGemma,这一全新的开放翻译模型系列基于 Gemma 3 构建,并提供 4B、12B 和 27B 三种参数规模。TranslateGemma 的问世标志着开放翻译领域迈出了重要一步,它可帮助人
    的头像 发表于 02-26 10:22 831次阅读

    AutoDrill 推出创新型在线产品配置器,提升客户体验

    工业制造商为工程师增加了数字工具,用于配置和下载 AutoDrill 2000 系列的 3D CAD 模型。 AutoDrill 是钻孔、攻丝和其他金属加工设备的领先供应商,它自豪地宣布推出
    发表于 01-26 14:08

    谷歌正式推出Gemini 3 Flash模型

    我们正式推出了 Gemini 3 Flash,这是以较低成本打造的高效前沿智能,成功地进一步扩展了 Gemini 3 模型系列
    的头像 发表于 01-22 16:04 836次阅读

    NVIDIA 推出 Nemotron 3 系列开放模型

    新闻摘要: ● Nemotron 3 系列开放模型包含 Nano、Super 和 Ultra 三种规模,具有极高的效率和领先的精度,适用于代理式 AI 应用开发。 ● Nemotron 3 Nano
    的头像 发表于 12-16 09:27 920次阅读
    NVIDIA <b class='flag-5'>推出</b> Nemotron 3 <b class='flag-5'>系列</b>开放<b class='flag-5'>模型</b>

    Microchip推出模型语境协议服务器

    为进一步兑现公司为嵌入式工程师开发AI解决方案的承诺,Microchip Technology Inc.(微芯科技公司)今日推出模型语境协议(MCP)服务器。作为AI接口,MCP服务器
    的头像 发表于 11-24 15:43 882次阅读

    NVIDIA推出面向语言、机器人和生物学的全新开源AI技术

    NVIDIA 秉持对开源的长期承诺,推出了面向语言、机器人和生物学的全新开源 AI 技术,为构建开源生态系统做出贡献,扩展 AI 的普及并推动创新。NVIDIA 正将这些模型、数据和训练框架贡献给
    的头像 发表于 11-06 11:49 1389次阅读

    Motion Controls推出以CADENAS技术创建的D系列气缸配置器

    工业自动化制造商现提供热门气动产品的CAD和 PDF即时在线访问服务 气动执行器创新领域的领导者Motion Controls公司为其广受欢迎的D系列气缸推出了新的在线配置器,使工程师能够立即访问
    发表于 10-29 12:51

    NVIDIA开源Audio2Face模型及SDK

    NVIDIA 现已开源 Audio2Face 模型与 SDK,让所有游戏和 3D 应用开发者都可以构建并部署带有先进动画的高精度角色。NVIDIA 开源 Audio2Face 的训练框架,任何人都可以针对特定用例对现有
    的头像 发表于 10-21 11:11 1082次阅读
    NVIDIA开源Audio2<b class='flag-5'>Face</b><b class='flag-5'>模型</b>及SDK

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理
    的头像 发表于 09-23 15:19 1617次阅读

    商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

    卫冕“双冠”! 通用语言能力并列国内榜首、多模态能力全球最强,商汤「日日新V6」近期斩获“双料第一”。 5月28日,权威大模型测评机构SuperCLUE《中文大模型基准测评2025年5月报告》全新
    的头像 发表于 05-30 11:13 1798次阅读
    商汤科技日日新V6大<b class='flag-5'>模型</b>斩获“双料第一” 一项国内榜首,一个全球第一