0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Eleuther AI:已经开源了复现版GPT-3的模型参数

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:小戏 2021-03-31 17:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

GPT3终于开源!不过,不是官方开的(别打我

Eleuther AI推出的名为GPT-Neo的开源项目,于晨4点于twitter正式宣布:已经开源了复现版GPT-3的模型参数(1.3B和2.7B级别),并将其更新在Colab notebook之上。需要指出的是这次开源的模型里较大的那个版本也只是到了GPT-3商用版里最小模型的参数量,不过Eleuther AI表示未来会进一步开源10B版本和原始大小版本的GPT3模型参数。

消息发布后,立刻被各个大v转发,10小时内就已迅速收获1.5K的点赞量,相应的github链接也已收获接近2k star。

▲Twitter原文

但关于复现模型的性能,目前只说“实验表现与原版GPT-3相当”(they performed on par)。具体实验结果将于明天公布。

风靡一时的拥有1750亿超大参数量,一出道便被视作NLP领域最强AI模型的GPT-3,得益于其庞大的参数量,使得GPT-3拥有不用接受特定训练与微调,就能在不同NLP领域达到领先水平的强大能力。去年七月,GPT-3被Open-AI以商业API的形式向公众开放,并被人们探索出了形形色色的应用,从基于问题的搜索,到文本样式转换,从UI界面设计,再到自动生成SQL代码,GPT-3以其卓越的性能展现了其广阔的应用场景,深度学习之父Hinton甚至这样评价道:

如果以GPT-3的出色性能推算未来、生命、宇宙和万物的答案也不过是4.398万亿个参数

但是,由于目前GPT-3的使用模式仍然是付费的商业API,因此并不是所有NLP的研究者都能使用GPT-3完成自己领域的任务与工作。而由Connor Leahy,Leo Gao和Sid Black三人联合创立的Eleuther AI的团队,于去年11月宣布推出GPT-Neo的开源项目,该项目基于GPT系列的设计原理,旨在复现GPT系列的各种项目,在该项目发布之初,其团队成员已经预测可以完成GPT-3级别大小的语言模型。

毫无疑问,GPT-3的开源将会催生出一大批NLP技术的崭新应用,也会以更为低廉的成本释放人们对NLP未来的想象力。

原文标题:【GPT-3】千呼万唤始出来——GPT-3终于开源!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40932

    浏览量

    302512
  • 开源
    +关注

    关注

    3

    文章

    4324

    浏览量

    46427
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23337

原文标题:【GPT-3】千呼万唤始出来——GPT-3终于开源!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。”     GPT-5:集成模型
    的头像 发表于 08-09 07:44 1w次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:<b class='flag-5'>AI</b>领域的重大飞跃

    AI模型微调企业项目实战课

    数据、懂业务的“AI 架构师”。当企业真正掌握开源基座到专属模型的转化能力时,就拥有抵御外部不确定性的最强护城河。筑牢自主可控的
    发表于 04-16 18:48

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入到现实世界的各种机器中。从 Orin 到 Thor,NVIDIA Jetson 系列正在成为运行 NVIDIA Nemotron、Cosmos
    的头像 发表于 03-16 16:27 583次阅读
    NVIDIA Jetson<b class='flag-5'>模型</b>赋能<b class='flag-5'>AI</b>在边缘端落地

    用ESP32-S3开发板复现Mimiclaw,成本也就几十块!

    我们基于国产软硬件生态,成功复现智能助手Mimiclaw的核心功能!整套方案以ESP32-S3-Nano开发板为载体,集成国内主流大模型API,实现自动检索热点、长期记忆、待办管理等
    的头像 发表于 03-09 18:13 517次阅读
    用ESP32-S<b class='flag-5'>3</b>开发板<b class='flag-5'>复现</b>Mimiclaw,成本也就几十块!

    华为昇腾深度适配智谱AI全新开源模型GLM-5

    ,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Agent任务。昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软
    的头像 发表于 02-25 14:41 1282次阅读
    华为昇腾深度适配智谱<b class='flag-5'>AI</b>全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>GLM-5

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V
    的头像 发表于 01-30 10:03 786次阅读
    百度正式发布并<b class='flag-5'>开源</b>新一代文档解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    NVIDIA推动面向数字与物理AI开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRIVE Alpamayo-R1。此外,一项新的
    的头像 发表于 12-13 09:50 1516次阅读

    成都汇阳投资关于国产开源模型持续突破,国产AI 竞争力增强

           国产开源模型领跑 ,AI 生态有望加速繁荣 根据独立 AI 基准测试与分析平台 Artificial Analysis 最新榜单 , 国产
    的头像 发表于 11-24 14:01 703次阅读

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT
    的头像 发表于 11-13 15:49 800次阅读

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    连接定义神经网络的拓扑结构。 不同神经网络的DNN: 一、基于大模型AI芯片 1、Transformer 模型与引擎 1.1 Transformer
    发表于 09-12 17:30

    澎峰科技完成OpenAI最新开源推理模型适配

    澎峰科技现已完成 OpenAI 最新开源推理模型 gpt-oss-20b 在 DeepFusion 大模型一体机上的原生适配与优化,用户可一键启用这颗“小而强悍”的新引擎,在本地享受企
    的头像 发表于 08-14 11:34 1528次阅读

    OpenAI发布2款开源模型

    OpenAI开源两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「
    的头像 发表于 08-06 14:25 1123次阅读

    【VisionFive 2单板计算机试用体验】3开源大语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源
    的头像 发表于 05-08 11:45 3199次阅读
    NVIDIA使用Qwen<b class='flag-5'>3</b>系列<b class='flag-5'>模型</b>的最佳实践