-
一个开源完整的基于 PyTorch 的 ChatGPT 等效实现流程,涵盖所有 3 个阶段,可以帮助你构建基于预训练模型的 ChatGPT 式服务。
-
提供了一个迷你演示训练过程供用户试玩,它只需要 1.62GB 的 GPU 显存,并且可能在单个消费级 GPU 上实现,单GPU模型容量最多提升10.3 倍。
-
与原始 PyTorch 相比,单机训练过程最高可提升7.73 倍,单 GPU 推理速度提升 1.42 倍,仅需一行代码即可调用。
-
在微调任务上,同样仅需一行代码,就可以在保持足够高的运行速度的情况下,最多提升单GPU的微调模型容量3.7 倍。
-
提供多个版本的单 GPU 规模、单节点多 GPU 规模和原始 1750 亿参数规模。还支持从 Hugging Face 导入 OPT、GPT-3、BLOOM 和许多其他预训练的大型模型到你的训练过程中。
博客内容还指出,在单机多 GPU 服务器上,即便使用最高端的 A100 80GB 显卡,由于 ChatGPT 的复杂性和内存碎片,PyTorch 最大仅能启动基于 GPT-L(774M)这样的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 进行多卡并行扩展至 4 卡或 8 卡,性能提升有限。Colossal-AI 不仅在单GPU速度上训练和推理优势明显,随着并行规模扩大还可进一步提升,最高可提升单机训练速度 7.73 倍,单 GPU 推理速度 1.42 倍;并且能够继续扩展至大规模并行,显著降低 ChatGPT 复现成本。
为了最大限度地降低培训成本和易用性,Colossal-AI 提供了可以在单个 GPU 上试用的 ChatGPT 培训流程。与在 14999 美元的 A100 80GB 上最多只能启动 7.8 亿个参数模型的 PyTorch 相比,Colossal-AI 将单个 GPU 的容量提升了 10.3 倍,达到 80 亿个参数。对于基于 1.2 亿参数的小模型的 ChatGPT 训练,至少需要 1.62GB 的 GPU 内存,任意单个消费级 GPU 都可以满足。
此外,Colossal-AI 还在致力于降低基于预训练大型模型的微调任务的成本。以 ChatGPT 可选的开源基础模型 OPT 为例,Colossal-AI 能够在单 GPU 上将微调模型的容量提高到 PyTorch 的 3.7 倍,同时保持高速运行。Colossal-AI 为 Hugging Face 社区的 GPT、OPT 和 BLOOM 等主流预训练模型,提供了开箱即用的 ChatGPT 复现代码。以 GPT 为例,仅需一行代码,指定使用 Colossal-AI 作为系统策略即可快速使用。
from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy
strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')
with strategy.model_init_context():
actor = GPTActor().cuda()
critic = GPTCritic().cuda()
initial_model = deepcopy(actor).cuda()
reward_model = RewardModel(deepcopy(critic.model)).cuda()
trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)
trainer.fit(prompts)
审核编辑 :李倩-
gpu
+关注
关注
28文章
5099浏览量
134428 -
服务器
+关注
关注
13文章
10093浏览量
90862 -
ChatGPT
+关注
关注
30文章
1596浏览量
10066
原文标题:开源方案低成本复现ChatGPT流程,仅需1.6GB显存即可体验
文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
香蕉派开源社区与矽昌通信共推BPI-Wifi5 低成本路由器开源方案
低成本蓝牙串口模块解决方案
追求性能提升 使用8GB HBM2显存
科技大厂竞逐AIGC,中国的ChatGPT在哪?
坚果Pro 3开启了促销活动最高直降500元8GB+128GB版仅需2399元
荣耀V30 PRO在5G网络环境下下载一部1.6GB大小的1080P电影仅需2分钟
华为Mate 20降价促销 6+128GB版仅需2199元
如何注册ChatGPT 全流程分享
源2.0-M32大模型发布量化版 运行显存仅需23GB 性能可媲美LLaMA3

开源方案低成本复现ChatGPT流程,仅需1.6GB显存即可体验
评论