AI训练模型

DeepSpeed

微软开源的低成本实现类似ChatGPT的模型训练

标签:

AI训练模型DeepSpeed是微软开源的低成本实现类似ChatGPT的模型训练。

训练高级深度学习模型具有挑战性。除了模型设计之外,模型科学家还需要建立最先进的训练技术,例如分布式训练、混合精度、梯度累积和检查点。然而,科学家们可能仍无法达到所需的系统性能和收敛速度。大型模型更具挑战性:大型模型在纯数据并行性下很容易耗尽内存,并且很难使用模型并行性。DeepSpeed 解决了这些挑战,以加速模型开发和训练。

轻松进行分布式、有效且高效的培训

DeepSpeed API 是PyTorch上的轻量级包装器。这意味着您可以在 PyTorch 中使用您喜欢的一切,而无需学习新平台。此外,DeepSpeed 还管理所有最先进的样板训练技术,例如分布式训练、混合精度、梯度累积和检查点,以便您可以专注于模型开发。最重要的是,您只需对 PyTorch 模型进行几行代码更改,即可利用 DeepSpeed 独特的效率和有效性优势来提高速度和规模。

内存效率

DeepSpeed 提供内存高效的数据并行性,并支持在没有模型并行性的情况下训练模型。例如,DeepSpeed 可以在单个 GPU 上训练具有多达 130 亿个参数的模型。相比之下,现有框架(例如,PyTorch 的分布式数据并行)在处理 14 亿个参数模型时会耗尽内存。

DeepSpeed 通过称为零冗余优化器 (ZeRO) 的新颖解决方案减少了训练内存占用。与内存状态在数据并行进程之间复制的基本数据并行不同,ZeRO 对模型状态和梯度进行分区以节省大量内存。此外,它还减少了激活记忆和碎片记忆。相对于现有技术,当前的实现 (ZeRO-2) 最多可将内存减少 8 倍。您可以在我们的论文以及与 ZeRO-1ZeRO-2相关的博客文章中阅读有关 ZeRO 的更多信息。

通过这种令人印象深刻的内存减少,DeepSpeed 的早期采用者已经生成了一个具有超过 17B 参数的语言模型 (LM),称为 Turing-NLG,在 LM 类别中建立了一个新的 SOTA。

对于 GPU 资源有限的模型科学家来说,ZeRO-Offload 利用 CPU 和 GPU 内存来训练大型模型。使用具有单个 GPU 的机器,我们的用户可以运行多达 130 亿个参数的模型,而不会耗尽内存,比现有方法大 10 倍,同时获得具有竞争力的吞吐量。这一功能使数十亿参数的模型训练变得民主化,并为许多深度学习从业者打开了探索更大更好模型的窗口。

DeepSpeed

AI工具和资源推荐-AI全网资源导航-aiguide.cc

相关导航

暂无评论

暂无评论...