发布于: 雪球转发:3回复:9喜欢:6

微软发布的deepspeed大大降低了算力需求。可能是今天算力调整的原因。逻辑上可能出现了瑕疵

DeepSpeed Chat具有以下三大核心功能:
1. 简化ChatGPT类型模型的训练和强化推理体验
开发者只需一个脚本,就能实现多个训练步骤,并且在完成后还可以利用推理API进行对话式交互测试。
2. DeepSpeed-RLHF模块
DeepSpeed-RLHF复刻了InstructGPT论文中的训练模式,并提供了数据抽象和混合功能,支持开发者使用多个不同来源的数据源进行训练。
3. DeepSpeed-RLHF系统
团队将DeepSpeed的训练(training engine)和推理能力(inference engine) 整合成了一个统一的混合引擎(DeepSpeed Hybrid Engine or DeepSpeed-HE)中,用于RLHF训练。由于,DeepSpeed-HE能够无缝地在推理和训练模式之间切换,因此可以利用来自DeepSpeed-Inference的各种优化。
DeepSpeed-RLHF系统在大规模训练中具有无与伦比的效率,使复杂的RLHF训练变得快速、经济并且易于大规模推广:
高效且经济:
DeepSpeed-HE比现有系统快15倍以上,使RLHF训练快速且经济实惠。例如,DeepSpeed-HE在Azure云上只需9小时即可训练一个OPT-13B模型,只需18小时即可训练一个OPT-30B模型。
这两种训练分别花费不到300美元和600美元

全部讨论

2023-04-13 17:00

讨论已被 小鹰666 删除

2023-04-13 21:08

这直接github搬过来的介绍,为什么都在说作者讲故事?

2023-04-13 18:44

写篇小作文,开始讲各种故事

2023-04-13 16:34

所以云的逻辑又变最硬了?

2023-04-13 16:31

看你这故事给编的,你这逻辑不得长期利好模型吗?咋模型也大跌呢?

2023-04-13 15:42

都是故事

2023-04-13 15:19

这才是AI里的护城河