阿里云PAI-灵骏大模型训练工具 Pai-Megatron-Patch 正式开源!
Pai-Megatron-Patch是什么 Pai-Megatron-Patch工具是阿里云机器学习平台PAI算法团队研发,基于阿里云智算服务PAI-灵骏平台的大模型最佳实践解决方案配套工具,旨在帮助大模型开发者快速上手灵骏产品,完成大语言模型(LLM)的高效分布式训练,有监督指令微调,模型离线推理验证等完整大模型开发链路。该项目提供了业界主流开源大模型基于Megatron-LM的训练&离线推理验证流程,方便用户快速上手大模型训练。 主要特性 多款热门大模型支持:llama,llama-2,codellama, 百川,通义千问,Falcon,GLM,Starcoder,Bloom,chatglm等 支持模型权重互转转换:在Huggingface,Megatron和Transformer Engine之间进行算子命名空间映射 支持Flash Attention 2.0和Transformer Engine模式下的FP8训练加速且确保收敛 丰富且简单易用的使用示例,支持大模型预训练,微调,评估和推理,强化学习全流程最佳实践 开源地址 https://github.com/aliba...