相同的 LLM 在「不同 GPU 上」会产生不同输出?为什么?
编者按: 在大语言模型(LLMs)的部署及其相关的算力扩容过程中,更换 GPU 是否也可能会对模型的输出产生重大影响?这个问题的答案对于确保 LLMs 在不同硬件环境下的一致性和可靠性至关重要。 我们今天为大家带来的这篇文章,作者的核心观点是:即使在相同的开发环境、系统配置和随机种子下,不同的 GPU 也会导致 LLMs 产生不同的模型输出。 作者通过实验证明,在使用 Nvidia Tesla T4 和 Nvidia A10G 两种不同 GPU 的情况下,Mistral-7b-v0.1 模型对相同的输入产生了不同的输出。这种差异主要源于 GPU 在并行计算处理、硬件架构和模型量化的影响等方面的不同。随着提示词长度的增加,这种不准确性会被放大,因为更长的提示词需要进行更多计算,从而加剧了不准确性的传播。在使用多个 GPU 扩展时,如果采用模型分片策略,理论上可能会因计算分布的不同而导致结果产生变化,但实践中 PyTorch 的设计似乎保证了结果的一致性。 作者 | Anis Zakari 编译 | 岳扬 大多数技术工程师都了解,依赖库或依赖组件的版本不同都可能会导致系统行为产生变化。但在...
