华佗GPT —— 开源中文医疗大模型
HuatuoGPT(华佗GPT)是开源中文医疗大模型,基于医生回复和 ChatGPT 回复,让语言模型成为医生,提供丰富且准确的问诊。 HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据,以使语言模型具备像医生一样的诊断能力和提供有用信息的能力,同时保持对用户流畅的交互和内容的丰富性,对话更加丝滑。 HuatuoGPT 使用了四种不同的数据集,分别如下: 蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集受到 Alpaca 模型创建指令集的方法启发,从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是,本方法还加入了科室和角色信息,根据采样的科室或角色生成符合条件的指令数据集。 真实医生指令数据集(Real-world Instructions from Doctors):这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化,因此本方法通过润色以提高其可读性。 蒸馏 ChatGPT 对话数据集(Distilled Conversations fr...
