苹果发布全新 FS-DFM 模型,提升长文本生成效率
苹果公司与俄亥俄州立大学研究团队联合发布了名为FS-DFM(Few-Step Discrete Flow-Matching)的全新语言模型。该模型在长文本生成方面实现了重大突破,通过三步法优化了迭代机制,使其在文本生成的困惑度和熵等关键指标上优于其他大型模型。 生成速度大幅提升 FS-DFM模型仅需8轮快速迭代即可生成高质量长文本,速度较传统扩散模型提升128倍,显著缩短了长文本生成的等待时间。 文本质量保持领先 在困惑度(衡量文本准确性和流畅性)和熵(衡量选词置信度)等关键指标上,FS-DFM的表现优于拥有数十亿参数的主流模型(如Dream-7B、LLaDA-8B),且参数量仅为1.7亿至17亿,实现了“小模型大效果”。 技术创新与优化 动态迭代预算:模型可根据任务需求自动调整迭代深度,避免冗余计算。 教师指导机制:引入高精度“教师模型”引导迭代,确保更新精准且稳定。 稳态收敛策略:优化迭代步长,加速模型收敛,减少步骤的同时保证质量。 详情:https://machinelearning.apple.com/research/fs-dfm
