DistilQwen-ThoughtX:变长思维链推理模型,超越DeepSeek蒸馏模型
作者:蔡文睿(清素)、汪诚愚(熊兮)、严俊冰(玖烛)、黄俊(临在) 前言 近年来,自然语言处理(NLP)领域以大语言模型(LLM)的出现为标志,发生了深刻变革,引领了语言理解、生成和推理任务的进步。其中,进步尤其显著的是深度推理模型的发展,如 OpenAI 的 o1、DeepSeek-R1 和 QwQ-32B 等,它们在数学问题、代码生成等复杂推理任务中表现突出。这些模型的成功很大程度上得益于使用思维链(Chain-of-Thought, CoT)的推理方式,能够模拟人类的渐进思考过程,将复杂问题化繁为简。然而,对于不同的推理任务,使用长思考的推理模式并不能提升模型在所有推理任务上的精度,反而容易引发“过度思考”的问题,既降低了模型响应速度,又导致推理过程中频繁出错。 为了解决这一问题,阿里云人工智能平台PAI团队对于思维链的特性,提出了推理冗余度(Reasoning Verbosity, RV)和认知难度(Cognitive Difficulty, CD)分数两种度量方式,并且构建了包括200万思维链的数据集 OmniThought ,对于 OmniThought 的每个思维链都进行...