汇总 VR/AR 产业动态,持续引领科技行业潮流!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
苹果发布论文揭示推理大模型存在显著局限性
苹果研究团队近日发布论文,指出当前主流的推理模型(LRMs)在处理复杂问题时存在显著局限性。 https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf 研究团队通过可控的谜题环境(如汉诺塔、跳棋等)系统分析了模型的推理能力,发现其性能随问题复杂度呈现三阶段变化: 在低复杂度任务中,非推理模型(LLMs)表现更优; 中等复杂度时,推理模型通过 “思维链”(CoT)展现优势; 而当复杂度超过临界值(如汉诺塔圆盘数≥8),两类模型准确率均骤降至零。 研究还发现,推理模型存在 “反直觉缩放限制”:推理成本(token 使用量)随复杂度先增后减,即使在 token 预算充足的情况下,模型也会在接近崩溃点时主动减少推理投入。 对推理轨迹的分析表明,模型在简单问题中存在 “过度思考” 现象,而复杂问题中则无法有效自我修正。 此外,模型在执行明确算法时表现不佳,显示出符号操作和逻辑一致性的缺陷。
- 下一篇
高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠
随着高考的到来,数学考试再一次成为考生们心中的 “魔鬼”。在这场竞争中,六大人工智能模型也参与了挑战,分别是字节的豆包、腾讯的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 DeepSeek 以及 OpenAI 的 o3。 此次测试采用的是2025年新课标 Ⅰ 卷的14道客观题,总分为73分,涵盖了单选题、多选题和填空题。 为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以68分的成绩并列第一,展现了出色的推理能力。 相对而言,DeepSeek 和通义则稍显逊色,分别以63分和62分完赛。而文心 X1和 o3的表现则令人失望,尤其是 o3,仅获得34分,显现出对国内高考题目的适应性不足。 在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分35分。DeepSeek 因两道题失误拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。 而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对。相对来说,通义的表现虽然快速,但在关键时刻的判断失...
相关文章
文章评论
共有0条评论来说两句吧...