DeepSeek-V3.1-Terminus 发布,缓解偶发异常字符情况
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
-
语言一致性:缓解了中英文混杂、偶发异常字符等情况;
-
Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。
DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下:
注:Search Agent 的工具集与上一版有所不同,具体工具细节请查看 HuggingFace 文档
目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。
开源版本下载地址如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AI 三巨头惨遭滑铁卢:最新编程测试正确率全线跌破 25%
Scale AI全新推出的SWE-BENCH PRO编程测评结果显示,GPT-5、Claude Opus4.1和 Gemini2.5 没有一个模型能够突破25%的解决率大关。 其中,GPT-5仅仅取得了23.3%的成绩,Claude Opus4.1紧随其后拿到22.7%,而Google的Gemini2.5 则是跌至13.5%。 前OpenAI研究员Neil Chowdhury解析称,GPT-5在那些它选择尝试解决的任务中,实际准确率高达63%,这个数字远远甩开了Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着相当的竞争优势。 与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的测试团队刻意规避了那些可能已经被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。 SWE-BENCH PRO的测试范围涵盖了1865个来自商业应用和开发者工具的真实问题。这些题...
-
下一篇
百度智能云开源视觉理解模型 Qianfan-VL
百度智能云千帆宣布开源发布全新视觉理解模型——Qianfan-VL。该系列包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。 公告称,Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。即日起至10月10日,企业用户和开发者可在百度智能云千帆平台免费体验8B、70B模型。 Qianfan-VL 系列模型基于开源模型进行开发,并在百度自研昆仑芯P800上完成全流程计算任务。具备三大特点: 多尺寸模型满足不同场景需求:提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案。 提供思考推理能力:8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。 OCR与文档理解能力增强:主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案。 一些测评结果如下: 更多详情可查看官方公告。
相关文章
文章评论
共有0条评论来说两句吧...