百度智能云开源视觉理解模型 Qianfan-VL
百度智能云千帆宣布开源发布全新视觉理解模型——Qianfan-VL。该系列包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。
公告称,Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。即日起至10月10日,企业用户和开发者可在百度智能云千帆平台免费体验8B、70B模型。
Qianfan-VL 系列模型基于开源模型进行开发,并在百度自研昆仑芯P800上完成全流程计算任务。具备三大特点:
- 多尺寸模型满足不同场景需求:提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案。
- 提供思考推理能力:8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。
- OCR与文档理解能力增强:主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案。
一些测评结果如下:
更多详情可查看官方公告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
DeepSeek-V3.1-Terminus 发布,缓解偶发异常字符情况
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。 此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括: 语言一致性:缓解了中英文混杂、偶发异常字符等情况; Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。 DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下: 注:Search Agent 的工具集与上一版有所不同,具体工具细节请查看 HuggingFace 文档 目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。 开源版本下载地址如下: Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
-
下一篇
阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash
阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash,该模型支持多语言、多音色及多种汉语方言,在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度,并同步上线了API、Demo与多段音频样例。 官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。 具体来说,在seed-tts-eval test set上,Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩,超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。 此外,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型,在多语言的语音稳定性和音色相似度上...
相关文章
文章评论
共有0条评论来说两句吧...