快手开源多模态大模型 Kwai Keye-VL
快手宣布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。
根据介绍,Kwai Keye-VL 以 Qwen3-8B 语言模型为基础,引入了基于开源 SigLIP 初始化的 VisionEncoder,能够深度融合并处理文本、图像、视频等多模态信息,凭借其创新的自适应交互机制与动态推理能力,旨在为用户提供更智能、全面的多模态交互体验。
Kwai Keye-VL 支持动态分辨率输入,按原始比例将图像切分为 14x14 patch 序列,由一个 MLP 层将视觉 Token 进行映射与合并。模型采用 3D RoPE (旋转位置编码)统一处理文本、图像和视频,并通过位置编码与时间戳对齐,精准捕捉视频时序变化。
在视觉理解与逻辑推理能力方面,Kwai Keye-VL 的综合感知能力媲美同规模顶尖模型,并在复杂推理任务中展现出显著优势。尤其是逻辑推理方面,Kwai Keye-VL 在最新的 2025 年高考全国数学卷中取得了140分的成绩。
为突破公开数据集的数据污染、语言覆盖局限及任务单一性等问题,快手构建了内部评测集KC-MMBench。结果显示:该模型在VideoMME等权威公开Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)与InternVL-3-8B(65.5);在内部短视频场景评测中优势进一步扩大,综合得分领先SOTA模型超10%。
更多详情可查看官方公告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Gartner:超 40% 的 AI 智能体项目活不过两年
研究咨询公司 Gartner 最新发布的一份报告指出,预计到 2027 年底,超过 40% 的 AI 智能体项目将被取消,原因是成本不断上升和商业价值不明确。 Gartner高级总监分析师 Anushree Verma 表示:“目前大多数AI智能体项目都处于早期实验或概念验证阶段,这些项目大多受到炒作的驱动,并且经常被误用。这可能会让企业忽视大规模部署 AI 智能体的实际成本和复杂性,从而阻碍项目投入生产。他们需要拨开炒作的迷雾,谨慎地制定战略决策,确定在何处以及如何应用这项新兴技术。” Gartner 基于 3412 名受访者的调查结果显示,19% 的人表示其组织已对 AI 智能体项进行了大量投资,42% 的人进行了保守投资,8% 的人没有投资,其余 31% 的人采取观望态度或不确定。 许多供应商通过“洗牌”来炒作,即对现有产品(例如 AI 助手、机器人流程自动化 (RPA) 和聊天机器人)进行品牌重塑,而这些产品本身并不具备实质性的智能体功能。Gartner估计,在数千家 AI 智能体供应商中,只有大约 130 家是有真材实料的。 “大多数 AI 智能体方案缺乏显著的价值或投资回报...
- 下一篇
阿里巴巴 2025 财年收入 9963 亿元
6月26日晚,阿里巴巴集团发布2025财年年报显示,2025财年阿里巴巴集团收入达9963.47亿元,净利润同比增长77%至1259.76亿元,展现出强劲的盈利能力。在AI需求的推动下,阿里云财年收入突破双位数增长,AI相关产品收入连续七个季度实现三位数同比增长。 在AI领域,过去一年阿里发布并开源多款模型,覆盖全尺寸、全模态、多场景。4月最新发布的阿里通义Qwen3(简称“千问3”)大模型,开源仅一个月全球累计下载量突破1250万。截至4月底,阿里通义已开源200余款模型,全球下载量超过3亿次,千问系列衍生模型数量超10万个,成为全球最大的开源模型家族。 阿里云加速AI产品国际化,截至2025年3月31日,为全球34个地区提供云计算服务。以通义大模型为底座,淘宝天猫、1688、阿里国际站、夸克、钉钉、高德、飞猪、闲鱼等阿里多业务AI升级加速。其中,阿里AI旗舰应用夸克用户规模同比迅速增长,截至2025财年末,月活跃用户数已突破2亿;2025年3月,钉钉的平均付费周活跃用户数达4200万,目前钉钉是国内最大的效率办公类App。 在致股东信中,阿里巴巴表示,“阿里的基因里没有守成,只有创...
相关文章
文章评论
共有0条评论来说两句吧...