快手发布开源多模态大模型 Kwai Keye-VL-1.5-低调大师

快手发布开源多模态大模型 Kwai Keye-VL-1.5

2025-09-11 101

快手近日正式发布多模态大语言模型Keye-VL-1.5-8B。

https://huggingface.co/Kwai-Keye/Keye-VL-1_5-8B

据介绍，与之前的版本相比，Keye-VL-1.5的综合性能实现显著提升，尤其在基础视觉理解能力方面，包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。Keye-VL-1.5在同等规模的模型中表现出色，甚至超越了一些闭源模型如GPT-4o。

Keye-VL-1.5采用四阶段渐进式训练流水线，以系统化方式提升模型性能。在视觉编码器预训练阶段，使用SigLIP-400M权重初始化ViT，并通过SigLIP对比损失持续预训练以适应内部数据分布。

第一阶段重点优化投影MLP层，实现跨模态特征的稳固对齐；第二阶段解冻全部参数进行端到端多任务预训练，显著增强基础视觉理解能力；第三阶段进行退火训练，利用高质量数据微调模型，弥补上一阶段中高质量样本接触不足的问题，同时将序列长度扩展至128K、调整RoPE逆频率配置，并引入长视频、长文本和大尺度图像等长上下文数据。

最终，通过同质-异质融合技术对不同数据混合比例下的模型权重进行平均，减少固定数据比例带来的内在偏差，在保持多样化能力的同时提升模型的鲁棒性。

微信关注我们

原文链接：https://www.oschina.net/news/371648

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI 编程公司 Replit 发布第三代自主编码 Agent

Replit宣布推出第三代自主编码 Agent（Agent 3），官方称其自主性提升至前代的 10 倍，单次可连续运行 200 分钟，全程无需人工干预。自主性增强：Agent 3 可以自主测试和修复代码，甚至在后台持续改进用户的应用，将用户从重复性工作中解放出来。它能够像人类一样在浏览器中 “点击” 和 “操作”，检查应用中的按钮、表单和 API，确保一切正常运行。持续运行能力：该版本能够持续自主运行超过三小时，相比之前的版本有了很大的进步。提升开发效率：Agent 3 能够根据用户需求生成高质量代码，并主动提供优化建议，从而提升开发效率。新系统通过自研测试框架在浏览器内自动点击按钮、填写表单、调用 API 并修复错误，其速度比主流 Computer Use 模型快 3 倍，成本则降低了 90%。 Agent 3 支持自然语言提示，用户可以用简单描述启动复杂项目，并在手机端通过 Live Monitoring 实时查看进度。其另一项突破是能够生成子 Agent 与自动化流程，成品可直接接入 Slack、Notion、邮件等平台，进一步扩展工作流。

2025-09-11

100

OpenAI 宣布与其主要投资方微软签署了一份非约束性谅解备忘录（MOU），开启双方合作的新阶段。该协议的核心在于 OpenAI 计划将其营利部门转型为公益股份公司(Public Benefit Corporation，简称 PBC)，这一转型若获得美国各州监管机构的批准，将为 OpenAI 带来更多的融资机会，并可能为未来上市铺平道路。 OpenAI 董事会主席布雷特・泰勒表示，公司的非营利组织将继续存在，并将保持对运营的控制权。在这份非约束性协议下，OpenAI 的非营利组织将获得新设 PBC 的股份，预计估值可能超过1000亿美元，约合7121.59亿元人民币。具体交易条款尚未披露，双方仍在积极推进最终协议的签署。根据现有的协议，微软是 OpenAI 的主要云服务提供商，并享有优先使用其技术的权利。然而，随着 ChatGPT 业务的迅速发展，OpenAI 在谈判中希望降低微软对其的控制。泰勒表示，OpenAI 与微软正在与加州和特拉华州总检察长办公室沟通，说明转型计划需要获得监管机构的批准。据《华尔街日报》报道，双方的谈判在过去几个月曾一度陷入僵局。微软希望掌控 OpenA...

2025-09-12

81

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。