京东开源 JoyAI-VL-Interaction 实时视频视觉语言交互模型-低调大师

京东开源 JoyAI-VL-Interaction 实时视频视觉语言交互模型

2026-06-22 1

京东于近日开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction。据介绍，这也是全球首个全栈开源的 interaction 模型和系统，并获得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction 让大模型从“一问一答”走向“边看边说”，开发者基于这套框架，可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。

相比传统模型，JoyAI-VL-Interaction有三重突破：

1、主动判断，而非被动回答。传统模型通常要等用户发起问题，才开始处理当前画面，而JoyAI-VL-Interaction可以持续观察视频流，自主判断什么时候该说话，什么时候该沉默。

比如用户设置“裁判出示红牌时提醒我”，模型就会持续值守画面，并在事件发生时自动预警，而不是等用户再问一句“刚才发生了什么”。

2、实时响应，而非事后总结。传统视频理解更多是上传完整视频后再分析，但在安防预警、实时翻译、直播解说、操作指导等场景里，晚几秒，体验和价值都会不同。而JoyAI-VL-Interaction面向正在发生的视频流，画面变化时就能响应。

3、适时智能体委托，同时保持观察和交互。JoyAI-VL-Interaction还具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时，可以交给后台大模型或Agent。前台模型继续观察现场，后台模型处理复杂任务，结果返回后再自然接回对话。它更像一套“前台实时助手+后台智能大脑”的协作系统：前台负责在场，后台负责干重活，有机会开启AI与人类协作的新范式。

在实时视频流中，JoyAI-VL-Interaction 每秒都会做一次判断，比如，继续观察、保持沉默，发现关键事件、主动回应，遇到复杂任务，交给后台Agent处理。这意味着，“什么时候说话”不再只靠外部规则或定时触发，而是成为模型自己学会的能力。

JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块，都可以按需替换。开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。

在评测中，JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的58 个真人盲评案例中，JoyAI-VL-Interaction 对比豆包视频通话助手，总体胜率 77.6%；对比 Gemini 视频通话助手，总体胜率 87.9%。尤其在监控预警场景中，对两个基线均取得 100% 胜率。

微信关注我们

原文链接：https://www.oschina.net/news/464991

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Sakana AI 发布 Fugu，以单一模型 API 的形式提供多 Agent 编排系统

2026 年 6 月 22 日，东京 AI 公司 Sakana AI 正式发布了 Fugu——"用一个模型指挥所有模型"的多 Agent 编排系统。Fugu 的核心赌注是一个越来越被 AI 产业认真对待的命题：AI 能力的下一步提升不会来自造出更大的单一模型，而是来自让多个已有模型协同工作。为了实现这个赌注，Sakana AI 将两篇 ICLR 2026 论文——TRINITY 和 Conductor 的研究成果打包成一个 OpenAI 兼容的 API 端点。对调用者来说，它就是一个模型；但在 Fugu 内部，一个轻量级协调器...

2026-06-22

1

在 LLM 让软件开发成本断崖式下降的时代，做一家小型软件公司还有没有意义？前 Stripe 工程师、开源项目 River 的作者 Brandur Leach 在自己的博客上发表了长文《The Minimum Viable Unit of Saleable Software》（可销售软件的最小可行单元），试图用一个清晰的经济学框架来回答这个问题。他的核心结论是：LLM 让软件变便宜了，但没有让它变免费——在成本和复杂度之间，仍然存在一个"可销售软件"的生存区间，关键在于找到那个"最小可行单元"。 Leach 用一个 LinkedI...

2026-06-22

1

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。