京东于近日开源了实时视频视觉语言交互模型 JoyAI-VL-Interaction。据介绍,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。
JoyAI-VL-Interaction 让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景AI助手。
相比传统模型,JoyAI-VL-Interaction有三重突破:
1、主动判断,而非被动回答。传统模型通常要等用户发起问题,才开始处理当前画面,而JoyAI-VL-Interaction可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。
比如用户设置“裁判出示红牌时提醒我”,模型就会持续值守画面,并在事件发生时自动预警,而不是等用户再问一句“刚才发生了什么”。
2、实时响应,而非事后总结。传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。而JoyAI-VL-Interaction面向正在发生的视频流,画面变化时就能响应。
3、适时智能体委托,同时保持观察和交互。JoyAI-VL-Interaction还具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。它更像一套“前台实时助手+后台智能大脑”的协作系统:前台负责在场,后台负责干重活,有机会开启AI与人类协作的新范式。
在实时视频流中,JoyAI-VL-Interaction 每秒都会做一次判断,比如,继续观察、保持沉默,发现关键事件、主动回应,遇到复杂任务,交给后台Agent处理。这意味着,“什么时候说话”不再只靠外部规则或定时触发,而是成为模型自己学会的能力。
JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块,都可以按需替换。开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。
在评测中,JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的58 个真人盲评案例中,JoyAI-VL-Interaction 对比豆包视频通话助手,总体胜率 77.6%;对比 Gemini 视频通话助手,总体胜率 87.9%。尤其在监控预警场景中,对两个基线均取得 100% 胜率。
