首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/u/5783135/blog/18822143

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

字节跳动发布 Vidi2:120 亿参数,让视频编辑彻底自动化

字节跳动发布了其最新的多模态大语言模型 Vidi2,一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材,理解其中的故事脉络,并根据简单提示生成完整的TikTok短视频或电影片段,被视为对现有视频编辑行业的重大颠覆。 Vidi2的关键在于其视频理解能力。新模型新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定文本查询,Vidi2不仅能找到对应的时间段,还能在这些时间范围内准确标记出具体物体的位置。 在技术细节上: 时空定位:模型返回“管道”(时间索引边界框),以一秒粒度跟踪指定对象和人物,直接支持编辑,例如在人群中跟踪特定人物。 技术架构:Vidi2升级使用Gemma-3作为主干网络,并辅以重新设计的自适应标记压缩技术,确保在处理长视频时保持效率而不丢失关键细节。 在用于开放式时间检索的 VUE-TR-V2基准上,Vidi2 总体 IoU 达到48.75,尤其在超长视频(超过1小时)上的表现比商业模型领先17.5个百分点。在定位任务(VUE-STG)上,模型也取得了vIoU32.57和tIoU53.19的最佳性能。 字节跳...

西藏发布千亿级藏语大模型“阳光清言”V1.0

国内首个面向藏语场景的千亿级参数藏语基座大模型“阳光清言”V1.0 已发布。 该大模型由中国工程院院士、西藏大学教授尼玛扎西团队和北京智谱华章科技股份有限公司联合研发。目前,研究团队正按照国家相关法规推进备案工作,待备案完成后,将正式上线并面向社会提供服务。 据介绍,“阳光清言”藏语大模型V1.0是一款具备千亿参数规模的藏语大模型。该模型的训练数据使用了约288亿Token高质量藏语数据,包括大规模句子级和篇章级的藏语单语数据、汉藏和藏英平行语料,以及汉藏双语辞典条目等。 数据内容涵盖新闻、法律、医学、哲学、教育、文史、科学技术等多个领域,使其能够有效应对复杂的语言结构和多领域知识,具备深度的藏语语义理解与生成能力,力争可以达到在问答交互中表现自然流畅,生成内容准确明晰。 除了具备强大的藏语处理能力外,“阳光清言”藏语大模型V1.0还具备出色的汉语理解与生成能力。作为一款通用基座模型,它可广泛应用于文旅服务、生态保护、农牧科研、文化传承、藏医药发展与高原健康等多个行业大模型的构建,重点致力于解决边疆数智治理过程中的语言技术难题,助力提升基于大模型的市域与区域治理能力、民生服务水平,并推...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册