-
微软开源文本转语音模型 VibeVoice,支持最多 4 位说话人同时发声
微软正式开源了其最新的文本转语音(TTS)模型VibeVoice-1.5B,该模型主打 “超长、多人、高压缩”,单次即可生成长达 90 分钟的连续语音,并支持最多 4 位说话人同时发声。 VibeVoice-1.5B 的核心创新在于其双 Tokenizer 设计。模型分为两个独立但协同工作的模块。 1. 声学 Tokenizer:负责保留声音特征并实现高压缩...
时间:2025-08-26点击:37收藏
-
播放器视频后处理实践
1. 前言 在播放器架构不断演进的今天,视频后处理技术正在成为提升用户体验的关键环节。相比传统的解码即播,现代播放器越来越多地引入后处理链路,通过增强画质、渲染氛围等手段,为用户提供更具沉浸感的视听体验。 本系列文章将系统介绍我们在播放器视频后处理模块中的技术方案与工程实现,涵盖从效果设计、算法选型,到性能优化和跨平台兼容的全链路细节。第一期内容聚焦在两类核...
时间:2025-08-26点击:37收藏
-
英伟达发布 Jetson AGX Thor 开发者套件: 基于 Blackwell 架构、专为物理 AI 和机器人打造
英伟达宣布NVIDIA Jetson AGX Thor™开发者套件和量产级模组现已发售。这是一款功能强大的新一代机器人计算机,旨在为制造、物流、交通、医疗、农业和零售等行业的数百万台机器人提供算力支持。 Jetson Thor 基于 NVIDIA Jetson™ 软件平台,专为物理 AI 和人形机器人打造,支持所有主流 AI 框架与生成式 AI 模型。同时,...
时间:2025-08-26点击:27收藏
-
亚马逊 AGI 实验室掌门人首度回应
去年,当亚马逊以一种前所未有的方式招揽AI初创公司Adept的创始团队时,整个行业都为之震动。这种被称为"反向人才收购"的全新交易模式,让大型科技公司无需完全收购初创企业,而是通过挖走核心团队并获得技术授权来达到目的。 这场交易的核心人物David Luan,从Adept联合创始人兼CEO摇身一变,成为了亚马逊全新AGI实验室的掌舵人。如今,面对外界的质疑声...
时间:2025-08-26点击:33收藏
-
LazyLLM教程 | 第6讲:检索更准:RAG召回效果优化的底层逻辑与技巧
从前面的课程中我们知道了 RAG(Retrieval-Augmented Generation)系统是一种结合检索和生成两个核心组件实现基于外部知识源回答用户查询的智能系统,可以在一定程度上克服大模型幻觉问题在特定领域问答任务上给出与上下文相关的答案。RAG 的基本思想是先通过检索模块从大量文档中找到与用户问题相关的上下文,然后将这些信息提供给生成模型,以生...
时间:2025-08-26点击:44收藏
-
谷歌 NotebookLM 升级:支持 80 种语言的视频与音频概述
谷歌宣布其 AI 研究助手 NotebookLM 迎来重大更新,其 “Video Overviews(视频概述)” 功能现已支持 80 种语言(包括简体中文),并同步升级了 Audio Overviews(音频概述)。Video Overviews 最初于 7 月推出,此次更新后,全球用户可用本地语言生成笔记本内容的视频摘要。 此次升级的核心亮点如下: 视频...
时间:2025-08-26点击:33收藏
-
快手可灵&港大提出 Context-as-Memory,上下文记忆力媲美 Genie3 且问世更早
香港大学和快手可灵团队近日联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出一种创新性方法:将历史生成的上下文作为“记忆”(即Context-as-Memory),通过context learning 技术...
时间:2025-08-26点击:39收藏
-
微软分享有关开源 Windows 11 UI 的新细节
本月初, 微软公布了有关开源Windows 11 用户界面框架 WinUI 的细节。开源 WinUI 一直是开发者们的长期呼声,但实现起来并非轻而易举。由于 WinUI 在操作系统的专有层面“根深蒂固”,开源该框架需要谨慎且深思熟虑的方法。在首次发布几周后, 微软准备分享更多关于 WinUI OSS 项目的信息。 微软希望分四个阶段完成这项任务。第一阶段主要...
时间:2025-08-26点击:31收藏
-
华为鸿蒙 HarmonyOS 5 终端设备数突破 1200 万
鸿蒙生态发展再获新进展。8月25日,在智界及问界秋季新品发布会上,华为技术有限公司(以下简称“华为”)常务董事、终端BG董事长余承东宣布搭载HarmonyOS 5(以下简称“鸿蒙5”)的终端设备数量突破1200万台。 而这距离今年7月30日,余承东透露鸿蒙5终端数量突破千万台,仅不足一个月,再次创造了“鸿蒙速度”。 自鸿蒙5系统发布以来,其终端设备数量呈现指...
时间:2025-08-26点击:36收藏
-
字节跳动内测全新 3D 模型生成工具 “3D Model Generator”
《读佳》消息称,字节的豆包内部正在研发测试名为“3D Model Generator”的3D模型生成工具。该工具致力于可控大规模生成模型,为创建高质量3D资产提供有力支持,尤其在游戏中的3D建模领域。该工具或不久后对外开放使用。 从测试页面可以看出,“3D Model Generator”支持两种生成方式,一种是基于图像生成,选取本地图像文件,点击“生成”,...
时间:2025-08-26点击:32收藏
-
bboss v7.5.0 重磅发布,新增 OSS 文件采集功能,优化 httpproxy 重试机制
bboss v7.5.0 重磅发布,新增OSS文件采集功能,优化httpproxy重试机制,优化持久层连接参数设置,改进jdk17兼容性。 v7.5.0 功能改进 工作流调度机制完善:一次性执行流程支持异步执行模式 工作流改进:通用函数节点提供抽象函数基础类BaseJobFlowNodeFunction,供具体函数继承使用,默认提供了节点初始化方法的实现 工...
时间:2025-08-26点击:40收藏
-
华为将发布自研 AI SSD
华为将于8月27日发布新品AI SSD,目标直指AI存储器市场。传统HBM存在容量限制,而华为或将通过技术创新提供大容量SSD。 另据中国基金报记者报道,在当前的AI存储器领域,HBM(高带宽内存)占据重要地位。HBM是一种通过3D堆叠和超宽接口,实现极高数据传输带宽的先进内存技术,通常直接封装在GPU(图形处理器)卡中。 问题在于,相比于之前的内存技术,H...
时间:2025-08-26点击:42收藏
点击排行
推荐阅读
最新文章
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- Dcoker安装(在线仓库),最新的服务器搭配容器使用