首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/418874

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

小米开源 OmniVoice,覆盖 600+ 语种的语音克隆 TTS

小米 AI 实验室新一代 Kaldi 团队(k2-fsa)已推出了 OmniVoice,一款能覆盖 600+ 语种的语音克隆 TTS 模型。目前,OmniVoice 的训练、推理代码以及模型权重已全部开源。 OmniVoice 核心优势有三点: 极简的超强架构:OmniVoice 是现有非自回归 TTS 模型中最简单的,且合成语音质量最好,同时还具有训练和推理速度上的巨大优势; 多语言能力顶尖:覆盖646种语种,在中英文上保持优异能力的同时,让低资源小语种也能实现高质量合成,性能超越商用系统; 实用性强:多维度可控,适配多种实际应用场景 根据介绍,OmniVoice 的模型架构极为简洁,仅包含一个双向的Transformer 网络,模型输入为按顺序排列的文本 token 和多码本声学 token,训练方式就是对多码本声学token进行随机 mask,然后预测被 mask 掉的 token。这可能是目前最简单的非自回归 TTS 模型架构,没有对文本的单独建模,没有 CNN+Transformer 的混合结构,也没有文本到语义 token 再到声学 token 的层级预测。 OmniVoi...

再见,Llama

开源大模型之争,谷歌向左,Meta 向右。 就在 谷歌宣布 Gemma 4 全面拥抱开源之后的第 6 天,Meta 在官网发出一则公告,宣布新一代大模型 Muse Spark 正式上线。公告写道,这是“Meta有史以来最强大的模型”,将通过 meta.ai 和 Meta AI 应用向用户开放。公告里没有 GitHub 链接,没有模型权重下载地址,没有 HuggingFace 页面 —— 过去两年,每一次 Llama 系列发布,这三样东西都是标配。 这一次,什么都没有。 开源人设的建立 2023 年 2 月,Meta 首次发布 LLaMA。那次的发布本来是“学术限定”,即仅对研究机构开放,附上申请表即可免费使用。但没过几天,模型权重就被人贴在了 4chan 上,随即在整个互联网扩散。 泄露是意外,但 Meta 做了一个主动选择: 没有追究,也没有撤回,而是顺势转向全面开放。 从那之后,开源成了扎克伯格的主动人设,也成了他对外抢占舆论阵地的武器。彼时他在博客里写了一篇长文,直接点名批评 OpenAI:“封闭AI对社会不利,开源才能建立真正的信任。”每次 Llama 新版发布,他都会亲...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册