谷歌推出 MusicLM,从文本生成音乐的模型
谷歌研究院宣布推出 MusicLM,这是一种从文本描述中生成高保真音乐的模型。MusicLM 将音乐的生成过程视为分层的序列到序列建模任务,并以 24 kHz 的频率生成音乐。 无论文本描述是一段话、一个故事,或仅为一个单词,MusicLM 都能生成对应对应的音乐,还能根据文本中的年代、时间、地点等要素来调整音乐的风格。 MusicLM 主页中有许多样本,可以看到,文本描述中有许多氛围描述的语句,比如“迷失在太空中的体验”、“营造出一种舒缓和冒险的氛围”、“唤起一种惊奇和敬畏的感觉”,也有一些具体的应用场景,比如“街机游戏的配乐”、“适合跳舞”。可以看 MusicLM 可以轻松驾驭这些模糊的描述和具体场景的组合 。 除了长文本,MusicLM 也能从一个单词或短语中创造出对应的旋律,比如“摇摆“、”轻松的爵士“、”旋律技术“等: 除此之外还可以按”故事模式“生成音乐,只需设定对应的时间戳,MusicLM 就会根据时间戳生成不同风格的音乐(不过转换起来非常生硬,有种”画风突变“的感觉)。 除了上述生成方式,MusicLM 还可以通过在描述文本中插入一些关键词来精修音乐,如”嗡嗡声“、”原...



