iOS短视频源码音频采集过程中的音效实现-低调大师

iOS短视频源码音频采集过程中的音效实现

2019-04-02 608

在移动短视频直播中, 声音是主播和观众互动的重要途径之一, 为了丰富直播的内容,大家都会想要在声音上做一些文章, 在短视频源码采集录音的基础上玩一些花样。
比如演唱类的直播间中, 主播伴随着背景音乐演唱. 这时有些主播就会希望能够给自己声音增加混响的效果, 营造出在舞台剧场等环境下演唱的氛围. 再比如有些搞笑类的直播间, 主播会希望给自己的声音添加变声的效果, 女变男,男变女或者变成机器人等等. 为了实现这些需求我们需要对采集的声音进行处理, 并且为了让主播实时听到这些处理后的效果,以便根据效果进行调整，我们也需要提供低延时的回放,将变化后的声音播放给主播听.对声音处理的方案比较多，这里介绍一下短视频直播SDK中所采用的基于iOS提供的AudioUnit的方案。
iOS系统提供了非常丰富的音频相关的API，涵盖了从采集，处理到播放等各个环节，并且按照需求的层次进行了分组。
其中，离底层的驱动和硬件最近的就是AudioUnit系列的API，很多其他高层的API，都是对AudioUnit的封装. 比如AVFoundation、AudioQueue、AVAudioEngine等。
缺点：
涉及到的专有概念比较多，接口复杂，提供C风格的API
优点：
低延时，从采集到播放回环可以到10ms的级别可以动态变更配置组合可以直接获得后台执行权限

AudioUnit简介
AudioUnit这个名字取得还是比较形象的，它的主体就是一系列的unit，不同unit能够实现不同的功能，将一个或多个unit添加到AUGraph(Audio Processing Graph)中，并建立unit之间的连接，音频数据顺次通过各个节点即可完成我们最终需求。

其中，I/O主要负责和设备打交道，比如采集和播放;Mixing负责将不同来源的音频数据进行混合;Effect是对音频数据进行音效处理;Format Conversion主要是进行格式转换比如重采样等。这里有一个优化的点是音频格式转换 Multichannel Mixer 本身就能够实现格式转换的功能，输入和输出的音频数据格式可以不同，利用这一点可以节省一个格式转换unit。

使用AudioUnit进行音频采集
在直播应用中，我们主要是使用Remote I/O unit来进行采集工作。在一个AUGraph中只允许有一个I/O unit。Remote I/O需要同时负责采集和播放的功能。当用户开启耳返功能时，要将采集到的声音，处理之后再送回当前节点直接播放，这样可以将采集和播放的延时控制在50ms以内，主播才察觉不到声音的延时。基本的步骤如下:
实例化AUGraph，将用到units添加进去；
配置每个AudioUnit的属性；
设置Render Callback Function；
4.将units 建立连接；

5.启动AUGraph。
在直播录制中比较关键的一步就是Render Callback Function。
AudioUnit每次都是处理一段音频数据，每次处理完成一段数据的时候，这个回调函数就会被调用一次。在这个回调函数中，通过AudioUnit的AudioUnitRender方法，可以AUGraph中的某一个节点中获取到一段处理后的音频PCM数据。同时，如果需要进行耳返播放，在这个回调中也需要将取得的音频数据送入到回调函数的最后一个参数ioData对应的buffer中。
在设置unit的属性时，需要注意的是一些公共的属性。比如音频格式属性和MaximumFramesPerSlice。如果音频格式设置错误，往往会出现AUGraph启动失败或者声音异常等问题。比如，使用iOS内置的麦克风或者有线耳机时，设备支持的采样率比较高，44.1KHz 能正常工作，我们整条音频通路上基本上都采用的是44.1KHz。但是当使用蓝牙设备时，一般蓝牙设备无法支持44.1KHz采集和播放，通常都是16KHz甚至更低。此时I/O Unit无法继续使用之前的配置。需要按照实际支持的采样率进行配置。
AudioUnit还要求两个单元衔接处的音频数据格式必须保持一致，当AUGraph中不同unit支持的格式不同时（比如在支持蓝牙设备或者使用回声消除模块时，I/O unit要求的格式和其他单元的有可能不同），此时就需要分别设置格式，并通过格式转换unit或mixer unit对格式进行转换。
如果MaximumFramesPerSlice设置错误，可能会出现声音异常的情况。 MaximumFramesPerSlice 表示的是每次回调送入或取出的音频数据的长度，在AUGraph的所有节点的这个属性也需要保持一致否则会导致有的unit丢弃数据，而出现声音异常。

使用AudioUnit进行音效处理
这里所谓的音效处理，主要是指对原本的声音进行一些改变，比如混响效果，变声效果等。用到手段主要是数字信号处理提供的一系列时间和频域的工具，将输入的PCM数据经过运算后得到变化后的声音。

4.1 混响效果(reverberation)
我们在音乐厅，剧院，礼堂等比较空旷的室内说话或唱歌时，往往能听到和平时不一样的声音，主要是声音在墙壁上多次反射后叠加在一起，听起来就有了混响的效果。在声音处理中，我们可以人为的将声音缓存起来，延时一定时间后，和原声音叠加，就能够模拟出混响的效果。AudioUnit提供了kAudioUnitSubType_Reverb2来实现混响效果的生成。将该unit接入到AUGraph中之后，配置参数即可实现混响的效果。虽然混响原理是比较简单，但实际上为了模拟自然界中实际的音效，计算过程还是相当复杂的，要模拟出不同的大小的空间，不同材质的墙壁，障碍物的多少，需要输入比较多的参数来参与运算。iOS的reverb unit提供了7个参数。我们在直播应用中提供了4个不同场景的模拟(录音棚，演唱会，KTV，小舞台)，主要是通过调整如下参数实现的：
kReverb2Param_DryWetMix混响效果声的大小与空间大小无关，而只与空间内杂物的多少以及墙壁及物体的材质有关；
kReverb2Param_DecayTimeAt0Hz / kReverb2Param_DecayTimeAtNyquist衰减时间，整个混响的总长度，与空间大小比较相关，越空旷越长。
4.2 变声效果
变声效果主要是在频域上对人的声音进行一定的处理，我们知道男声一般比较低沉，女声比较尖锐，这个主要说的是音调。通过对声音音调的调整，可以让低沉的男声听上去像尖锐女声。iOS提供了kAudioUnitSubType_NewTimePitch的unit来实现音调的调整。值得注意的是kAudioUnitSubType_NewTimePitch不是输入Effect类的，而是属于FormatConverter类的。通过设置TimePitch unit的kNewTimePitchParam_Pitch属性即可。
/// pitchShift为具体数值(0表示不变，负数表明调低沉，正数调尖锐)AudioUnitSetParameter(pitchUnit, kNewTimePitchParam_Pitch, kAudioUnitScope_Global, 0, pitchShift, 0);
变男声，需要强化突出低沉的特点，将音调调低，设置负数参数即可；
变女声，需要强化突出尖锐的特点，将音调调高，设置正数即可；
机器人音效，机器人的音效是一个组合效果，我们印象中的机器人音效都是老电影中的那种，音调比较高，而且有重音。所以我们采用的是TimePitch unit + Delay unit的方式。Delay unit也是iOS提供的一个将声音延时叠加的unit，但是比混音要简单很多，只有单次叠加；
庄严宏大音效，想象一下佛祖之类的声音，一般都是自带回声，而且比较男性化，所以我们选择的是TimePitch unit + Reverb unit的方式来实现。
这里推荐一个自己调音效的参考软件voxal voice changer。大家可以在这个软件上自己将不同的工具组件组合起来，调试参数，实时听到参数对应的结果。当效果满意后再移植到AudioUnit中。

总结
以上大概介绍了怎么用AudioUnit来实现iOS直播中的音频采集，怎么使用AudioUnit中的音效组件来实现混响和变声效果。但是AudioUnit的潜力还远没有挖掘完，比如还可以将背景音乐播放，混音，回声消除等其他移动多媒体音频相关的功能纳入到这个框架中。

微信关注我们

原文链接：https://yq.aliyun.com/articles/696570

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Android之OkHttp详解

Android之OkHttp详解文章大纲一、OkHttp简介二、OkHttp简单使用三、OkHttp封装四、项目源码下载一、OkHttp简介什么是OkHttp 一般在Java平台上，我们会使用Apache HttpClient作为Http客户端，用于发送 HTTP 请求，并对响应进行处理。比如可以使用http客户端与第三方服务(如SSO服务)进行集成，当然还可以爬取网上的数据等。OKHttp与HttpClient类似，也是一个Http客户端，提供了对 HTTP/2 和 SPDY 的支持，并提供了连接池，GZIP 压缩和 HTTP 响应缓存功能。 OkHttp优点（1）支持HTTP2/SPDY（SPDY是Google开发的基于TCP的传输层协议，用以最小化网络延迟，提升网络速度，优化用户的网络使用体验）（2）socket自动选择最好路线，并支持自动重连，拥有自动维护的socket连接池，减少握手次数，减少了请求延迟，共享Socket,减少对服务器的请求次数（3）基于Headers的缓存策略减少重复的网络请求（4）拥有Interceptors轻松处理请求与响应（自动处理GZip压缩...

2019-04-02

709

Android之RxJava详解文章大纲一、什么是RxJava二、为什么要用RxJava三、RxJava使用详解四、项目源码下载五、参考文章一、什么是RxJava Rx(Reactive Extensions)是一个库，用来处理事件和异步任务，在很多语言上都有实现，RxJava是Rx在Java上的实现。简单来说，RxJava就是处理异步的一个库，最基本是基于观察者模式来实现的。通过Obserable和Observer的机制，实现所谓响应式的编程体验。二、为什么要用RxJava 比如说一个庞大的项目，一个事件传递的整个过程可能要经历很多方法，方法套方法，每个方法的位置七零八落，一个个方法跳进去看,跳过去跳过来很容易把脑袋弄晕，不够直观。但是Rxjava可以把所有逻辑用链式加闭包的方式呈现，做了哪些操作，谁在前谁在后非常直观，逻辑清晰，维护就会非常轻松。就算不是你写的你也可以很快的了解，你可以把它看作一条河流，整个过程就是对里面的水流做进行加工。懂了这个特性我们才知道在复杂的逻辑中运用Rxjava是多么的重要。假设有这样一个需求：界面上有一个自定义的视图 imageCollec...

2019-04-02

611

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。