从CV到ML 直播场景下新技术的应用-低调大师

从CV到ML 直播场景下新技术的应用

2018-09-02 710

640?wx_fmt=jpeg

本文来自花椒直播海外技术负责人唐赓在LiveVideoStackCon 2017上的分享，并由LiveVideoStack整理而成，在分享中唐赓详细介绍了直播的基本组成部分以及ARKit、3D引擎、深度学习等技术在直播场景下的应用。

文 / 唐赓

整理 / LiveVideoStack

大家好，我是唐赓，现就职于花椒直播。主要负责iOS和一些新技术的应用。本次的分享内容主要是介绍一下我们包括个人对直播这项新技术应用的一些看法。

1. 直播的基本组成部分

直播行业大约是在2015开始火起来，由于是刚起步，所以整个直播行业不是特别成熟。在早期时甚至会出现音画不同步等一些基础的问题。之后也做了很多的工作，比如直播视频秒开的优化，包括网络自适应、码率自适应、分辨率以及帧率的自适应。对于码率自适应，在点播的场景下，服务器会事先准备几段不同码率的视频，观众根据不同的需要、网络状况从服务器上拉取不同的码流。但是在直播的场景下，网络自适应更多的是发生在主播端，比如当主播的网络不太好时，我们就会根据上行的码流情况来实时的进行调整，包括调整视频的分辨率、码率、帧率。然后对于超大型的聊天室或者一些直播网站，就要求每个直播间能够承受百万量级并发的在线用户，包括私信、群组，这都是我们过去已经做过的一些优化工作。

随着直播行业的发展，单向的直播已经没有什么新意了，现在大家开始关注连麦、一对一的单聊、群聊等。这些功能在我们的APP中都已经实现了，包括上层的展现，比如美颜、滤镜、瘦脸、大眼、人脸识别贴纸、3D头盔等等。我们在2015年5月份左右起步做直播，这些都是我们在这两年里做过的一些事情，目前这些功能已经逐渐成为直播APP的标配，那么下一步该如何去做？在我个人认为至少可以关注以下方面，如Augment Reality，Computer Graphics、Computer Vision以及Machine Learning.，接下来将分别给大家介绍一下这四个方面。

2. Augment Reality

首先是人脸识别技术，从2016年开始已经初步实现，而我们可以说是第一个把这项技术应用到直播场景中的。2016年初，我们发现手机上实时的人脸识别非常消耗CPU内存，因此就可能导致直播卡顿，无法播放。为了解决这个问题，我们当时进行了非常多的优化，比如，最先在有限的手机资源之上实现了实时的人脸贴纸功能。但当时人脸识别的SDK普遍的CPU消耗都在50%以上，甚至苹果自己提供的人脸识别的消耗都在80%以上，而且抖动非常厉害。到了2017年，在不断的优化之后，人脸识别在手机上的应用就非常成熟了。

现在基于ARKit、ARCore、SenseAR或者是基于IMU都可以实现很多玩法，比如利用AI/AR可以实现手势识别与真实场景的结合。那么AR可以怎么利用呢？从一些小视频可以看到，拍摄者与表演者以及一些动画效果要配合的很好才能实现AR特效，但是这些都是假的AR，而我们用AR技术就完全可以把这些做成真的。另外，基于AR在直播间里的视频上面展现一些广告或者好玩的东西，这实际也是比较经典的AR应用。

3. Computer Fraphics

AR可以反馈一些基本场景的认知信息，包括平面在哪里，墙在哪里等。那么如何在上面叠加这些场景，这就需要基于图形学的一些技术。最常见的就是基于OpenGL/Metal提供的一些API去实现，当然也有利用像Unity、Unreal之类相对成熟的引擎，包括苹果提供的SceneKit 3D引擎。另外就是利用一些开源的引擎，比如Cocos2d-x、Crystal Space、Blender Game Engine，它们的功能也都比较强。像Cocos2DX目前已经发展出比较强的3D能力，它能够展现骨骼动画以及一些比较复杂的光影效果。如果能力足够也可以开发自制引擎，据我所知，国内的很多游戏厂商比如腾讯、畅游、搜狐，他们用的都是自己研发的强大引擎。

4. Computer Vision

直播行业目前对计算机视觉的依赖也变得非常的强烈。计算机视觉的开源实现主要体现在两个开源库，分别是OpenCV和Dlib。OpenCV是由Intel发布的一个非常强大的视觉库。包括实时计算机视觉、机器学习，包括一些图像处理、分析等基本都离不开它，而且它的代码实现非常的简单快速。Dlib的使用非常方便，而且它自带了它所依赖的一些东西，包括网络、线程、GUI、各种各样的线性代数、机器学习、图像处理等各种模块。它最大的一个优势是自带强大的人脸识别引擎。接下来可以看一下基于OpenCV和Dlib实现的一些功能。

A. 人脸朝向识别

从上面这幅图可以看到，根据Dlib给出的人脸关键点坐标信息，计算出了人脸的朝向，人脸前面的这根红线就是显示出了人脸的朝向。基于人脸关键点坐标、朝向信息，就可以实现比较炫酷的3D头盔功能，此处例子的实现目前在网上有开源的代码可以进行参考。

B. 精确估算手势位置和姿势

从上图可以看到，在直播中可以精确的估算主播的手指头的位置以及姿势，主播可以利用这种技术完成很多有趣的交互。

目前，在PC上已经可以实现对于一个场景中多个人的复杂的肢体运动的实时识别。但是面临的一个非常大的挑战是如何将这个能力内嵌到手机APP中，如果能够做到这一点，那么就可以把主播跳舞之类的身体动作实时截取出来并与动画人偶相结合，会使得整个直播间显得非常生动。

5. Machine Learning

640?wx_fmt=png

接下来简单介绍一下机器学习。机器学习在直播中已经有了很多的运用，比如人脸识别、物体识别、手势识别、背景分割抠像等，再进一步的运用就是实时翻译、跨语种连麦、画质改进以及自动生成主播漫画人偶。

640?wx_fmt=png

机器学习的运用除了此前介绍到的一些前台功能，还具有后台功能，包括实时判断主播的性别年龄、颜值才艺类型、识别场景、口才打分、人气等。

640?wx_fmt=png

下面几页PPT简单介绍一下深度学习的一些入门知识。上面展现的是Google的一个Neural Network Playground ，在playground.tensorflow.org上可以看到，可以尝试设计自己的神经网络，了解深度学习的过程。（DEMO）。实际上深度学习就是在不断地调整它的超参数，增加深度学习的深度以及细胞的数量。现在所谓的深度学习的研究实际上就是用各种各样的排列组合来找出一种网络结构能够更适合的解决某一类问题。

640?wx_fmt=png

上面列出了各种开源的网络结构，它们都是由各种学术机构花了很多的时间精力找出的比较适合解决某些问题的网络结构。当网络结构越复杂时，训练模型的时间就越久。

640?wx_fmt=png

这是一个简单的深度学习的例子，其中高亮的几行是对网络结构的描述。它使用Keras/TensorFlow训练模型，在进行了一千次迭代之后，误差就降到了千分之四，我们就可以认为训练出来的模型已经学会了异或运算法则。

前面例子中训练出来的模型可以直接放在CoreML中使用，运行出来的结果可以在上图中的输出看到，所以说CoreML开发过程是非常简单快速的。

640?wx_fmt=png

上面这个例子也是实现判断异或功能，但是它没有依赖任何框架，只是利用了一个最基本的数学运算库，这个例子可以看到深度学习核心算法的工作原理，右边是训练跑出来的结果，可以看到最终得到的结果跟前面的一样。所以深度学习就是这么简单暴力。

综上所述，有这么多的技术等着我们去把它放到直播中使用，我觉得后面的前景还是非常广阔的，我们还有很多事情要去做。

微信关注我们

原文链接：https://yq.aliyun.com/articles/668557

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【Recorder.js+百度语音识别】全栈方案技术细节

项目中需要利用百度语音接口在Web端实现语音识别功能，采用了这样的技术方案，但实现时遇到了很多问题，发现网上大部分文章都只是在详解官方提供的example示例，对实际开发没有提供什么有价值的建议，而recorder.js是无法直接适配百度AI的语音接口的，故本篇将开发中各个细节点记录与此，欢迎指点交流。一. 技术栈选择需求：利用百度语音接口在Web端实现语音识别功能技术栈：React+recorder-tool.js +recorder.js + Express + Baidu语音识别API recorder.js项目地址:https://github.com/mattdiamond/Recorderjs 演示效果：二. 前端开发细节为recorder.js提供一个代理对象前端的主框架采用React，在基本结构和语法上并没有太多问题，为了使用recorder.js，我们封装了一个recorder-tool.js作为代理，其实现方法较为简单，就是将官方示例中example示例中的html文件的脚本部分封装成一个单例对象作为recorder.js的代理，然后暴露一组API供上层...

2018-09-01

611

本文章项目来自阿里巴巴创业孵化平台的AI赛道明星班，更多文章请访问： 1、阿里AI赛道明星班，荣耀启航2、朱啸虎：教育、企业应用和人工智能是资本寒冬的“吉祥三宝”3、九合创投王啸：送给AI创业者的2018年生存指南4、启迪之星刘博：优秀的创业者=家国情怀+学者智慧+商业思维+江湖行动 2017年底中国60岁以上老人达到2.41亿人，并以每年近10%的速度增长，国家每年约发放3000多亿养老金。传统模式下，对社保领取人身份进行验证，或通过线下人工人证比对，或通过诸如指纹、指静脉、掌静脉等特定设备。两种方式往往都需要领取人到指定的时间和地点进行认证，对于不少交通不便或者异地的人来说，十分不便，且成本高昂。此外，不少地区不少情况下也因为身份认证不及时，造成冒领、盗领等问题。我们近期接触的「看看社保」则希望通过人脸识别、声纹识别、大数

2018-09-03

612

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。