音视频技术开发周刊 53期-低调大师

音视频技术开发周刊 53期

2018-06-10 821

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览本期内容，祝您阅读愉快。

策划 / LiveVideoStack

架构

阿里巴巴开源语音识别声学建模技术

本文介绍了DFSMN，一种改进的前馈顺序存储器网络（FSMN）架构，适用于大型词汇表连续语音识别。我们发布了基于流行的Kaldi语音识别工具包的DFSMN的源代码和训练配方，并证明DFSMN可以在LibriSpeech语音识别任务中实现最佳性能。

HDR转换曲线比较

随着显示技术的发展以及消费者对更极致观影体验的追求，超高清电视(UHDTV)逐渐成为热点话题，高分辨率、高帧率、高动态范围(HDR)、宽色域(WCG)是超高清电视的主要特征，其中高动态范围是近年的热点研究问题。

美拍短视频成本减半及毫秒起播优化实践

本文将从成本优化，成功率优化，播放体验优化等几个方面，整体介绍下美拍短视频成本减半以及毫秒起播优化实践之路。

心随手动，快手抖音的特效是怎么来的？

本文将从编辑的原理，预览功能，视频预处理，特效的制作等几个方面，介绍了抖音短视频背后的技术故事。

STUN/TURN/ICE协议在P2P SIP中的应用（一）

本文详细描述了基于STUN系列协议实现的P2P SIP电话过程，其中涉及到了SIP信令的交互，P2P的原理，以及STUN、TURN、ICE的协议交互。

STUN/TURN/ICE协议在P2P SIP中的应用（二）

本文详细描述了基于STUN系列协议实现的P2P SIP电话过程，其中涉及到了SIP信令的交互，P2P的原理，以及STUN、TURN、ICE的协议交互。

50种机器学习和预测应用的API，你想要的全都有

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API，为你节省了寻找资源的时间。

音频/视频技术

腾讯视频全网清晰度提升攻坚战

腾讯视频移动端播放内核技术负责人李大龙围绕Codec，详细解读了腾讯为提升视频质量做的种种工作，包括播放器、编码与解码端、Codec优化、AI内容分类等。本文来自李大龙在LiveVideoStackCon 2017大会的分享，由LiveVideoStack整理。

WebRTC-Native 源码导读（十一）：混音

本文主要介绍了WebRTC 混音模块的相关内容与实践：AudioMixer 的实现原理、AudioMixer 的产品化、工程化要点等内容。

直播全流程探索

近年来，直播兴起，QQ音乐也接入了直播能力，支持演唱会的直播和主播、明星直播，根据互动方式的不同，我们可以分为互动直播和推流直播。本文主要对web部分的直播流程进行介绍。

GPUImage详细解析（十三）多路视频绘制

本文主要介绍了用GPUImage进行多路视频的渲染的几种不同的方案，通过分析，发现其对应的应用场景。

编解码

IBM Cloud Video工程师Scott Grizzle谈流媒体协议和Codec

Streaming Media特约编辑Tim Siglin在Streaming Media East 2018采访了IBM Cloud Video工程师Scott Grizzle。LiveVideoStack对本文进行了摘译。

H264/SVC Temporal Scalability

在多人远程会议或直播系统中，参与的用户可能处于不同的网络环境（有线、wifi、3G、4G）中，网络质量各不一致，为了所有用户可进行远程会议或者直播的观看，简单的做法就是降低发送端的视频码流，这样不管网络质量好坏，参与的用户都将观看低码率的视频流。这种方案缺点在于大部分网络较好的用户会被少数的网络较差的用户给拖累。这里介绍 H264 编码器中的 Temporal Scalability 机制来优化该方案。

webrtc 视频编码之 h264 自动调节分辨率一

webrtc 内部支持 vp8，vp9，h264 视频编码，由于业务需要和出于通用性考虑，我选择了 h264 编码，webrtc集成了openh264，ffmpeg用于h264的编解码。本文主要介绍openh264 是如何动态调整分辨率的。

webrtc 视频编码之 h264 自动调节分辨率二

webrtc 内部支持 vp8，vp9，h264 视频编码，由于业务需要和出于通用性考虑，我选择了 h264 编码，webrtc集成了openh264，ffmpeg用于h264的编解码。本文主要介绍openh264 是如何动态调整分辨率的。

AI智能

深度学习AI美颜系列----基于抠图的人像特效算法

美颜算法的重点在于美颜，也就是增加颜值，颜值的广定义，可以延伸到整个人体范围，也就是说，你的颜值不单单和你的脸有关系，还跟你穿什么衣服，什么鞋子相关，基于这个定义(这个定义是本人自己的说法，没有权威性考究)，本文主要介绍基于人体抠图来做一些人像特效算法。

一文概览主要语义分割网络：FCN,SegNet,U-Net...

本文作者总结了 FCN、SegNet、U-Net、FC-Densenet E-Net 和 Link-Net、RefineNet、PSPNet、Mask-RCNN 以及一些半监督方法，例如 DecoupledNet 和 GAN-SS，并为其中的一些网络提供了 PyTorch 实现。在文章的最后一部分，作者总结了一些流行的数据集，并展示了一些网络训练的结果。

身份采集、活体检测、人脸比对...旷视是如何做FaceID的？

本文讲述了深度学习在互联网身份验证服务中的应用以及人脸识别活体检测（动作、炫彩、视频、静默）技术应用场景及实现方式。

图像

图像处理之Canny边缘检测（一）

Canny边缘检测算法是1986年有John F. Canny开发出来一种基于图像梯度计算的边缘检测算法，同时Canny本人对计算图像边缘提取学科的发展也是做出了很多的贡献。尽管至今已经许多年过去，但是该算法仍然是图像边缘检测方法经典算法之一。

图像处理之Canny边缘检测（二）

Canny边缘检测算法是1986年有John F. Canny开发出来一种基于图像梯度计算的边缘检测算法，同时Canny本人对计算图像边缘提取学科的发展也是做出了很多的贡献。尽管至今已经许多年过去，但是该算法仍然是图像边缘检测方法经典算法之一。

浅析Android平台图像压缩方案

本文重点分享Android平台的压缩方案，并简单介绍了Bitmap的几个主要概念：像素密度、色彩模式以及Bitmap的计算方式。

图像处理之线性滤波

本文主要介绍了如何应用不同的线性过滤器来使用OpenCV函数来平滑图像。

微信关注我们

原文链接：https://yq.aliyun.com/articles/606043

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

别把机器学习和人工智能搞混了！

智力就是理性思考和控制行为的能力。人类有智慧去思考和利用常识来作出决定。人工智能就是一个构建智能代理的研究领域，因此未来我们打造出来的人工智能可以像人一样思考并理性行事。图灵测试由艾伦·图灵（1950）提出，旨在提供令人满意的智能操作定义。如果机器人具有以下功能，则可以通过图灵测试： 1.通过理解和编写自然语言与人交往； 2.知识表示（知道如何向用户呈现知识）； 3.知识推理（知道如何从存储的知识推断回答以回答人类）； 4.机器学习推断模式并适应新的环境。简而言之，AI就是研究有助于构建智能机器的规则和算法，AI解决的一组问题是NP完全的。人工智能是一个广泛的研究领域，涉及以下五个重要学科： 1.专家系统； 2.神经网络； 3.模糊系统； 4.机器人； 5.自然语言处理。机器学习（ML）机器学习是人工智能的一个子集，它通过算法在数据中学习获得一

2018-06-08

664

60多年前，我们的行业先驱开创了计算机科学、人工智能这些全新的研究领域。但是直到今天，人们对人工智能依然抱有大量的误解和恐惧，认为人工智能将取代人类、统治世界。面对这些质疑，我认为，只有理解我们从何而来、身处何处，我们未来将去往何方，才不会对这些关于人工智能的误解感到困惑。人工智能将永远无法统治世界，相反，由于人工智能可以成为每一个人的“超能力”，人类是平等的，没有谁将因为使用人工智能而凌驾于他人之上。如果我们向前回溯科技发展的历程，我们会发现，人工智能的发展与以往任何一次的技术进步都是相似的，不同的是我们比过去多了几百万倍的数据库，这些数据库正是我们今天所获得的一切成就的基础——无论是机器文本翻译、语音翻译，还是机器问答，这些创造性突破都离不开数据和计算能力的强有力支撑。 60年前，当我的导师John McCathy在1956年的

2018-06-10

675

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。