音视频技术开发周刊 58期-低调大师

音视频技术开发周刊 58期

2018-07-15 674

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第58期内容，祝您阅读愉快。

架构

WebRTC服务器架构

WebRTC在构建浏览器视频会话的时候，肯定少不了服务器的支持。目前，WebRTC主要有三种网络架构：Mesh（P2P）、MCU（Multi-point Control Unit）、SFU（Selective Forwarding Unit）。

时永方：做到这三点，你就是多媒体内行了

腾讯多媒体内核中心高级研究员时永方接受了LiveVideoStack的邮件采访，谈及了个人成长中的关键时刻，学习多媒体开发的三点核心，以及在5G和高清时代下，微信多媒体团队面临的挑战。

演进中视频流媒体容器格式与传输协议

本文将介绍视频封装打包（Format, Packaging）和分发协议（delivery protocol）方面近期的标准化技术，并讨论如何将新技术整合到视频流服务系统中，同时尽量保持与现有技术的兼容性。

网易工业级WebRTC应用实践深度解析

本文来自网易云信CTO赵加雨在LiveVideoStackCon2017上的分享，并由LiveVideoStack整理而成。赵加雨阐述了网易在WebRTC上的探索和改进，以及如何与WebRTC进行互通。

AV1：下一代视频标准—约束定向增强滤波器

本文来自Xiph.org的创始人Christopher Montgomery在Mozilla博客上的分享，他也是Mozilla Daala的贡献者。Christopher Montgomery是多媒体圈的传奇人物，Xiph.org于2000年推出Ogg Vorbis，2013年加入Mozilla，有兴趣的同学可以去Google他的Wiki页面。本文由LiveVideoStack摘译，并由专业的多媒体工程师进行审校。

音频/视频技术

Android音视频开发之-WebRTC技术实践 何俊林

Android应用也可以植入WebRTC。好处是什么？简单来说就是你可以用很简洁的代码，在手机上实现点对点的音视频通话或者数据传输，点对点，也就是P2P。

多长的企业视频最受欢迎？小于60秒

资深多媒体技术咨询师Jan Ozer撰文，对企业视频托管服务商Vidyard的视频报告进行了解读，报告涉及用户喜欢观看视频的类型、喜欢视频的长度等。LiveVideoStack对文章进行摘译。

洞察 video 超能力系列——玩转 mp4

点播领域里 Mp4 是最普遍、兼容性最好的视频容器，不过 Mp4 也有它的局限性，比如常见的清晰度切换，我们是无法像YouTube那样做到无缝切换的。

PCS2018：360度全景视频流媒体传输系统

PCS2018：纽约大学工学院的Yao Wang教授做了关于360度全景视频流媒体传输系统：Two-Tier Streaming(TTS)的主题报告，介绍了360度全景视频流媒体的特点，TTS方案的技术要点，目前的实验结果以及研究展望。

编解码

WebRTC中的Opus编码揭秘 老衲不出家

WebRTC中默认是采用Opus编码，Opus编码是由silk编码和celt编码合并在一起，silk编码是由skype公司开源的一种语音编码，特别适合人声，适合于Voip语音通信。celt和mp3,aac类似，适合于传输音乐。

RealNetworks CTO：我们追求低复杂度的软解码

上个世纪末，家庭宽带还处在“KB”量级，RealNetworks通过其高压缩比的Real格式在国内曾经获得了大量终端用户。光阴荏苒，RealNetworks在国内的研发团队带来了面向高清画质的Codec，并获得了CIBN这样的用户的认可。在NAB大会上，资深多媒体技术咨询师Jan Ozer对RealNetworks CTO Reza Rassool进行了访谈，谈及了与HEVC的竞争以及国内的市场格局。

RDO (率失真优化): 可用于mode选择等 FlyingPenguin

RDO用于视频压缩时提供视频质量。通过名称就可以看出，它涉及了以下两方面的优化:失真(视频质量损失)的大小和编码视频(码率)的大小。

PCS2018：下一代视频编码标准——Versatile Video Coding （VVC）

PCS2018：本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上，JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告，介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。

AI智能

超实用的图像超分辨率重建技术原理和介绍

本文简单介绍了图像超分辨率重建技术的概念与实践，以及传统和基于深度学习的图像超分辨率重建技术的原理和应用方案。

解密美图大规模多媒体数据检索技术DeepHash

美图是一家拥有海量多媒体数据的公司，如何有效分析理解这些数据内容并从中挖掘出有效信息，对我们提出了重大挑战。本文以美拍业务为例，介绍我们在海量短视频数据的内容分析理解和大规模检索技术方向的探索和实践。

下一个GAN？OpenAI提出可逆生成模型Glow

目前，生成对抗网络 GAN 被认为是在图像生成等任务上最为有效的方法，越来越多的学者正朝着这一方向努力：在计算机视觉顶会 CVPR 2018 上甚至有 8% 的论文标题中包含 GAN。近日来自 OpenAI 的研究科学家 Diederik Kingma 与 Prafulla Dhariwal 却另辟蹊径，提出了基于流的生成模型 Glow。据介绍，该模型不同于 GAN 与 VAE，而在生成图像任务上也达到了令人惊艳的效果。

普通视频转高清：10个基于深度学习的超分辨率神经网络

本文主要分享用于超分辨率的深度学习基本框架，以及衍生出的各种网络模型，其中有些网络在满足实时性方面也有不错的表现。

IRGAN Tutorial：上交张伟楠老师-GAN在信息检索的应用

生成对抗网络（GAN）已经在深度学习和无监督学习中有广泛的应用。利用对抗训练机制，GAN的生成模型生成以适应潜在的未知实际数据分布，判别模型估计数据实例是真实的还是生成的。在本教程中，作者将重点讨论GAN技术以及各种信息检索场景中离散数据拟合的变体。

图像

HDR关键技术：色调映射(一)

HDR关键技术：色调映射(二)

HDR技术近年来发展迅猛，在未来将会成为图像与视频领域的主流。如何让HDR图像与视频也能够同时兼容地在现有的SDR显示设备上显示，是非常重要的技术挑战。本系列将会详细地总结色调映射技术的相关问题，并介绍经典的色调映射算法。将分为三个部分：（一）是色调映射技术的综合介绍；（二）是图像色调映射算法的总结与经典算法介绍；（三）将介绍视频色调映射算法。

终端图像处理实践-实时唇彩效果优化

使用常规的三角贴合的方式给唇部上色，在大多数情况下都表现良好。但是在唇部形态较之正常形态发生较大变化时，比如在嘟嘴，张嘴与抿嘴的场景下唇彩的贴合程度就会降低许多。于是我们尝试使用LUT+唇部mask的滤镜技术对唇部区域进行色彩变换来实现各种唇彩的效果。根据这样的实现思路，我们设计实现了MCLipFilter来尝试解决所遇到的唇彩贴合不准的问题。

微信关注我们

原文链接：https://yq.aliyun.com/articles/628122

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

工程架构能力对于做好机器学习重要吗？

工程架构能力对于做好机器学习到底重要吗？可能很多技术人员对于这个问题都有一些自己的看法。中国科学院计算技术研究所严林在知乎上分享了他对于中国问题的看法，本文转发已被授权。在面试中，多多少少会问一些机器学习方向候选人工程架构方面的问题。不少做机器学习的候选人表示，我是做算法的，不需要了解这些工程架构的问题，甚至有表示，了解工程架构就是浪费做算法的时间。我认为，这种想法有些片面和狭隘。从我这几年一些浅薄的经验来看，工程架构能力对于机器学习从业者，不仅重要，而且是必备能力之一。计算机科学是一门实验科学，不管多么厉害的算法，都是需要落地到应用的。一个好的机器学习算法，更是离不开好的工程实现。举个例子，FFM算法在各种Kaggle比赛中大放异彩，我们来想想在不借用开源工具的情况下，怎么实现它。首先，核心计算逻辑，本质是不同特征的分成不同fi

2018-07-14

671

【新智元导读】继AI制作动画人物、创作剧本、编辑电影之后，今天，一款AI软件正式获得黄金时段艾美奖提名：热播电视剧《硅谷》中一个使用深度学习自动识别热狗的软件再度走入公众视野，使用TensorFlow和英伟达GPU开发。不知道你有没有看过热播美剧《硅谷》。作为近年来最佳职场喜剧之一，《硅谷》为我们展现了程序员不为人知的一面。《硅谷》在嬉笑怒骂间描绘了一部IT业创业辛酸史，不仅如此，人工智能、机器学习、加密货币……剧集的主题一直紧跟现实硅谷圈的潮流。其中，在第四季第四集就出现了一个使用深度学习算法识别热狗的APP Not Hotdog，而且现在这款APP也能在安卓和iOS下载。AI软件正式获得黄金时段艾美奖提名！今天，制作这款的APP的Tim Anglade（是的，这款APP是他一个人制作的，当然得到了很多人的帮助）在Twitter

2018-07-15

729

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。