您现在的位置是：首页 > 文章详情

音视频技术开发周刊 62期

日期：2018-08-13点击：519收藏

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第62期内容，祝您阅读愉快。

架构

网上的无形税：视频编解码器

Xiph.org的创始人Christopher Montgomery一直致力于免费的播放技术，2013年他加入Mozilla并致力于Daala编码器的开发，还有被On2的VPx系列编码器，后来被Google收购。当然以及思科Thor。他们都希望在互联网让普通用户、企业和视频创作者，以更低的成本拥抱视频。本文来自Mozilla的博客，并由LiveVideoStack编译完成。

实现Jitsi SFU自动关闭/启动视频层

本文来自Jitsi Videobridge SFU的后端开发人员之一Brian Baldino，他过去在思科和Highfive工作过，拥有丰富的视频会议产品研发经验。他分享了在Jitsi实现自动减少转发视频层，从而降低客户端CPU和带宽使用。LiveVideoStack对原文进行了摘译。

硬! 他是Intel视频业务老大, 用个谷歌视频还被要高价，开始了他的区块链反击, 这回一怼就是仨

Devadutta Ghat，拥有着耀眼的个人履历：曾经是英特尔Video Transcode Service的创始人兼首席架构师；2014年，加入Cloudera，领导Apache Impala、HDFS和许多其他开源系统的性能团队。

用Python玩FPGA背后的故事

PYNQ全称为Python Productivity for Zynq，即在原有Zynq架构的基础上，添加了对python的支持。

基于TCP的低卡顿、超低延时、超低带宽直播框架

本文介绍了一个在直播质量上大幅超过各大平台的直播框架。在CPU效率和响应速度上也是屈指可数的。

解析苏宁电商移动端推流录制SDK的技术方案

8月2日，苏宁红人短视频购物平台“头号买家”正式对外上线，截至目前已有微博、抖音、小红书等MCN机构的数百名达人大V入驻。据悉，该平台以“明星+带货+短视频”为主要功能，通过随时随拍、有趣好玩、种草安利等形式，打造短视频购物第一平台。

国产FPGA发展现状

过去两年，由于大数据中心和AI等应用的获得，以赛灵思和Intel（收购了Altera）为代表的FPGA产业在市场端倍受热捧，前者的股价和营收在过去两年屡创新高，让大家对这个面世三十多年器件的关注度再度提升。

音频/视频技术

一文简单读懂5G

本文简单介绍了5G的发展历程、应用场景、5大矛盾以及经济价值体现。

关于室内声场的若干基础知识

为便于分析研究，通常把房间内的声场分解成两部分：从声源直接到达受声点的直达声形成的声场叫直达声场；经过房间壁面一次或多次反射后到达受声点的反射声形成的声场叫混响声场。

不需要SFU实现WebRTC联播实践

不需要SFU而实现WebRTC联播，appear .in的WebRTC工程师Philipp Hancke实现了在Chrome和Firefox之间的联播。LiveVideoStack对原文进行了摘译。

FLV # 存在B帧情况下的DTS和PTS

如果不存在B帧，当然DTS等于PTS，如果存在B帧呢，FLV文件中DTS和PTS是如何体现的呢?

编解码

RISC-V来势汹汹，真能革x86和ARM的命？

芯片指令集架构是沟通软硬件运算之间的桥梁。RISC-V是伯克利大学发明的一种特定指令集架构，严格说起来，并不是一种全新的架构，它与我们熟悉的ARM同属RISC（精简指令集，Reduced Instruction Set Computer）范畴。

下一代视频编码的新选项？xvc 2.0

专注开发视频编解码器的软件公司Divideon（总部位于斯德哥尔摩，瑞典）于2018年7月3日正式发布了xvc codec的第二个版本xvc 2.0。xvc是一款纯软件开发的新一代的视频编解码方案，致力于在低比特率流媒体应用中提供较高的压缩性能和良好的视觉质量。

音频编码（一）——FFmpeg编码

本文简单介绍了声波的定义与相关参数，并重点介绍如何通过FFmpeg将PCM文件编码成AAC文件。

安防：关于视频编码H.265与H.264的对比

在网上买监控产品的时候，有的产品的描述页上，会看到使用H.264、H.265编码格式与普通的进行比较的图片。有的人就很好奇，什么是H.264、H.265？实际效果有区别吗？今天我们就从定义以及作用这两方面来说说H.264与H.265。

王荣刚：建立中国自主视频技术生态

本文来自北京大学教授王荣刚在LiveVideoStackCon 2018热身分享，并由LiveVideoStack整理而成。在分享中，王荣刚分析了视频行业的发展背景与编码标准的演进情况，并重点介绍了基于AVS2标准的实时视频编解码器的实现和应用进展。

AI智能

基于CNN的长期和大规模环境中的视觉位置识别

本文提出了一种基于卷积神经网络( CNN )的新方法，通过将图像放入预先训练的网络模型中自动获取图像描述符，并通过汇集、融合和二值化操作对其进行优化，然后根据位置序列的汉明距离给出位置识别的相似结果。

ICML 2018 ：机器学习领域的最新热点

上个月，机器学习领域顶级会议 ICML 在美丽的瑞典城市斯德哥尔摩召开，微软亚洲研究院机器学习组实习生赵志冰参与了这次盛会，今天他从一位青年科研工作者的视角，为大家分享 ICML 2018 上的亮点与参会感悟。

ECCV 2018 | IBN-Net：打开Domain Generalization的新方式

Domain Generalization(DG)，其核心思想是如何学习到不同Domain之间的共性特征，使得模型在不同Domain上都具有良好的适应性。

Google AI 新算法：如何增强计算机视觉深度学习的效果？

Google AI成员 Ekin Dogus Cubuk和谷歌大脑研究科学家Barret Zoph携手呈现新的研究成果：用AutoAugment算法进行增强数据集以提升计算机视觉深度学习的效果。

自动驾驶CV芯片之战，三股势力的原力觉醒 | GGAI深度

视觉处理芯片是自动驾驶芯片阵列中重要的一环，由于可以同雷达等传感器形成互补，基于深度学习的视觉识别处理，在道路、交通标志、障碍物、行人等识别中重要性愈发凸显。

MobileNetV2：下一代边缘计算视觉网络

2017年谷歌引入了面向嵌入式设备设计的通用型计算机视觉神经网络系列 MobileNetV1，支持分类和检测等功能。随着用户对人工智能交互需求的提高，算法对更高效神经网络的需求也逐渐增加。也是基于算法的发展，出现了新的轻量级视觉网络架构MobileNetV2 ，它将为下一代移动视觉应用提供支持。

图像

色彩空间那点小事（上）

近代医学表明，人类获取信息的70-80%都是来自视觉观感。简单的说，色彩就是人的大脑对于光的感受。多媒体计算机的图像处理和视频效应都是基于人眼视觉原理实现的模拟方法。

使用Libjpeg进行图片压缩

Libjpeg是广泛使用的开源JPEG图像库，安卓也依赖Libjpeg来压缩图片。但是安卓并不是直接封装的Libjpeg，而是基于了另一个叫Skia的开源项目来作为的图像处理引擎。

HDR关键技术：主要标准介绍

HDR是UHD技术中最重要维度之一，带来新的视觉呈现体验。HDR技术涉及到采集、加工、传输、呈现等视频流程上的多个环节，需要定义出互联互通的产业标准，以支持规模化应用和部署。本文整理当前HDR应用中的一些代表性的国际标准。