音视频技术开发周刊 55期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第55期内容,祝您阅读愉快。
策划 / LiveVideoStack
架构
展晓凯:“零经验”的我与唱吧从零到四亿
正如展晓凯总结的那样,一个技术人或团队的成功离不开业务打下的基础,业务高层的高瞻远瞩以及对技术的敬畏,以及技术人的学习与探索精神。LiveVideoStack对全民快乐研发高级总监展晓凯进行了邮件采访,他总结了在与唱吧从零成长的历程。作为一个“零”多媒体基础的技术人,展晓凯的经验也许是你成长路上的参考。
低延迟音视频传输技术在直播领域的应用
本文来自陌陌视频流媒体技术负责人吴涛在WebRTCon 2018上的分享,他详解了陌陌从传统直播过渡到1对1到多人互动模式的演进,架构的优化保证了用户体验与业务需求。
与高清卡顿说拜拜 一招根治视频云顽疾
本文介绍了英特尔新至强平台的新技术及其对媒体云计算性能提升,阐释了新型 SIMD(单一指令多数据流)AVX-512 指令集如何帮助视频、图像处理以及视频深度学习的应用提升性能。
支付宝如何优化移动端深度学习引擎?
移动端深度学习在增强体验实时性、降低云端计算负载、保护用户隐私等方面具有天然的优势,在图像、语音、安全等领域具有越来越广泛的业务场景。考虑到移动端资源的限制,深度学习引擎的落地面临着性能、机型覆盖、SDK尺寸、内存使用、模型尺寸等多个方面的严峻挑战。本文介绍如何从模型压缩和引擎实现两个方面的联合优化,应对上述挑战,最终实现技术落地。
测量和优化HLS性能 Measuring and Optimizing HLS Performance
本文详细介绍了确定HLS性能的几种关键性指标以及如何正确使用HLS的Master Playlists提高用户观看体验。
音频/视频技术
高清视频点播-AI让你看片更丝滑
本文简要介绍了基于强化学习的码率自适应算法,在实践预研验证和分析的基础上,将该AI算法模型应用于实际项目。
Android 音频录制 的三种方式
对于录制音频,Android系统就都自带了一个小小的应用,可是使用起来可能不是特别的灵活。所以有提供了另外的两种。
MacOS、iOS的Metal 2开发爬坑记录:摄像头、Capture GPU Frame、Shader调试与GPUImage存在的问题
本文章记录Metal 2配合Xcode 9在macOS High Serria、iOS 8+开发过程遇到的摄像头、Capture GPU Frame与Shader编译调试问题及解决办法。
编解码
视频编码末日将至?
Netflix的视频算法主管Anne Aaron撰文对视频编解码的未来发展方向,基于块的混合编码,画质评定新方法,以及创新思维。LiveVideoStack对本文进行了摘译。
基于MCMC的X265编码参数优化方法
X265是当今最广泛使用的HEVC视频编码器,它由于自己并行的编码模式和一些提前终止算法的使用能够在家用计算机上实现720P 30FPS的实时编码,十分具有实用价值。
IEEE ISCAS 2018 相关研究进展
ISCAS 2018于2018年5月26日到5月30日在意大利佛罗伦萨举行,会议主题为Art of Circuits and Systems。本文主要介绍了会议中提出的两个与视频编码耦合更紧的基于机器学习的视频编码方法:基于CNN的运动补偿优化、基于强化学习的码率控制。
H.264的去块滤波算法
去块滤波器(Deblocking Filter)是视频编解码器中的重要组成部分,其核心作用在于消除编码过程中产生的图像块效应。图像中的块效应主要因为以宏块为基本单元的编码结构而产生。
AI智能
目标检测算法之YOLO
YOLO作为基于深度学习的第一个one-stage的方法做快可以在TitanX GPU上做到45帧每秒的检测速度,轻量版的可以做到155帧每秒,相比于R-CNN精确度也有非常大的提升。
图鸭科技TNGcnn4P压缩算法在CVPR图像压缩挑战赛获得优胜
据图鸭科技图片压缩团队介绍:Tucodec TNGcnn4p 算法是基于端到端深度学习的算法,在该算法中使用了层次特征融合的网络结构,并结合新的量化方法、码字估计等技术对整体网络进行设计。
OpenAI NLP最新进展:通过无监督学习提升语言理解
近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统。这个系统是可扩展的、与任务无关的,并且在一系列不同的 NLP 任务中都取得了亮眼的成绩。但该方法在计算需求等方面仍存在改进的空间。
AI从入门到放弃:CNN的导火索,用MLP做图像分类识别?
在没有CNN以及更先进的神经网络的时代,朴素的想法是用多层感知机(MLP)做图片分类的识别;但残酷的现实是,MLP做这事的效果并不理想。
图像
在WebRTC上实现ML Kit笑容检测
本文来自Houseparty的WebRTC视频专家Gustavo Garcia Bernardo和TokBox的WebRTC移动端专家Roberto Perez,他们通过Google的ML Kit在WebRTC通话中实现了简单的笑容检测,期间考虑到了检测准确率、延时以及检测频度与CPU占用率的平衡等,实际结果表明ML Kit的检测结果令人满意。
TensorFlow Lite+OpenCV实现移动端水印的检测与去除
本篇文章介绍了TensorFlow Lite与OpenCV配合使用的一个应用场景,并详细介绍了其中用到的SSD模型从训练到端上使用的整个链路流程。在APP中的使用场景为,用户在发布图片时,在端上实现水印的检测和定位,并提供去水印的功能。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
被错误理解的人工神经网络(一)!
神经网络是机器学习算法中最流行且最强大的算法。在定量金融中,神经网络通常用于时间序列预测、构建专有指标、算法交易、证券分类和信用风险建模,它也被用来构建随机过程模型和价格衍生工具。尽管它很有用,但神经网络往往因为它们的性能是“不可靠的”而声誉不佳。在我看来,这可能是由于对神经网络工作机制误解所致。本系列将讨论了一些常见的对于神经网络的误解。本文先介绍两个错误的理解:它是人脑的模型,第二它是统计学的一种弱形式。 神经网络不是人脑的模型 人类的大脑是我们这个时代最伟大的奥秘,科学家们尚未就其工作原理达成共识。目前有两种大脑理论:即祖母细胞理论和分布式表征理论。第一个理论认为,单个神经元具有很高的处理信息能力,并且能够表达复杂的概念。第二种理论认为,神经元更简单,复杂对象的表示分布在许多神经元中。人工神经网络貌似是受到第二种理论的启发。 我相
- 下一篇
CCAI2018 | 大规模文本数据挖掘的新方向
现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。 韩家炜 2018中国人工智能大会(CCAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。 适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。 韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS关闭SELinux安全模块
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6