『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第68期内容,祝您阅读愉快。
架构
刘志勇:微博短视频百万级高并发架构
本文来自新浪微博视频平台资深架构师刘志勇在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。分享中刘志勇从设计及服务可用性方面,详细解析了微博短视频高可用、高并发架构设计中的问题与解决方案。
容联CTO许志强:AI、5G让通讯更智能、更高效
LiveVideoStack采访了容联云通讯CTO许志强,分享了从一线研发到团队leader的软硬性能力提升经验,解析了通讯行业音视频技术难点、踩的坑以及优化方案,并展望了AI、5G为音视频技术发展带来的革新。
吴晓然:实时通信需要Codec和网络模块结合
LiveVideoStack对声网视频工程师吴晓然进行了采访,他认为实时通信场景的Codec需要考虑网络情况才能做好。
FFmpeg优化 苏宁PP体育视频剪切效率提升技巧
FFmpeg功能强大,社区活跃,在多媒体处理业务中扮演着不可或缺的角色。但没有优化过的FFmpeg在生产环境下有很多性能瓶颈,因此对其进行优化势在必行。苏宁旗下PP体育音视频技术负责人田钊撰文分享了团队在处理海量视频切割过程中遇到的挑战及优化方法。感谢OnVideo视频创作云平台联合创始人、FFmpeg Maintainer刘歧对本文的技术审校。
实时接口数据也能就近访问?细说如何用CDN提升App性能
边缘计算是在靠近物或数据源头的一侧,就近提供计算服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。本文作者介绍了在CDN节点上做实时数据处理的一些方式,值得架构师学习。
一文读懂熔断器和重试机制
随着微服务的流行,熔断作为其中一项很重要的技术也广为人知。当微服务的运行质量低于某个临界值时,启动熔断机制,暂停微服务调用一段时间,以保障后端的微服务不会因为持续过负荷而宕机。本文作者介绍了熔断的原理和机制,并用例子说明了熔断如何使用。
直播协议+流媒体服务器+音视频处理+FFmpeg
直播协议 RTMP(Real Time Messaging Protocol) 简介 Time Messaging Protocol,实时消息传送协议 RTMP是Adobe公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议。
音频/视频技术
神经网络超分辨率——未来的视频神器?
超分辨率是一项底层图像处理任务,将低分辨率的图像映射至高分辨率,以期达到增强图像细节的作用。图像模糊不清的原因有很多,比如各式噪声、有损压缩、降采样,甚至还有可能是你熬夜过多所致……
Metal视频处理——绿幕视频合成
本文介绍如何用Metal把一个带绿幕的视频和一个普通视频进行合并。绿幕视频合成可以分为两步,首先是把视频读取成视频帧并做好对齐,其次是做两个图像的合成。
WebRTC Native 源码导读(十三):音频设备模块 ADM
ADM 被 WebRtcVoiceEngine 所使用,纵观 ADM 的接口,我们可以总结出它有如下功能:选择采集/播放音频设备、采集/播放启停控制、采集/播放音量控制、采集/播放静音、双声道采集/播放、获取播放延迟。
OpenSL ES 调用FFmpeg 播放声音
OpenSL ES 全称是:Open Sound Library for Embedded Systems,是一套无授权费、跨平台、针对嵌入式系统精心优化的硬件音频加速API。它为嵌入式移动多媒体设备上的本地应用程序开发者提供标准化, 高性能, 低响应时间的音频功能实现方法,并实现软硬件音频性能的直接跨平台部署,降低执行难度,促进高级音频市场的发展。
编解码
内容自适应编码中的不同粒度
根据不同粒度的CAE,可以实现从粗犷和精确的内容感知编码,从而提升带宽利用率,为用户提供更好的观看体验。
HEVC,AV1,VVC,XVC: 视频编解码器之战愈演愈烈
视频编解码器将成为本月IBC论坛的重要话题之一,因为该行业已孵化出一系列新的、更高效的视频压缩技术,如AV1,VVC和XVC等。本文根据Adrian Pennington等人的文章“HEVC, AV1, VVC and XVC: The codec battle intensifies”,对几种codec的现状进行了整理。
Android硬编码——音频编码、视频编码及音视频混合
通常来说,对于同一平台同一硬件环境,硬编硬解的速度是快于软件编解码的。而且相比软件编解码的高CPU占用率来说,硬件编解码也有很大的优势,所以在硬件支持的情况下,一般硬件编解码是我们的首选。
变分自编码器
变分自编码器(Variational Autoencoder,VAE)是生成式模型(Generative Model)的一种,另一种常见的生成式模型是生成式对抗网络(Generative Adversarial Network,GAN),本文简单介绍VAE的原理,并用Keras实现。
AI智能
用神经网络生成音乐
C-RNN-GAN是一种连续递归神经网络,它在深度LSTM的基础上进行对抗训练,因此它可以很好地处理连续时间序列数据,例如音乐!
人工智能:塑造广播行业的未来
人工智能技术正在迅速从实验转向实际应用,跨越生产流程,进入内容生产的核心。在IBC2018论坛上,人工智能无疑是最火热的话题之一,本文根据Adrian Pennington等人的文章“AI: Building the future of broadcast”,对出现在IBC2018论坛上有关视频生产的内容进行了整理。
MIT设计跨模态系统,让模型“听音识图”
最近,麻省理工学院的计算机科学家们提出了一种系统,基于对图片的语音描述,可以学习在图片中辨认目标物体,给定一张图片和音频解释,模型可以实时辨认出音频描述的相关区域。
如何通过深度学习轻松实现自动化监控?
本文是一篇快速上手指南,讲述了如何使用基于深度学习的对象检测(Object Detection)实现监控系统,并对使用 GPU 多处理器进行推理的不同对象检测模型在行人检测中的性能进行了比较。
使用TensorFlow进行训练识别视频图像中物体
本教程针对Windows10实现谷歌公布的TensorFlow Object Detection API视频物体识别系统,其他平台也可借鉴。
图像识别泛化能力人机对比:CNN比人类还差得远
深度神经网络在很多任务上都已取得了媲美乃至超越人类的表现,但其泛化能力仍远不及人类。德国蒂宾根大学等多所机构近期的一篇论文对人类和 DNN 的目标识别稳健性进行了行为比较,并得到了一些有趣的见解。
图像
基于距离变换和分水岭算法的图像分割
分水岭分割方法,是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭。
深度学习AI美颜系列---SpecialFace特效滤镜
SpecialFace滤镜这个名字实际上是本人自己起的,因为这个滤镜是一种比较另类的,人脸美化特效,所以给了这个名字。