『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第70期内容,祝您阅读愉快。
架构
UDP成为低延时流媒体关键 选SRT还是QUIC?
无论是SRT还是QUIC,UDP都成为实现低延迟视频流传输的必选项。在刚刚结束的俄罗斯世界杯,以及即将到来的重大体育赛事中,SRT与QUIC还将有一番较量。LiveVideoStack对原文进行了摘译。
英特尔QSV技术在FFmpeg中的实现与使用
本文来自英特尔资深软件工程师张华在LiveVideoStackCon 2018讲师热身分享,并由LiveVideoStack整理而成。在分享中张华介绍了英特尔GPU硬件架构,并详细解析了英特尔QSV技术在FFmpeg中的具体实现与使用。
刘文峰:让科技成就艺术创意
日前,LiveVideoStack采访了爱奇艺CTO刘文峰,他分享了自己的成长经历,以及最近阅读的书籍——《孵化皮克斯:从艺术乌托邦到创意帝国的非凡之旅》,他表示,作为爱奇艺的CTO,要帮助公司将科技创新与艺术创意结合,为用户提供极致的体验。
Uber的一键式聊天智能回复系统
通过机器学习和自然语言理解结束,Uber实现了一套智能的聊天系统,从而有效的提升司机和乘客之间的沟通效率,减少对司机的打扰。
张霖峰:AV1和VVC的格局将在2023年后明朗
本文是MSU评测解读的系列文章之一。不过Ucodec CEO张霖峰还讲述了Video Codec的机会,VVC与AV1的竞争格局,苹果公司在Video Codec格局中扮演的重要角色等等。
Safari上使用WebRTC指南
尽管Apple在2017年的WWDC上宣布加入WebRTC支持,但仍然没有看到Apple在支持WebRTC上更深入的举动,尤其是其不只支持VP8更加强了这种担忧。
CMAF将在2019年得到快速发展
按照JW Player技术高级副总裁John Luther的说法,CMAF将在2019年快速发展,尽管这项技术在国内还不怎么流行。苹果、微软以及Akamai都在支持CMAF。在下周举行的LiveVideoStackCon 2018上,Akamai 首席架构师William Robert Law将会分享如何通过CMAF提供海量并发的低延迟流媒体服务的。
兰华峰:商业模式驱动企业参与MSU评测
本文是MSU年度评测解读的第四篇。LiveVideoStack采访了Hulu技术总监兰华峰,由于Hulu内部自成一套Codec评测方法和测试序列,他给出了如何正确使用MSU报告的建议。同时他表示,与传统的Codec服务商不同,今年获得前四的3家本土服务商,都提供的是视频云服务,这也导致他们格外重视MSU的评测结果。
Netflix:通过可视化和统计学改进用户QoE
本文来自Netflix的技术博客,文章介绍了如何通过统计学的方法来减少播放缓冲时间或减少码率。LiveVideoStack对原文进行了摘译。
音频/视频技术
为 janus-pp-rec 增加视频旋正功能
Janus Gateway 支持 server 端录制,保存的文件格式是对 RTP 报文的一种自定义封装格式(MJR),音视频数据单独存储,官方提供了一个 janus-pp-rec 的程序,可以把 MJR 格式的文件转换为其他封装格式的文件,然后我们可以利用 FFmpeg 把音视频文件合并为一个文件。
定义和测量延迟
想要优化延迟,可Latency到底是多少?延迟始终是媒体内容传输的一个重要关注点,人们也在不断尝试用新的方法来优化延迟,本文参考AWS的一些新技术,介绍了延迟的定义,以及如何具体测量延迟,给出了延迟的量化概念。
FFmpeg:Android利用Filter进行音频数据预处理
本文简单介绍了移动端Android系统下利用FFmpeg的Filter进行音频数据预处理的方法。按照惯例先上一份源码 AndroidFFmpegFilter。
Android音视频指南-媒体应用架构概述
本节将解释如何将媒体播放器应用程序分离为媒体控制器(用于UI)和媒体会话(用于实际播放器)。它描述了两种媒体应用程序架构:一种客户端/服务器设计,适用于音频应用程序,另一种是视频播放器的单活动设计。它还展示了如何使媒体应用程序响应硬件控制并与使用音频输出流的其他应用程序合作。
视频直播技术之iOS端推流
随着网络基础建设的发展和资费的下降,在这个内容消费升级的时代,文字、图片无法满足人们对视觉的需求,因此视频直播应运而生。承载了实时性Real-Time和交互性的直播云服务是直播覆盖各行各业的新动力。本篇文章将向大家介绍iOS端的推流技术。
编解码
宋利:许多高手并未参加MSU评测
众多本土和华人公司积极的参与MSU视频编码大赛,上海交通大学教授宋利接受LiveVideoStack采访时表示,华人在整个编解码领域有举足轻重的影响力。但也要看到,许多国外高手并未参与MSU评测,不能盲目乐观。本文是解读MSU评测的第二篇。
王豪:HW265到“HW266”
每年的MSU的视频压缩评比报告都是多媒体的热点话题之一,在MSU 2018评比中,华为HW265在多项测试中排名第一。LiveVideoStack采访了华为媒体技术院视频编码团队负责人王豪,在参赛之前,HW265已经在多领域商用。未来华为将投入到VVC的研发,并看好AV1的下一代AV2。
H264、AAC、RTMP解析
H264码流文件分为两层:(1) VCL(Video Coding Layer)视频编码层:负责高效的视频内容表示,VCL 数据即编码处理的输出,它表示被压缩编码后的视频数据序列。(2) NAL(Network Abstraction Layer)网络提取层:负责以网络所要求的恰当的方式对数据进行打包和传送,是传输层,不管是在本地播放还是在网络播放的传输,都要通过这一层来传输。
AV1编码持续优化
AV1比HEVC有30%以上的编码效率提升,但编码复杂度高的离谱。好在AOM联盟不断对AV1进行优化,预计今年内AV1的编码复杂度将降到VP9的10倍以内。
FFmpeg 是如何实现多态的?
众所周知,FFmpeg 在解码的时候,无论输入文件是 MP4 文件还是 FLV 文件,或者其它文件格式,都能正确解封装、解码,而代码不需要针对不同的格式做出任何改变,这是面向对象中很常见的多态特性,但 FFmpeg 是用 C 语言编写的,那么它是如何使用 C 语言实现了多态特性的呢?
AI智能
AI驱动智能媒体生产
本文总结了发表在IBC2018上的由日本NHK的Hiroyuki Kaneko等撰写的“AI-DRIVEN SMART PRODUCTION”,介绍了NHK在智能媒体生产方面取得的成就以及今后的发展方向。
AI如何用于现场直播场景
与许多产业一样,通过软件和算法辅助,电视与视频制作很可能被人工智能和机器学习所改造,而当前这些制作任务都是由人来执行。随着现场直播报道涉及的范围越来越广,而相关专业人士的数量稀缺,基于AI的影视制作技术应运而生。
利用人工智能提升足球直播效果
人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营效率的新方式。
在对抗中学习网络结构——87页PPT带你学习Graph中的GAN
近期,图卷积研究大神Petar Veličković在蒙特利尔作了一场关于Graph+GAN的报告,详细讲解了图卷积网络的基本概念以及最前沿的方法 GCN、GAT (Petar的代表作),以及基于图的生成式方法,如何使用GAN进行基于图的学习,并强调需要使用强化学习或Gumbel softmax来进行反向传播,也指出尽管图的生成式模型效果很好,但未来还需要在这个方面需要更多的研究者一起探索。
自动生成高效DNN,适用于边缘设备的生成合成工具FermiNets
来自滑铁卢大学滑铁卢 AI 研究所和 DarwinAI 公司的研究者提出一种新思路:生成合成(generative synthesis),利用生成机器来自动生成具备高效网络架构的深度神经网络。
图像
Metal图像处理——颜色查找表(Color Lookup Table)
一张1024x1024的普通图片,是由1024 * 1024=1048576个像素点组成,每个像素点包括RGBA共32bit,常见的图像处理是对相邻像素点颜色、像素点本身颜色做处理。在对像素点本身颜色做处理的情况下,需要把某个颜色映射成另外一个颜色......