『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第61期内容,祝您阅读愉快。
架构
马思伟:视频领域是个海洋,可以游泳、冲浪、潜水和远航
6月,在北京大学理科2号楼一间办公室内见到了北京大学信息科学技术学院教授马思伟,并相约这次邮件采访。作为国产编解码器AVS视频组的组长,马思伟畅谈了编码器的格局,AVS的机会以及学习编解码的经验及方法。
何亚明:Facebook的工具文化和多媒体QoE
本文来自 阿里巴巴 信息平台资深技术专家 何亚明在LiveVideoStackCon 2018热身分享,并由LiveVideoStack整理而成。在分享中,何亚明介绍了Facebook工程师团队的特点与其常用的几种开发工具,并对其开发流程与实际测试方法进行了总结。
百家云直播系统技术演进历程
本文来自百家云技术总监张弩在LiveVideoStackCon 2017大会上的分享,并由LiveVideoStack整理而成。张弩分别从服务器端与架构端介绍了百家云的整体结构演进,并对未来行业的发展方向进行了分析、展望。
王亚楠:基于强化学习的自动码率调节
本文来自 爱奇艺 技术产品中心 资深工程师 王亚楠在LiveVideoStackCon 2018热身分享,并由LiveVideoStack整理而成。在分享中,王亚楠分别介绍了自动码率调节的实现过程、现行算法与评价标准,并重点介绍了基于强化学习的自动码率调节算法的技术架构与实现要点。
Envoy为什么能战胜Ngnix——线程模型分析篇
随着Service Mesh在最近一年的流行,Envoy 作为其中很关键的组件,也开始被广大技术人员熟悉。作者是Envoy的开发者之一,本文详细说明了Envoy的线程模型,对于理解Envoy如何工作非常有帮助。内容较为深入,建议细细品读。
基于用户行为的视频聚类方案
在个性化推荐系统中,通常是由挖掘物品属性来理解用户兴趣,从而构建推荐模型。从用户行为去理解物品属性往往做得比较简单,通常只是一些简单的标签统计。为了深入到用户行为去理解内容,美拍利用用户的点击、播放行为对视频的内容进行聚类,一方面打破了从视觉角度去理解视频内容的限制,另一方面可以挖掘出非人工总结的分类知识,从而提升个性化推荐的效果。
微服务网关哪家强?一文看懂Zuul, Nginx, Spring Cloud, Linkerd性能差异
API Gateway是实现微服务重要的组件之一。面对诸多的开源API Gateway,如何进行选择也是架构师需要关注的焦点。本文作者对几个较大的开源API Gateway进行了压力测试,对于架构师来说,相信可以提供不少帮助。
音频/视频技术
VMAF视频质量评估在视频云转码中的应用
VMAF 的全称是:Visual Multimethod Assessment Fusion,视频质量多方法评价融合。这项技术是由美国Netflix公司开发的一套主观视频质量评价体系。2016年1月,VMAF 正式开源;
MKV#文件格式简析
可扩展二进制元语言(EBML)是任何类型数据的通用文件格式,旨在成为与XML等效的二进制文件。它提供了一个基本框架,用于将数据存储在类似XML的标签中。
MediaCodec+MediaExtractor+TextureView实现简易视频播放器
本文简单介绍如何实现简易视频播放器,主要思路流程:MediaExtractor解封装,拿到H264数据。 MediaCodec把数据解码到Surface中。 TextureView展示Surface中的数据。
易用的Android音视频高性能编码库HardwareVideoCodec
HardwareVideoCodec是个高性能、易用的Android音视频编码开源库,支持多款滤镜,支持RTMP直播推流,以及软编和硬编。硬编性能较好,在高通630的中端机子上实测1080p、30fps毫无问题。软编性能差一点,同样的机子,软编只能达到720p、24fps。硬编性能较好,软编兼容性较好,这个需要根据的业务需求进行选择。
编解码
编码服务正在步入云端
就像对于私有云和公有云的讨论没有终止的情况一样,选择私有或公有的编码服务都有自己的理由。对于弹性有强烈需求的公司更倾向选择公有编码服务,反之则更愿意选择私有编码服务。资深多媒体技术咨询师Jan Ozer通过采访了多家编码服务商,对这一行业进行了解读。LiveVideoStack对原文进行了摘译。
iOS-视屏编码
在iOS中编码方式有两种 : 硬编码: 在iOS8.0之后,使用原生框架VideoToolBox&AudioToolbox对视屏和音频进行硬编码. 软编码: 使用CPU进行编码,通常使用的框架为ffmpeg+x264.
HDR关键技术:HEVC/H.265编码优化
与传统标准动态范围(SDR)视频相比,高动态范围(HDR)视频由于比特深度的增加提供了更加丰富的亮区细节和暗区细节。最新的显示技术通过清晰地再现HDR视频内容使得为用户提供身临其境的观看体验成为可能。面对目前日益增长的HDR视频消费需求,研究现有的压缩工具或引入新的技术来高效压缩HDR视频变得十分迫切。本文将介绍有关MPEG及VCEG针对HDR视频压缩的研究进展。
HDR关键技术:HEVC/H.265编码方案
前文我们对HEVC的HDR编码优化技术做了介绍,侧重编码性能的提升。本章主要阐述HEVC中HDR/WCG相关的整体编码方案,包括不同应用场景下的HEVC扩展编码技术。
MKV 封装格式笔记(一) Rew_
本文主要记录AVS2向MKV提交过程中的学习内容,主要包含:MKV格式介绍、MKV工作方式、MKV修改应用。
AI智能
FPGA,你为什么这么牛?
FPGA 正是一种硬件可重构的体系结构。它的英文全称是Field Programmable Gate Array,中文名是现场可编程门阵列。FPGA常年来被用作专用芯片(ASIC)的小批量替代品,然而近年来在微软、百度等公司的数据中心大规模部署,以同时提供强大的计算能力和足够的灵活性。
基于内容的图像检索技术综述-传统经典方法
图片检索就是拿一张待识别图片,去从海量的图片库中找到和待识别图片最相近的图片。这种操作在以前依靠图片名搜图的时代是难以想象的,直到出现了CBIR(Content-based image retrieval)技术,依靠图片的内容去搜图。
GAN将一张脸生成72种表情(附PyTorch代码)
随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHub热议的新款GANimation,却将此技术提到新的高度。GANimation构建了一种人脸解剖结构(anatomically)上连续的面部表情合成方法,能够在连续区域中呈现图像,并能处理复杂背景和光照条件下的图像。
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
目前的NLP领域有一个问题:即使是再厉害的算法也只能针对特定的任务,比如适用于机器翻译的模型不一定可以拿来做情感分析或摘要。然而近日,Salesforce发布了一项新的研究成果:decaNLP——一个可以同时处理机器翻译、问答、摘要、文本分类、情感分析等十项自然语言任务的通用模型。
【2018 AI全景报告】全球AI人才供需分布图,可用AI专才仅3000
对AI技术应用的扩展导致全球AI人才极度紧缺,中美在AI产业相关领域的人才和地盘之争愈演愈烈,以半导体行业为焦点,两国几乎因此陷入贸易大战。这份报告由剑桥大学两位博士制作,从研究、人才、行业和政策等角度详述2018年AI技术的应用现状和未来发展。
图像
iOS 图像处理系列 - 基于GPUImage的滤镜实现及优化
GPUImage作为一个开源的iOS GPU处理库,提供了相当便捷的使用GPU来进行图像处理的方法。对于图像处理中,滤镜效果是一种最普遍也最有效的图像优化方式。通过对图像进行不同的滤镜效果的处理,可以得到各种绚丽的图片。