数字时代,视频云引领行业第二增长曲线

简介: 2020 年 9 月 17-18 日,以 “数智未来,全速重构” 为主题的云栖大会于线上举行,一场聚焦于视频云的专场论坛也在云上展开。

今年的疫情已将视频行业推向了风口,从线下到线上,很多行业和场景都能感受视频带来的变化,云会议、云课堂、云卖货、云旅游,一切都基于视频的场景全面爆发,以视频云技术为基础,诞生了新内容、新交互、新体验。阿里云视频云携手众多行业探索数字视频新形态,创造业务新价值,毋庸置疑,一个新交互时代将全面来临。

视频技术的极致追求:超低延时与超高清

从线下搬到线上的云活动,这背后的本质是直播技术,今年其已成为各行各业的标配。阿里云智能视频云资深技术专家何亚明在云栖大会上分享,直播有三个重要元素:成本、质量、延时。对于一场直播,成本考虑的是如何高效、便捷触达直播的受众,并能支撑百万千万的并发。质量,考虑的是音视频的画面清晰度,流畅度、卡顿度。再者是延迟,低延时是实时互动的关键,是视频直播的核心技术。成本、质量、延时之间是相互平衡的关系,在直播中,延时是最直接的体验,行业将延时分为普通延时、优化延时、低延时、超低延时几类,达到 5 秒的延时才可成为低延时,而阿里云提出的是超低延时技术(RTS),延时可以做到 1 秒以内,同时在低延时直播连麦的部分,主播和嘉宾是利用 WebRTC 通道,延时可达 300 毫秒,体验顺滑。视频云团队是通过对直播全链路的优化,来实现 1 秒以内的超低延时,这对用户端、企业端都是极大的技术普惠。

image.png

林昊 阿里云视频云业务负责人

阿里云视频云业务负责人林昊表示,他坚信视频的技术必然会朝着两个核心方向不断演进:超低延时和超高清。于是在不断探索超低延时的同时,视频云的另一个研发核心是如何通过窄带高清的技术普惠,带来极致的视频体验。

当下,视频内容全面爆炸,视频制作也愈发平民化,数据显示,2020 年中国人日均观看在线视频的时长高达 250 分钟,近三年全球每月的视频流量增长了三倍,这些视频分布在短视频、点播、直播等领域。阿里云视频云的重点任务就是让互联网上这些海量视频都提升为高质量视频,并追求这个过程中的极致成本,最终普惠影院级的视频服务。要达到这个目标,需要解决三个问题:第一,如何应对低质量的视频源;第二,互联网视频是将视频的制作成本转移到云端,所以制作成本极高,需要普惠降低成本;第三,电视广播一般带宽很高,动辄百兆级别,但很多用户还是在弱网低带宽情况下接入网络。阿里云智能视频云首席科学家陈颖表示,视频云团队通过窄带高清编码来解决上述问题,达到高清晰、低成本、低宽带,实现广播级的、普惠的视频服务。简单而言,“窄带高清” 就是把用户上传的视频,通过视频云的处理、转码之后,变得更清晰,同时对带宽的占用更低。在此,视频云团队对 “视频质量的提升” 进行了重新定义,基于用户主观质量并对其建模,通过千频千面的大数据分析对不同的视频达到最优效果。阿里云视频云最新推出的窄带高清版本,最大亮点更是将其成本相比原来有数量级的下降,从而实现技术的极大普惠和大规模的商业化。

阿里云视频云的技术普惠,攻克了疫情期间一些重要场景的互动形态问题,突破了一些商业发展的瓶颈问题,也在创造一些行业交互发展的新空间,很多行业和场景都演进到新的发展与探索阶段,我们能看到,视频云技术在引领行业增长的第二曲线。

视频云新基建助力在线教育 “战疫”

image.png

程卫星 全国高等学校学生信息咨询与就业指导中心


信息资源处处长 & 学信网技术负责人

疫情期间,全民教育从线下转为线上,阿里云视频云的网络与媒体处理产品,全面助力学校 “停课不停学 “,这得益于一直以来打造的数字视频新基建。针对在线教育领域,视频云拥有一站式教育解决方案,通过集成音视频通信 RTC、视频直播、点播等产品,可支持互动课堂、直播大班课、课堂录制存档、自动生成学员精彩集锦、授课效果分析、课堂录播等完整的在线教育功能。

不仅能服务在线课堂,视频云把服务能力拓展到了更广阔的教育场景。以学信网为例,在疫情期间恰逢整个中国的研究生复试,数据显示,2020 年硕士研究生招生报考人数达到了 341 万,远程视频面试作为其新的交互形式,可以通过多机位视频互动、多项技术核验认证,来保障面试过程科学有效、公平公正。学信网技术负责人程卫星讲述,学信网基于阿里云承接起了今年远程面试的重要任务,短期内,在学信网硬件条件有限的情况下,视频云团队将云服务集成到学信网的业务系统中,充分结合业务特点和业务流程,助力其极大提高系统的承载力和稳定性。在面试期间最高峰同时有 3199 考场、9758 路视频并发,整个系统运行平稳顺利。学信网通过视频面试系统的使用,与往年相比,复试的调剂效率显著提高,整个工作周期明显缩短。

AI 编辑部开启智慧新闻表达时代

image.png

杨海霞 人民日报媒体技术股份有限公司总经办成员

目前,传统媒体已经进入到深度融合阶段,如何利用视频 AI 的能力赋能是重要问题。人民日报媒体技术股份有限公司总经办成员杨海霞在论坛演讲提到,传统媒体的核心链条包含视频拍摄、生产制作、媒资管理和分发传播,面对大量的视频内容生产制作和审核分发,提高效率是核心问题,而视频 AI 恰起到关键作用。

针对媒体内容的生产制作环节,体现在智能转码、智能合成、智能配音三个场景能力。首先,针对大量外部视频素材的转码需求,可利用阿里云视频云的窄带高清技术,直接与自身业务系统集成,来完成转码智能动作,并在过程中对不佳画质做技术处理,提升整个视频的质量。第二,是生产精品视频的大量原材料的 AI 智能合成,包括对内容的智能提取、转场效果、背景音乐等按照一定模板进行智能合成,批量化生产输出视频,如现在很多赛事的精彩集锦和数据新闻等。第三,AI 智能配音,即 AI 通过声纹采集和文字转语音可系统智能地完成内容的自动配音和合成,极大提高生产效率。

在媒资管理和分发传播环节,人民日报与阿里云视频云团队合作,通过物理库,实现人物识别、物体识别、语音识别、OCR 识别,从而生成智能标签,利用于高效的媒体检索,并更好的在分发端进行智能推荐和相关推荐。此外,当前正在将 UGC 模式更好的应用其中,这就涉及要对 UGC 生产提供智能的支持,同时又要通过智能审核保障内容的安全性,在一些大的省级融媒云平台上,已经广泛应用到了这些智能技术。综合从全业务场景和链条来看,视频 AI 能力已提升了传统媒体生产、分发的效率和质量。

直播翻译系统助推电商出海

image.png

黄非 达摩院机器智能语言技术实验室研究员 & 资深总监

电商直播是今年的热门话题,它结合了视频直播和网红直播的优势,处在蓬勃发展中。被称为 “国际版淘宝” 的阿里巴巴跨境电商平台 “速卖通”(AE),面向海外买家,其平台商家也非常希望能更好地利用直播沟通把商品卖到海外。但是,AE 的商家中,87% 为中国人,受限于外语能力无法参与直播,同时,AE 的用户来自于上百个国家,即使主播有外语能力,也无法覆盖到每一个用户语种。基于此,阿里云视频云与达摩院共同打造了世界上第一个电商直播翻译系统,该系统依托于视频云强大的视频直播、媒体处理服务能力,结合了导播台的 ET 字幕产品方案和达摩院视频翻译技术方案,最终打造的 AE 直播翻译整体链路延时小于 1 秒,让电商直播沟通体验全新升级。

该系统在今年 5 月上线后,大批 “无外语能力” 的淘系商家涌入 AE 直播,自如的运用中文进行直播卖货,通过直播翻译系统译成英语、俄语、西班牙语等等,世界各地的观众都能看到带有当地语言字幕的直播视频,同时还可与主播互动沟通,最终,带来的销售转化高于普通 AE 商家的 20 倍。未来在此基础上,阿里云视频云还会联合达摩院深度研发多语向互译,让商业没有语言障碍,让技术普惠能量进一步升级释放。

虚拟交互技术驱动娱乐新价值

image.png

李静 阿里巴巴文娱集团资深算法专家

疫情期带来了在线娱乐行业的爆棚式发展,也让行业本身更加审视在交互体验上的突破价值。优酷联合阿里云视频云团队,开展了对互动视频体验的全新升级,集中体现在三个关键词:一是直播化,即基于 DIBR 重建技术,让用户在自由的视角进行任意的观看,实现自由视点互动直播化。二是游戏化,通过人脸识别、动捕系统等体感互动技术,赋能视频的游戏化体验,其中的技术已应用在优酷即将播出的动漫 IP 上,可实现用户和 IP 的互动,进而增加用户粘性。三是特效化,在综艺、体育领域与 AR 特效的融合,创造全新的交互体验,尤其当 AR 特效应用于体育赛事场景中,可以让观众实时了解当前赛事的情况,例如,优酷 2020 的 CBA 直播牵手视频云团队,比赛特效通过自动化、准实时的 CBA 云特效合成,让观众以自如的视角观看当前谁在投篮,显示命中率是多少,当前阵型如何等等,达到现场实时直播输出的效果。

所有以上的特效互动技术,都得益于目前 CV 和 CG 技术,两者结合助力于互动特效视频的自动化、批量化生产,相较于传统方案可以提速百倍。基于此,我们对未来的期待一定是虚拟世界、增强世界和物理世界三元合一的状态。

image.png

林昊在云栖大会分享观点

2020 年视频行业的爆发,加速了视频云技术的应用和对多场景互动形态的探索,日前,国际权威数据机构 IDC 曾发布一份中国视频云调查报告,数据显示阿里云连续两年整体市场份额占据第一。阿里云视频云团队致力于不断创新内容和交互方式的改变,“未来,随着人工智能、5G、AR、VR 技术的加速创新、视频与云计算的高效融合、以及视频云技术本身的不断演进,一定会有越来越多的行业和场景,基于视频进入新内容、新交互的时代!” 阿里云视频云负责人林昊表示。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

image.png

相关文章
|
10天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
10天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
779 11
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
10天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
810 7
|
10天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
10天前
|
JSON 缓存 安全
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
CC Switch 通过本地路由(`127.0.0.1:15721`)实现协议转换:将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口,兼容流式响应与工具调用,无需修改 Codex 源码,安全隔离 API Key。(239字)
2169 4
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
|
10天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1844 6
|
10天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
774 152
|
10天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
628 2