多媒体数据存储与分发
摘要:本文整理自用阿里云存储服务产品团队的羲遥老师在云端问道4期方案教学关于多媒体数据存储与分发的分享。内容主要为以下四部分:
1、行业痛点及背景
2、方案优势介绍
3、典型场景应用
4、方案设计产品的选型配置简介
01、行业痛点及背景
第一部分,多媒体互联网行业的目前可能遇到的数据存储和分发中间的痛点和问题,整体的互联网相关行业随着 Web 2.0 到 3.0 到现在 AIGC 的时代,发展非常快,随着整个互联网业务的发展,与此同时带来数据存储的压力和性能上的问题会越来越明显,现在客户可能遇到的最多的问题,第一部分是存储成本的上涨,随着现在多媒体行业相关从 PGC 到 UGC 以及到 AIGC 带来的大量数据,生产模式的转变,数据从单一的生产方式,变成指数级甚至更高量级的的存储方式。直接增加存储的成本,第二部分是存储的数据类型多样,图片和音视频到现在主流的短视频和长视频不断的接触和生产,对数据处理的实时性的要求和处理的次数的频繁性都会非常高,这一部分会再一次增加数据处理的成本。第三部分随着数据上涨,如果没有做数据的生命周期管理,成本压力会很高,其次整个存储介质的性能也会遇到瓶颈。第二部分是互联网行业初期可能在设计的时候多数还是以比如线下单台的服务器的方式,或者多用机房的方式进行架构的设计,在设计初期的时候,可能在数据存储方面缺乏冗余的设计。无论是异地的双活,还是副本的设计,一旦遇到数据丢失或者是硬盘的损坏,就会带来可用性的中断。第二部分,安全数据安全性,比如最近的勒索病毒,以及业务人员的误操作,会给整个业务带来不可挽回的损失,这一部分的监管有一定要求,在数据的安全性上会增加成本。第三部分是随着整个全球化进展,包括现在企业出海诉求增长,现在互联网的用户分布在全球各地,比如偏远的地区,或者跨境的业务,网络的质量很难保证,还有针对的大促,或者行业热点的情况,突发流量一旦打进的时候,对主战和整个业务压力非常严重,会出现网络的卡顿,业务的损失也比较大。
02、方案优势介绍
2.1秒懂-为什么要用多媒体数据存储与分发方案
针对以上三点,阿里云基于数据的存储处理和分发,提出多媒体存储与数据的分发方案,它将对象存储智能媒体管理 IMM 和内容分发网络进行结合,前端业务的动态数据存储无论是 Web 服务器,还是云服务器和自己的线下的服务器,可以把静态的数据,比如大量级的音视频和图片,大量的文本数据,无论企业内外部的数据的静态媒体类的数据存储在 OSS 上,因为 OSS 上面向的是 Rest For 协议,基于 HTPS 和 HTTP 的协议进行传输,非常适合互联网静态的数据存储,可以直接实现业务数据的动态存储在服务器上,静态的数据存储在对象存储上,实现业务的动静分离,降低服务器的成本和业务负载的压力,存储在对象存储 OSS 上,数据可以和智能媒体管理进行深度关联,无论是通过控制台的方式直接使用,或者通过 API 的方式一键调用的智能媒体管理,可以实现对象存储上,无论是图片、文件、音视频类的数据进行一站式的预处理,比如转换、压缩、各种各样的预处理的模式,可以进一步降低数据处理成本。对于数据分发方面的,可能是通过主带宽直接就分发给终端网络,借用 CDN 和全球超过 3200 个节点的压力和超大带宽的优势。还有超过 180 的 TBPS 的带宽,实现业务的内容分发的最后的物理顺滑性,对于终端的客户,无论在偏远的地区,无论在全球的各地,可以达到访问的无卡顿和顺滑,可以实现内容获取的最高效的方式,整个的阿里云的产品都是即开即用,并且可以通过按量付费的方式进行付费,在业务中无论要升配和相配,还是业务突然爆发式增长的时候,无需担心业务扩充的瓶颈和压力,可以实现无缝的架构升级。这对于互联网行业企业的整个发展过程都非常友好。阿里云的 OSS 目前也拥有最高的可用性的 SLA 和可同性的保障,它的数据可用性有各种各样的数据安全的设计,包括本地冗余到同城冗余到异地复制,以及各种鉴权的方式,都可以达到国内的行业标杆的安全可靠性的保障。所以在数据的安全存储可以达到最高效的方式。
2.2场景优势一:数据源站加速
整体数据存储的分发方案的优势是访问速度的快速提升以及成本降低。传统通过 Web 网下行,流量直接进行获取,无论用运营商的单线的带宽,还是用阿里云的下行部分,成本比较高,第二个带宽的压力非常大,可以通过 OSS 和 CDN 进行组合,分发到客户的数据,开始缓存到 CDN 里面,实现直接访问压力的分流,第二部分因为 OSS 的下行,由于它的整个网络是 BGP 的网络,所以它的下行网络是在 0.25 到 0.5 的单价,闲时是 0.25,忙时可能是 0.5,通过 CDN 进行连接,CDN 和 OSS 之间的回源流量是 0.15,CDN 的下行,如果基于资源包购买,它可以实现 0.1 到 0.12 的区间,可以基于业务的需求,比如业务在什么时间进行峰值访问,终端客户可能在哪里进行不同的搭配组合,实现整个的流量成本的最优,并且整体的 CDN 访问速度,通过波测,可能定时进行波测优化,现在有效的访问速度提升率可以达到 30% 到 100%,客户可能对比如监管的需求,或者对数据安全性的考量,会用多云的方案实现异地多活,借用多家的 CDN 和多家的 OSS 进行原站和分发的处理,会带来数据一致性上的压力,以及成本上的额外增加。如果有需求实现的异地多活,OSS 提供跨区复制和跨境还原的能力。可以直接通过的跨区域复制的能力。在阿里 OSS 上开通不同节点的不同地域的 Bucket,实现实时的同步,完全实现异地多活的需求。CDN 回源的流量是指部分热数据可以开始缓存到阿里云 CDN 里面,阿里云 CDN 从阿里云 OSS 上赚取的流量走内部的活跃流量,活跃流量是 0.15,这时候通过 CDN 走到终端客户的时候,走的是 CDN 的流量,CDN 流量是基于资源包,随着资源包上涨,它的单价会降低,最低可能到 0.1到 0.12,从通过活跃流量和 CDN 流量组合加一起,比 ECS 带宽、OSS BGP 下行会便宜,也取决自己的业务时间,可能业务交付会比较多,也可以完全选择下行方式,大概是 0.25,所以是基于不同的业务特征。基于阿里云提供的流量方案达到自己最优的效果。
动静分离是无侵入式的,是否需要开发的时候做工作,这一部分是如果业务之前的数据是存储在比如 ECS 上,ECS 和 OSS 可以直接使用内网的方式存储,但因为 ECS 存储走的是文件存储协议,OSS 的 Response 协议,肯定会有数据迁移过来,或者直接上传过来的 API修改,如果是从比如 S3、腾讯或者是其他的云厂商,也是同样存储在 OSS 介质上,OSS 提供在线和离线的数据迁移方式,可以实现比较顺滑的迁移方法,这个东西取决于之前存储数据的系统和用的协议是否可以兼容现在的 OSS。
2.3场景优势二:数据预处理
第二部分的优势是数据处理的优势,这部分的优势是利用 IMM 智能媒体管理的产品,这个产品目前已经介入同一系统的大模型能力,它除了支持基础的数据处理,包括图片格式转化和压缩、音视频转码和截帧,还有通用文件的压缩、解压缩、文档的在线预览,还有数据的提取和检索的方式,可以通过自然语言语义,可以输入快乐的湖泊进行检索,可以实现部分的 AI 打通的方式,包括基于人体进行人脸的识别和特征的分析,基于物品进行物品的简单打标,这部分有比较强的能力,可以降低部分数据的处理成本。比如对人脸的识别和聚类、视频标签、视频增强、自动生成文本。这一部分的能力在逐渐的丰富,还有安全性方面,就是独有的数字水印、盲水印、安全性的访问、各种的安全管理和管控,和 OSS 集成到 OSS 控台中,用这种方式可以看到这部分的能力,在实际操作会看到它的使用比较方便,比如建立类似类别或者样式的方式,可以实现数据批处理。比如对原数据数据集的提取也有一定的功能。
03、典型场景应用
3.1主要场景介绍-音视频
在主要的场景应用,比如大量级的文本、图片音视频,只要有 APP或者网站、互联网类的需求,会有各种的数据存储和加速的需求,取决于数据的量级,或者数据的类型、加速的目标,列举四个通用场景在各个方案的应用和优势。这些场景目前遇到的是 OSS 加 IMM 场景,非常多的行业,第一部分是音视频,现在整个短剧和短视频爆发式的增长,在这个方面创业的项目很多。比如短视频类的直播、点播的分享、影视的网站、点播网站、游戏电商类的直播,音频类的比如有声书、早教故事、FM 广播,视频监控类比如居家安防、封闭园区的道路监控,还有智能穿戴都会涉及大量级的音视频存储、上传、下载和分发,这一部分的音视频主要的特点是音视频数据的单文件的数据比较大,是兆级别,甚至是 GB 级别,这一部分就用 OSS 进行存储有优势,因为 OSS 是弹性,它可以支持到 EB 级,更大级别的数据的存储。包括电脑、手机、智能传戴设备的摄像头的上传都可以存储在 OSS 里面,比如业务处理类的要求、交易类的数据或者数据库,数据库类的数据可以存储在 ECS 里面,完成结构化数据和非结构化数据的动静分离的结构,这部分就可以有效实现存储成本的降低。无论是未来业务的上升,或者是语音视频的大型业务的增长,都在 OSS 上实现,无需担心上涨压力,通过智能媒体管理,可以实现音视频的解码、转码、裁切、水印、视频标签,安全性方面都是支持端到端加密,无论是通过 IMM 鉴权的方式,或者 STS 临时的鉴权方式,或者白名单的方式进行访问,都可以满足不同业务对于数据安全性和访问的要求,通过内容分发把音视频数据,通过多种终端设备存储在OSS 上,通过 IMM 预处理之后,再经由 CDN 进行分发,就可以达到整个的链路优化。CDN 就可以保证链路的流畅,大量级的文件可以最大程度上降低播放卡顿的情况,在视频生产加工过程中,无需担心整个运维层面,这一部分是现在比较主流的方式,包括行业内很多中小企业,包括甚至比较大的企业,都会在上面有基于技术结构的延伸。
3.2主要场景介绍-在线教育
第二部分是在线教育。尤其是疫情结束之后。远程教育、网课类的业务上涨比较多。无论是传统的早幼教的教育、K12 的教育、线上的模部分化,包括课程的在线的教育、英语辅导驾照考试种类的业务。现在有很多比如数字化教室、多媒体教室,能把课件备份和归导到云上,包括做线上线下教育的云上化,还有大企业里面内部的教学管理系统,还有阿里云内部用过的学校课件,都通过这种方法传输,在线教育有比较好的方式,就是它可以通过 OSS 支持 RTMP 视频流的直接推流,只要设置就可以实现边看边存边播的效果。老师可以通过不同的终端,把教学类的视频,通过直播的盘的方式,还是点播的方式上传到教育系统的 OSS 存储池和存储桶里面,就可以直接在上面通过 IMM 的预处理实现的课程的水印,简单的视频剪辑操作,包括对课程进行归档备份,甚至可以用 OSS 的生命周期管理实现可见,比如有需要长期的监管保存,无论是存 30 天还是 30 年,可以找到比如低频归档,冷归档,甚至深度冷归档的不同层次的不同成本的存储,可以直接实现课程的归档备份,把热门的内容通过 CDN 的方式进行获取,最后分发给在终端观看的学生,无论是 Pad,还是 Pc、手机,可以做到终端的适配和加速的功能,保证播放的流畅性。在这个方面的成本,因为学生是遍布全国各地的,甚至可能更远的地方,可以实现流畅和成本压力的降低。
3.3主要场景介绍-网站/APP/小程序
第三部分是现在网站和门户网站,比如电商网站、社交类的 APP、各种小程序也会有各种各样的,包括现在图片展示类、内容也基本一样,把交易类的数据通过 ECS 进行存储,比如代码类的模部分化的程序放在 ECS 上,电商的图片、交易的图片可以直接上传,通过上传 HTCP 的方式上传到 OSS 上,可以快速的通过 OSS 本身的图片处理以及 IMM 基于图片处理的高级功能,实现电商所有图片转统一的格式,在整个的展示页面的统一大小、旋转裁切方面的功能,还有一键的水印或者压缩,甚至可以实现不同广告图的裁切和截取,会大大提升业务效率,不用考虑把图变成各种各样的形状,再填充到各种各样的广告位上,这个东西可以实现生成,比如一张底图可以实现不同方式的加工,热数据可以通过缓存到 CDN 上。电商在大促和大流量的峰值引进过来的时候,就可以通过 CDN 的链路加速的方式,进行就近的访问图片,基于 OSS 迁移,可能大部分的客户的业务都是存储在传统的物理服务器上,或者其他的机房里,OSS 提供离线的迁移方式。对于 TB 以上的数据,用闪电立方,可以把机房直接上架到阿里云,迁移的效率很高,业务要是不停机,希望能够在线的进行数据迁移,也可以通过在线迁移的方式,支持友商的对象存储类的产品进行一键的进行迁移,这部分是可以实现无缝的衔接,免除很多迁移费用,如果有需求可以咨询商务经理,现在对于数据迁移有优惠。
3.4主要场景介绍-游戏/APP 下载
最后一部分的就是针对分发式下载类的游戏分发下载,文件比较小,但是可能频繁的下载和访问,这一部分 CDN 在这里可以实现,比如月数据的点对点的缓存,缓存之后,对各种客户可以实现就近的访问,定时更新通过 CDN 进行定时的内容回刷和获取,可以实现保证原来的资源包的最新的更新状态,再通过原站和 CDN 的交互实现多端的访问。现有很多的游戏盒子都是通过这个方案直接把游戏的资源包上架到 OSS 上,通过 CDN 的方式最后放到终端市场,实现用户的最终下载和请求,无论是音视频文件,还是文件数很多,文件很小的存储方式都会有吞吐和很高的 IO 的保障,这部分包括出海的游戏,不光有 CDN,还有出海针对 OSS 主干链路的加速方式,通过配合传输加速和 CDN 可以实现跨境传输的加速,包括数据交付的保障,这部分是比较大的应用方向,以上是 OSS+IMM+CDN 中间的架构,整个多媒体数据存储与分发架构的优势和目前应用的场景。刚才讲的四个场景在阿里云里边都有相当量级的客户在使用方案,客户需求不一样,比如可能是任务式,有大的量级可能突发,突发的增长,也可能是很稳定的程序,可能有定期的任务,无论是什么样的需求。OSS 的设计和 CDN 的设计都会涉及到针对不同的数据类型的数据的单独可用性,可靠性,以及加速的设计,如果有具体的业务需求,可以给您选择最合适的方式。把业务进行降本增效,并且提升存储的性能。
04、选型推荐
接下来进入实验环节,从后台操作看整体的产品如何搭配成为一整套的可用方案,涉及到产品的开通,因为 CDN 加速需要域名,所以希望目前保有自己可备案的域名,否则进行 CDN 加速的时候就无法进行域名解析。对象存储目前用存储的费用,可能会有部分的下行流量,还有是搭配的域名是必选的,证书可以进行可选,如果选择证书,可以保证整个的课程的完整性,实验操作的完整性,还有智能媒体处理,也是按照处理次数和流量进行计费,这次实验建议都通过按量付费的方式走,当然更便宜的方式就是包年,包月,测试的时候可以用按量付费,如果业务已经有确定规模,之后选择包年,包月的方式更便宜。以上是基于主要的架构,结合应用场景进行讲解。