专访阿里云席明贤,视频云如何运用大模型与小模型来破茧升级2.0

简介: 云赋予了视频,AI赋予了视频云。


这是一篇人物专访,源自LiveVideoStack与阿里云视频云负责人席明贤(花名右贤)的对话。面对风云变幻的内外环境,阿里云在视频云赛道是坚定向前的,右贤没有回避多媒体当下行业面临的困难以及业务面临的挑战,作为多媒体圈的新人,他用了很多时间调研了解市场和客户,他坚定地选择ToB作为突破口,他认为AI将把视频云升级到2.0,他说(允许团队)拿出更多的研发资源去做产品创新研究,投资技术不怕失败。


策划 撰写 / IMMENSE


ABCDE,到Video


想用英国诗人托马斯·艾略特的作品,来照亮一个人的开场。



1934年的《The Rock》,是DIKW模型的源头,它揭示了从数据到智慧的内蕴,恰好和右贤的经历颇有牵系。


他开门见山,说自己是个IT老兵,20多年都在“计算”这个圈子内。大学时期学习计算机技术,研究生方向是高性能计算和普适计算,工作先后从事云计算、大数据、数据库、人工智能、边缘计算的产品规划和技术开发,也负责过钉钉教育业务。


仔细端详,他的阅历横跨AI + Bigdata + Cloud Computing + Database&DingDing + Edge Computing,而近一年又踏足了视频云,是一个从ABCDE到V的机缘巧合,有些奇妙。



右贤是一个ToB老人,又是个视频云新人。


谈到作为新人,对当下的视频云怎么看,他用“非常新奇、大有可为”来形容。


简单说,新奇是源于当下的社会视频化蔓延之势,给生活、工作、乃至万物的加持,这一切给大众带来了很大的便利性。在他看来,视频必然会成为万物交互的新方式,人与人、人与物、物与物,因为内容、沟通都在极速视频化,我们从早睁眼到晚睡觉都在跟泛视频打交道,“视频+万物”将会孕育出大量的新鲜事物及应用,这足够让他新奇万分。


关于他的时空履历,有叠加的化学效应,“之前做的那些产品技术相对来说,是偏底层的;而视频云是技术应用解决方案,它是全链路的、与业务强相关的;同时,这些视频业务的底层需要云计算、数据库、人工智能等融合支撑。正因如此,我过往的经历恰好在视频云这个赛道大有可为。”右贤说。


可以想象右贤领队下的阿里云视频云会发生怎样的变化,多媒体行业的周期与这名老兵的时间线交织在了一起,命运是最好的安排,他的经验正是阿里云视频云需要的。


视频云2.0


回到现实轨道,与“大有可为”强对比的,可能是音视频旧人眼里的瓶颈。


国内多媒体生态经过了6到8年的快速发展,目前进入到调整或平稳期,在这样的背景下进入这个赛道,对行业老人来说一定是难题,对赛道新人或许是另一番新境。


于是,右贤看出了需要迭代变化的新视频云



依他的视角,如果说云赋予了视频,带来了视频云的1.0,去迎面消费互联网的全面爆发,那如今是AI赋予了视频云,带来了视频云2.0,去解决行业数智化的全新升级。


的确,这揭示了视频云的本质,从1.0到2.0,不知不觉,视频云的本质发生了变化。


右贤解释到,“在视频云1.0时代,视频应用主要集中在消费互联网领域,主要解决成本和体验问题,即B端的音视频企业成本和C端的用户体验。随着AI算力和大模型兴起,在视频云2.0时代,视频应用转向产业互联网领域,去解决各行各业场景化视频智能应用的问题,即视频如何支持行业数智化升级。视频云正在从1.0向2.0过渡。



视频云2.0,这大概是一个赛道的新生命、新契机。


在对话中,能够感受到右贤对视频云的信心,“视频云2.0的价值在于通过基础大模型和场景小模型,来助力行业的数智化。就此,阿里云视频云拥有三大关键能力:第一是规模能力,经过视频云1.0的蓬勃发展,阿里云成为全球和国内规模最大的视频云基础设施服务商之一,能提供高质量、高性价比的视频服务;第二是智能能力,基于阿里云通义大模型,可以向客户提供横贯媒资生产、处理、传输、消费全链路的产品智能化升级;第三是场景化服务能力,基于多年的丰富行业实践,可以向客户提供高易用、高性能的视频终端服务套件,全面降低客户使用门槛。同时,更能利用场景化小模型来实现行业应用的百花齐放。”


当然,不仅行业赛道正面临变革,技术突破也为视频云的服务升级创造机会。“我们从video for human正向video for machine过渡,如何在满足人的需求情况下,同时也满足机器?这让视频云2.0可能成为一种混合的职能。比如,编码就是既要满足人的主观体验,也要满足机器对视频的高速处理需求”,右贤说。


于此同时,AI、GPT等技术迭代正在为视频服务注入新的价值。从云养猫到云监考,从牧业养猪到农业育苗,从IPTV到工业质检,右贤列举了许多细分行业场景,透出他对新视频云的信心满怀。


ToB的耐心,100米深


进入2023年,音视频行业市场空间见顶,除少量场景和个别公司外,大部分市场处于严重的内卷状态。许多企业不得不通过各种方式压缩成本,裁员自然是不可避免的方式之一。当然也有许多企业选择出海,在竞争不是那么激烈的海外市场拼杀。这是看到的不争事实。


每个管理者都一定在绞尽思虑,破行业的局、破自己的局。压缩成本不是可持续性的良策,海外拼杀也不过是平面维度的拖延,右贤在寻找别的维度的解法,在内卷度愈发难以呼吸的市场,给我们舒展开空间,上演宽度与深度的画面感。



显然,我们都了解消费互联网的ToC场景和产业互联网的ToB业务,于是,右贤打了个形象的比喻,给出他的理解,“ ToC的赛道是100m宽,我们往往只需要做1m深,就能够满足70%到90%的客户需求,面对ToC就是快速满足这些需求。但是,做ToB ,做行业、做场景化,选择赛道往往只有1m宽,但你必须挖下100m深,才能创造更多的产品价值,深度服务好客户。


相对于短平快的ToC场景, ToB的投资回报周期要长得多。这是事实,右贤心如明镜。


决定做好这条新维度的赛道,面对“100m深”的坚持,如何能让自己和团队保持耐心?面对这个尖刻又必然的问题,右贤很干脆的回应,“是这样,当我们挖到2米的时候会碰到石头,挖到50米会碰到岩石,所以怎么办?分两步。”



右贤展开讲,“首先,我们一定会继续深耕ToC消费互联网市场,做好基本盘。但也会把大家所聚焦的那1m深的赛道,持续深挖下去。也就是说,我们要把视频云的基础能力做到极致化,做到稳定性与体验性的极致、做到成本与性能的极致。”行业里的人都理解,稳定和成本就是消费互联网的最大痛点,但要把基础能力做到极致也并非易事。


侧面可感,阿里云视频云已在排兵布阵,显性突破。作为云厂商,做到超大规模化下的极致,需要站在顶层的抽象思维和重构设计,所以其内部强调“Uni”的技术设计理念,即“统一”:从多元融合的统一网络,到媒体服务的统一引擎,再到一体化的终端利器,直达市场所需要的低门槛、低成本、高时效、高性能、泛应用。这是技术深度上的极致。


就在刚刚结束的LiveVideoStackCon上海2023,阿里云在原来的GRTN网络基础上升级推出MediaUni多元融合流媒体传输网络,正如其名,目的就是极大满足音视频多元业务的传输需求,并以低成本、低延迟的极致姿态达成,更为面向未来的业务形态实现媒体与元数据的融合传输,这是强大的底座。往上走,在关键的中间层,破局重组,设计全新的媒体服务顶层架构,打造规模化、智能化、多业务、灵活、开放的媒体服务中台,突破媒体服务的高时效与高质量,这是强力的发动机


窥一斑而知全貌,能想象右贤所推进的基础设施极致化,需要怎样的坚定投入。如此,在深一步支撑ToC的同时,也在为ToB的加速做更扎实的储备。当然,远不止此,ToB场景更复杂多样,需要更深的洞察力、创造力和持久的耐心。


这也是右贤提到的第二步,用“全智能”内化之力,来满足更多ToB的数字化升级,换句话说,面向行业孵化场景应用,做一个标杆,照亮一片。



他提到支持中国美院的“云上艺考”,“以前的艺术类考试,学生都要在短期抵达多个院校现场考试,艺考潮甚至像春运一样,网上也热传过‘艺考生10天辗转多地赶考,卖掉一套房’的新闻,虽然略显夸张,但可见其赴考难度极大,考试公平性也很难保障。对此,我们通过AI与视频云技术,让美院的4万多名考生同时在线、居家考试,并以高可靠、高可控实现100%的全程顺利稳定,这说来轻易,但真实情况是踩过很多坑才能实践出来。项目结束,学校发来了感谢信,让我们倍受鼓舞,后来将这种场景方案复用创新在更多艺术院校。”


“我们还有一个有趣的场景——云养猫。我大概调研了一下,中国目前有宠物 2.93亿只,如果你经常出差很难把猫带在身边。现在可以把猫托管社区或自己家里,通过视频我们可以跟宠物进行互动,包括投放猫粮、加水等等。此外,我们还做了很多工业质检的场景,其他行业新场景也都在探索落地中。”右贤很有期待地说。


或许,不同时空踏在音视频圈内外的他,从另个维度看到了更多景致和可能。


即使一切看起来繁花似锦,玩味无穷,也听到右贤反复提及,“ToB是一条艰难而正确的路”。


这条路,不仅需要“100m深”的耐心,也要多些好奇心创造力



既要又要,普惠+生态


“数字化转型升级过程中,65%的行业数字化信息来源于视频,49%的智能应用又是以视频为基础。这就是未来我们要对视频进行更多行业外应用的基础,由此,视频应用场景就会百花齐放了。”右贤说。


某种意义上,这就是千行百业的普惠。所以自始至终,右贤也深谙“普惠”


2023年4月,阿里巴巴集团CEO张勇提出阿里云的战略核心是“让算力更普惠、让AI更普及”,反映在客户的认知或许就是众多云产品的价格下调,但本质是通过释放技术红利来实现普惠,让更多企业以更高性价比获得阿里云或视频云的服务,从而拥有更大的市场竞争力。


但更近一步,右贤强调,“我们能够做的普惠,不仅仅是商业的普惠,还会做到对一些产业的普惠,即加速产业数字化进程。比如,视频云更多定位为PaaS,产品还是以API的交付方式,就客户的技术能力和平台现状来讲,这对很多行业的客户要求非常高,实现是有一定难度的。集成周期通常都是在三天到一周,才能把视频语音的一些能力应用到客户自身的APP,过程中还存在海量设备兼容困难的问题,让整个时效比较低。”


这确实是当前普遍的交付模式和交付效率问题,解决它就能深化普惠



“所以我们很早就提出了低代码甚至零代码,当然视频云零代码还不太现实,所以我们把很多的组件能力套件化,让企业降低集成的难度;同时,依托大模型,打造小模型,组合能力、适配场景,大幅提升交付效率,实现几小时即可上线。这是一种普惠。


这里提到的,即是在持续升级的音视频开发工具MediaBox,据说是个百宝箱,具备丰富、极致、智能的能力,在高易用、高性能之下,极大满足客户真实需求的场景化。


“还拿考试为例,在居家条件下的云上艺考,一定需要比现场更有力的防作弊监考能力。于是,基于对线上艺考差异化情景的全面分析,我们的技术团队极速研发了基于AI 的自动检测能力,叠加在MediaBox的远程监考方案中,满足艺考监测的全维度。这极大减轻学校监考压力,更能保障教育的公平与公正。在这之上,还能灵活应对各类新需求,比如,针对有的学生违规戴了蓝牙耳机,我们可以再叠加一个模型进去,以天为单位,就可实现新功能上线。目前,我们这套智能远程监考方案已经成功复用在各类艺术考试、青少年编程考试、企业招聘考试中,这也是一种普惠。”右贤说。


透过一个小小考试场景360度的精细打造,能够看到一个音视频开发工具的真诚,这大概也是右贤所提到的“100m深”的坚持。有了这样的耐心和诚心,视频云的视野似乎也真正打开了。


“我们也很关注农业企业,交流了许多,比如,通过视频如何去监控牲畜的状态,以及如何去选苗、育苗,其实大部分企业不具备这样的能力,所以需要把这个智能技术使用门槛降低,这是一种更实在的普惠,而不是简单地把价格降低,因为把价格降再低,企业也用不起来”, 右贤继续分享到。



能看得出,阿里云视频云很真诚在拓延行业的普惠,但视频云是偏方案型的服务,尤其面向视频云2.0的产业互联网,它更是一个典型的ToB赛道服务,与做一个应用或软件不同,会面对行业各种复杂的场景,这等同于数量级的个性化需求,一家厂商必然乏力。


于是,右贤给出他的直言,“我经常讲,我们是技术有限公司,也是能力有限团队。实际情况就是这样的,面向千百行业的需求,仅靠一家公司、一个团队是很难解决的,只有通过与业界广大的合作伙伴一起肩并肩、背靠背,才能快速解决客户的问题。因此,我们要与生态伙伴合作,彼此双向赋能。生态伙伴会涉及到几类:一个,是面向大行业和行业领先的生态伙伴,我们会携手一起解决行业重难点问题,针对一些典型场景会以联合共创的方式展开合作;另一个,是面向广大的开发者或中小型ISV,我们会把能力标准化、原子化让他们易集成、易使用,实现低代码乃至零代码的集成,让我们的能力被真正用好。”



总言之,阿里云视频云要做生态伙伴做不了的或不容易实现的能力,比如底层的通用算力,比如一些较为复杂的算法模型,比如算法跟底层芯片的调优。而面向应用场景的优化微调,交给更擅长的ISV去做。“这样,把边界也切分清楚,我们会调动各行各业的生态伙伴,共同促进视频在行业智能化的价值,成就彼此。” 右贤这样说。


如果“既要又要”的话,普惠是包罗万象的期许,生态是明晰边界的觉知,一切都是为了更大的商业与社会价值。


有机未来,不止AI


不管舒展还是内卷,我们都更喜欢看未来。


“在未来,我会拿出更多的研发资源,不以商业为目的去做一些技术研究,做一些相对超前的技术储备”,右贤表示,“其实产品技术投资上不要怕失败,就怕没有想法、没有动力往前走,所以,如果很多事情是站在昨天规划今天,是在解决历史问题,你只能赢得当下。如果你不站在后天想明天做什么,你是永远都不可能走到后天去的,也很难赢得明天。


谈及视频云的明天和后天,就回扣右贤最初对视频的认知,他认为,如果这是改变万物交互的方式,当下,人与人的音视频沟通已经做得很多、体验也不错,人与机器的沟通也可以通过NLP(自然语言处理)等技术来实现。未来,音视频技术还可以有更大的应用范畴,与AI融合,与AIGC、ChatGPT都要做有机的融合。


说到这一点,右贤提到一个概念,“有机融合”。


我觉得新技术目前可能很难再井喷,视频云需要做的是把众多技术进行有机的融合,这是更重要的。技术不断的融合创新,融合后会衍生出很多意想不到的新场景,这个过程中,视频云会生长成为智能社会的新基建,带来的收益空间也是可预见的,会非常大。”



AI的融合是首要,且要看清其生长纹理。


“AI的发展经历三起三落,我们经常讲摩尔定律18个月,但由于AI算力的突破,后摩尔定律让AI基本每3到4个月,整个数据的算力需求就翻一倍,这意味着AI的进化会非常迅猛,包括衍生到今天的GPT、人工神经网络、脑科学等等。我认为,人工智能是人工与智能两个词,今后一段时期,人工智能的重点会在智能上,技术和应用会聚焦在“数能生智”方面,DIKW模型会快速迭代。以前是“人工+智能”,现在是“智能+人工”,右贤笑着说。


换个角度,未来或许是AI理解世界,我们理解AI。


无论如何,谈及鲜为人知的DIKW金字塔,足见右贤对AI智慧的更深理解,这必然成为阿里云视频云在研发动能上的无形牵引。


于是,他的团队一直在探索实践,比如,AIGC方向,文本生成图片、图片生成视频,还包括2D到3D的融合直播等等。接下来,针对智能媒资管理,从标签标准到媒资自动化管理,也会加大投入。而面向video for machine的未来,阿里云视频云针对机器编码也在与相关标准组织合作,加速推进MPEG-VCM标准的制定。这是右贤列举的几个技术演进点。


不仅如此,右贤还将“视频”有机关联到“数据密集型科研”,认为其会成为未来科研的新范式。什么是数据密集型?“其实就是大视频,它数据量很大,但数据价值密度相对较低,所以需要快速的分析。科研第四范式就是利用大数据进行科学研究,通过数学重构这个真实世界,而以前都是模拟、仿真,再往前就是实验观察、理论总结等等。在可预见的未来科研里,视频大数据显得尤为重要。”


视频、数据、智能、智慧、世界,这里看得出他有更深更远的视野。



倘若把视线再抬高一点,看视频云的未来,右贤还是那句话,“如果100%以商业价值,或许只能赢今天,不一定能赢明天。”


这也引出他对商业、技术、产品的看法,也能以“有机融合”来点睛。在他看来,这三者不可割裂,是一个完整的有机体。


“产品技术是为商业服务的,也是为社会服务的。作为管理者,必须要跟团队要讲明确,我们作为一个大家庭必须要有认知,无论是产品、技术、商业,我们都要敬畏市场、尊重客户。这是我从最初就特别强调的一个问题。我们过往的发展模式过于敏捷迭代,很多技术也是ToC业务中沉淀起来的,但是,做ToB要非常讲究严谨、讲究价值,要围绕着商业价值、社会价值。在这样的一个前提下,产品的商业价值要牵引技术的研发,从出发点到终点,都要做到真正的敬畏与尊重,最后就能实现很好的商业。”


辞海里,“有机”是代表有生命的,事物构成各部分互相关联而具不可分的统一性,与生物相同。这或许触类旁通了他对技术、商管的有机之见,也发现了视频云的新生命。



最后,如果寻几个词来素描右贤,大概是开阔、坚定、务实,一个赛道新人对瓶颈感行业生出很多新的觉知,这让他“ABCDE”的经验游历于Video之上的更高视野。如果这份觉知和经验发酵,投射在2.0背景下的阿里云视频云身上,大抵如今年LiveVideoStackCon所述,是“云智新生”的视频云。未来的未来,我们拭目以待。

相关文章
|
1月前
|
人工智能 JSON API
阿里云文档智能 & RAG解决方案:提升AI大模型业务理解与应用
阿里云推出的文档智能 & RAG解决方案,旨在通过先进的文档解析技术和检索增强生成(RAG)方法,显著提升人工智能大模型在业务场景中的应用效果。该方案通过文档智能(Document Mind)技术将非结构化文档内容转换为结构化数据,提取文档的层级树、样式和版面信息,并输出为Markdown和Json格式,为RAG提供语义分块策略。这一过程不仅解决了文档内容解析错误和切块丢失语义信息的问题,还优化了输出LLM友好的Markdown信息。方案的优势在于其多格式支持能力,能够处理包括Office文档、PDF、Html、图片在内的主流文件类型,返回文档的样式、版面信息和层级树结构。
115 2
|
2月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
2月前
|
人工智能 自然语言处理 数据可视化
阿里云AI大模型助力客户对话分析——全方位提升服务与体验
随着数字化转型的推进,企业愈发重视客户互动数据的价值。阿里云推出了一套基于AI大模型的客户对话分析解决方案,通过自动化手段分析大量客户对话数据,提取有价值信息,优化服务流程,提升客户体验。本文将结合技术文档和实际体验,全面评测这一解决方案。
88 2
|
2月前
|
人工智能 弹性计算 运维
触手可及:阿里云函数计算助力AI大模型的评测
阿里云推出的面向AI服务器的功能计算(Functional Computing, FC),专为AI应用提供弹性计算资源。该服务支持无服务器部署、自动资源管理和多语言支持,极大简化了AI应用的开发和维护。本文全面评测了FC for AI Server的功能特性、使用体验和成本效益,展示了其在高效部署、成本控制和安全性方面的优势,并通过具体应用案例和改进建议,展望了其未来发展方向。
176 4
|
2月前
|
机器学习/深度学习 数据采集 人工智能
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
|
2月前
|
人工智能 自然语言处理 语音技术
简介阿里云大模型的基本概况和产品矩阵
阿里云在大模型领域深入研究,推出了通义千问、通义万相、通义听悟等产品,涵盖自然语言处理、图像生成、语音识别等多个方面,同时提供行业专属模型和MaaS平台,致力于为企业和个人用户提供高效、智能的服务。
99 0
|
2月前
|
存储 人工智能 前端开发
前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索
本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。
170 2
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
85 2
|
2月前
|
弹性计算 自然语言处理 安全
国内基础大模型的独立性及应用大模型的依赖性
本文探讨了国内基础大模型(如阿里巴巴的通义千问)的独立性及其应用大模型的依赖性。详细分析了这些模型的研发过程、应用场景及技术挑战,包括数据收集、模型架构设计和算力支持等方面。同时,讨论了微调模型、插件式设计和独立部署等不同实现方式对应用大模型的影响。
43 0