走进位于上海张江的喜马拉雅园区,随处可见“AI in All”的标语。 在喜马拉雅,“AI in All”不是一句简单的口号——从借助大模型提高内容生成效率,到辅助代码编写,BI报表自动生成……这家深受用户喜爱的音频在线平台,正在内部掀起一场全方位的 AI 变革。 变革的发生,不是一蹴而就的。喜马拉雅为大模型的快速落地设计了一套完整的技术架构:从底层算力,到数据层,到模型训练、推理层,再到面向业务的工程化平台,全面以AI为中心进行架构优化。 特别是在去年,喜马拉雅率先完成了大数据上云,让数据集在大模型落地中的价值进一步凸显。 本期 AI 对谈,我们邀请到了喜马拉雅基础架构部负责人胡建华,分享喜马拉雅为快速推进AI in All做了哪些扎实准备。 |
时间轴
Timeline
00:27
小雅音箱互动中包含哪些大模型技术
01:38
在喜马拉雅,大模型已在多个场景落地应用
03:12
喜马拉雅 AI Infra 大揭秘,围绕AI实现架构全面优化
06:46
大模型技术的几个发展趋势
07:30
喜马拉雅大数据上云的前瞻性
09:28
未来云上技术架构有哪些演进趋势
阿里云:刚刚的演示体验到了小雅音箱非常流畅的对话能力,正好也请教一下您,在跟小雅音箱互动的场景里,包含了大模型方面的哪些能力呢? 喜马拉雅:这个过程中涉及了几个技术。首先会有一个问答过程,基于ASR(自动语音识别技术)识别用户的问题,然后把它TTS(文本转语音)出去。在大模型这一块,我们基于阿里云通义千问的开源模型,结合我们自己的一些数据集,比如说专辑声音相关的信息,做了一些fine tune(微调)。 阿里云:可以说,这是非常典型的“AI+大数据”这样一种新型的范式。 喜马拉雅:对,喜马拉雅是中国头部的音频在线平台,我们拥有海量的声音,音频库、音色库、音调,和演绎的场景数据都是非常丰富的,所以我们训练的效果可能会更专业。 其实我们知道TTS、ASR技术很多年前就有了。但近几年随着大模型技术兴起,情感演绎、多人演绎等效果都比以前好了很多。最近比较火的GPT-4o,看视频演示它的响应时间已经缩短到300毫秒以内,基本上我们感知不到。可见它的工程优化做得非常惊艳。 阿里云:目前,喜马拉雅还有哪些场景在应用大模型方面比较成熟? 喜马拉雅:我们一直在探索将大语言模型应用于业务,过去我们可能讲“All in AI”,现在我们是“AI in all”。内部大概有这么几条线—— 第一,因为我们天生是内容的平台,过去内容制作成本是很高的。从版权采买,到找到合适的创作者,之后还有很长的制作周期。实际上,过去我们大部分时间可能都花在制作上了。现在有了大模型,有了AIGC的演绎能力,我们极大降低了内容创作的成本,提升了效率。过去平均生成一本书可能要几十天或者一两个月。现在可能一、两天,甚至十几个小时就能生成。 还有一个板块,就是内部提效,比如AI coding(人工智能编码)。我们现在内部用AI生成的代码,真正用于生产的已经超过一万行了。 再比如BI报表,可以通过自然语言的一段描述来自动生成报表。像“今天我们的DAU是怎么样的”“今天我们的内容上新是多少”等等,这些AI都可以很好地回答。 当然,还有像是亲子类的“AI换声·爸妈分身”。我们打工人可能平时都比较忙,没有时间去陪伴孩子。现在有AI就很方便了。只要我们对着麦克风讲3秒钟,就能提取我们的音色、说话的腔调等等。 阿里云:听起来确实非常合适,也很暖心。其实,从AI in All 到All in AI这个实践也印证了之前行业内一直讨论的一个观点——一个足够好的基础大模型离业务还是有相当大的间隔,这个间隔其实需要结合企业自身的高质量数据来补齐。 从你的观点来看,对比两年前,基础大模型、AI Infra这两个层面发生了哪些比较大的变化呢? 喜马拉雅:我们认为,现在大模型应用不仅仅受限于大模型,其实还有很大的一个原因是算力。比如说“下单”这种实时服务,如果跟大语言模型做一次交互,需要十几秒或者是几十秒,这种体验肯定是不能接受的。 这一年多来,大模型相关技术迭代非常快。过去两三年我们其实也一直在做AI infra的升级。因为我们不可能自己去训那么大参数的大模型,所以一方面我们会用国内优秀的大模型,另外一方面我们可能会聚合一些基座模型去做微调,加一些数据集来训练我们自己的模型,这是我们目前的架构。 具体来说,大概分为这么几层: 首先,数据是模型的养料,是生命线。一个稳定、高效的数据存储,包括取数,是AI最最重要的一个环节。所以,我们在去年和阿里云一起完成了大数据全面上云,于阿里云的存储以及高性能计算引擎的能力,我们搭建了一个喜马拉雅的数据库,这是非常及时,也非常迫切的。这样,各种各样的数据都能比较方便地入库,它的存储、读取速度,包括带宽,都能符合我们的业务和模型的要求。 同时,因为我们训练的时候可能要大量的算力。但是训练完成后,就会释放出算力。所以我们有一朵具备弹性算力的AI云。 接着在大数据层上就是一些基础模型,包括通义千问的开源模型,我们基于这些基模去做微调。 架构的再上面一层就是模型框架。因为进行推理服务的时候,我们经常要对模型进行一些推理加速。大模型的推理非常耗费GPU。早期一张3090显卡,可能只能处理一个并发,所以我们在模型层也会做一些调优。 在模型框架层面,我们也跟阿里云共建,学习了阿里云在AI架构组这方面的能力。我们也运用了一些开源的vLLM、Pytorch这些框架,来做算子的调优和网络的调优。 再往上一层就是解决方案层。因为对于大语言模型来说,一个好的提示词跟一个不好的,输出的效果是不一样的。所以我们针对于提示词,包括结果指标的反馈,也做了一些解决方案的研发。 以上就是我们AI infra的基本架构。 阿里云:这段话的技术密度特别高,基本把一个企业的大模型架构,从底层,到数据层到上面的模型训练、推理层,再到面向业务的一些工程化平台、业务场景,都描述得特别清晰。 我非常认同您刚刚的一些观点。现在基础大模型技术的迭代非常快,基本每星期都会有新版本迭代。除了大模型能力越来越强,我们也能够明显看到一些发展趋势:首先,大模型朝多模态混合大模型发展;其次,混合专家模型MOE的应用场景也越来越多。另外,基础大模型向更大参数量,更大数据量的方向发展,对算力的弹性、可扩展性,包括超大集群运维管理的要求会越来越高。 刚刚您也提到了数据,即使我们有非常优秀的基础大模型,但是对于大模型的微调、推理,数据其实还是非常核心的要素。去年喜马拉雅也完成了大数据的全面上云。现在回头看这个决策,我觉得还是非常有前瞻性的。 喜马拉雅:可以从几个维度来看我们大数据上云这个事。 过去我们上云之前,如果有紧急任务,要加服务器,一加就是上百台。经过提交需求、采买、上架,再进行安装等多个步骤,整体完成可能要一到两个月,极大地制约了业务的发展。 现在上云后我们实现了秒级弹性。过去服务器购买之后,经过一个大促或者一个高峰后,90%的时间都会闲置。现在当业务不需要时,实例就可以自动弹出,所以对我们来说,上云的成本相对来说是最优的。 另外,在存储方面,过去我们遇到冷、热数据处理的问题。我们把冷数据和热数据做同样的处理,这对技术要求非常高,同时投入也划不来。 现在用阿里云OSS存储,冷、热数据可以分开处理。相对来讲,喜马拉雅的热数据并没有那么多,大量的数据是冷数据。这样能极大地降低数据存储成本,同时能提升取出效率。因为热数据越少,提取批量就会更快。 过去我们基于Mapproduce来去搭建整个HDFS体系,如果想升级湖仓一体架构,就会非常受制约,可能需要重构颠覆原本的架构,这样人员投入会非常大,时间周期也会拉的非常长。上云之后,就可以非常方便进行架构升级,极大地提升我们的效率,降低我们的研发成本。 很有意思的一个现象是,我看到很多做数据的同学说,喜马的广告数据提取效率提升了30%。我就问他们,这个任务提升的背后,主要的原因是啥?可能有一些是工程师代码带来的提升,但更多的,还是一些上云后架构升级带来的。 阿里云:这也能很好地解释,为什么喜马拉雅今天在大模型的应用场景上走得这么超前,而且有这么多丰富的场景能够层出不穷地推出来。正是因为喜马拉雅在基础架构层面上非常扎实的改造和大数据升级之后带来的一些技术红利。 最后,想请您分享一下,您认为未来基于大模型的架构会有哪些演进的趋势? 喜马拉雅:我觉得未来模型在参数上可能会收敛。接下来模型在性能等方面上经过调优,反应速度会越来越接近于在线设备,可能时间会缩短到一秒以内。所以,未来模型会在参数大小和效果、性能上会做一个平衡。另外,数据和模型的效果有着直接的关系。未来,数据集的价值也会越来越凸显。 阿里云:确实。我们现在看到,随着基础模型能力的不断提升,基础模型的数量最终肯定是收敛的,要真正影响用户去大规模应用大模型,一定需要推理成本和框架上的优化。非常感谢您的分享,我们也期待未来喜马拉雅在AI、大模型的场景下,能够探索出更多有意思的场景,给用户带来更好的体验。 |
/ END /