耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景

简介: 喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》

作者|张申宇

编辑|盖虹达


作为“耳朵经济”发展的领军者,喜马拉雅坐拥数以亿计的月活流量,却没有停止创新和思考,如何让这个庞大的用户群体有更好的体验,并在庞大的数据基础上进一步实现商业创新。


数据显示,2021年时中国在线音频市场的复合年增长率已经超过了60%,预计2026年市场规模将增长至1204亿元人民币。喜马拉雅看到了音频市场在终端应用方面(如天猫精灵和汽车内嵌系统)有着市场巨大的潜力。


向来注重技术投入的喜马拉雅以科技赋能文化,站在一个新的角度重新思考产品创新、业务创新,以更好地服务客户,让客户满意,并基于对用户的高质量服务来实现商业价值。


以数字技术让喜马拉雅实现突破,成为公司寻找新增长的重要抓手。正如喜马拉雅创始人兼CEO余建军曾表示——喜马拉雅是一家科技驱动的内容公司,科技是手段,文化是目的。



大数据上云


2012年8月,喜马拉雅在上海诞生。历经十余年的耕耘,喜马拉雅成为中国在线音频市场的“领跑者”。


据公开数据显示,2022年前三季度,喜马拉雅全场景月活跃用户达2.82亿,包括1.22亿移动端平均月活跃用户,移动端用户日均收听时长为140分钟。2021年,喜马拉雅移动端主应用程序平均月活跃用户在中国在线音频应用程序中排名第一。截至2021年年底,喜马拉雅已累积了包含超过100个品类的3.4亿条音频内容。


用户量庞大,停留时间长,这是很多平台难以企及的数据。但喜马拉雅并未止步,一直在思考,在新的技术时代,如何用高质量的服务来实现商业价值。由此也引发了喜马拉雅对未来架构以及大数据、AI等技术的思考和决策——打造面向未来的云原生大数据平台,使得数据基建未来更有效地支持业务的长期发展。


从业务需求而言,AI技术应用对底层数据的需求是数据存储更多、计算更快、弹性扩容能力更强;管理层精准决策对数据的需求是统一数据口径、数据更精准、更实时;数据平台要足够弹性敏捷,支持业务洪峰增长。阿里巴巴集团副总裁,阿里云智能互联网&新金融事业部总经理刘伟光给出的建议是:大数据就是未来,将数据上云,构建云原生大数据平台,激活更多数据价值,基于数据精准、智能决策,解决业务发展的关键战略问题。


这与喜马拉雅CTO姜杰,基于垂类场景领先的AI和数据能力,结合业务流程的数智化升级,驱动喜马拉雅的产品与服务不断创新的技术思考高度一致——喜马拉雅技术团队对于重构数据底座的决心,以及为未来布局大数据和AI,正是喜马拉雅决定业务全面上云的核心因素。


彼时,阿里云推出了新一代云原生数据湖3.0技术,还手握绝对领先的数据中台建设、智能数据决策多方面经验,双方一拍即合。


于是,喜马拉雅下一个十年的开端,多了一位新伙伴——阿里云。



全面提速


在大数据上云这件事上,喜马拉雅之所以会选择阿里云,一个原因就是阿里云拥有“过硬”的数据技术实力以及非常成熟的大数据产品体系;此外,还有很重要一点,即阿里云在开放开源方面也做得很好。


“阿里云的开源大数据平台可以兼容业界开源大数据协议,在合作的过程中,我们也能感受到阿里云开源开放的态度,这点非常符合喜马拉雅坚持走开源大数据的发展理念。”喜马拉雅大数据工程负责人陈叶超强调。


据陈叶超回忆,喜马拉雅从2022年初决定了数据上云的发展方向后,开始与阿里云接触合作,并在2022年上半年探索落地了大数据混合云方案,有了混合云架构的落地经验,大数据相关业务也感受到了弹性云原生带来的敏捷便利性,同时打消了技术上的一些顾虑,在2022年7月开始与阿里云接触全面的上云方案,并在2022年11月达成合作意向,确定了采用基于开源的大数据平台+数据中台的形式,推进云原生大数据战略。


确定了数据上云的发展理念,选定了伙伴,下一步就要一起奔赴目标。


喜马拉雅数据上云主要希望达成四个目标:首先,新架构要满足未来发展需求,同时满足数据以及AI的场景;其次,新的系统要足够“弹性”,能做到“伸缩自如”;再次,要高度兼容现有系统;最后,在技术升级的过程中,能够不中断业务,并能对现有系统进行梳理优化。“我们希望能在技术升级的同时,对现有的数据架构同时进行优化,并具备支持AI场景的能力。”陈叶超指出。


根据喜马拉雅上述需求,在2022年初,喜马拉雅与阿里云一起落地了大数据混合云架构,数据依然存储在IDC资源中,同时调用云上资源补充传统IDC机房平台的计算资源缺口,在短时间内满足了喜马拉雅数据量、计算量大的需求。


混合云架构验证了阿里云开源大数据的产品能力,到2022年6月,为了全面升级云原生大数据战略,喜马拉雅与阿里云开始基于阿里云全新一代数据湖技术——阿里云数据湖3.0,构建了存算分离的云原生大数据平台,正式开启了大数据全面上云之路。


这是一套敏捷、灵活、成本更低的“存算分离”体系,彻底颠覆了原本在Hadoop体系下“存算一体”的数据平台,以及传统IDC架构无法灵活扩容、缩容等痛点,同时还大幅降低了大数据运维成本,提升了数据产出效率。


双方利用包括EMR Hadoop+OSS-HDFS、EMR StarRocks、EMR Kafka、EMR Clickhouse等在内的多个技术,全面重构了喜马拉雅大数据底座。


双方这一系列合作都是基于阿里云EMR架构进行的,这与喜马拉雅秉持开源技术的思考“不谋而合”,这也是促成双方合作的重要因素之一。


“阿里云EMR架构与业界所有开源协议兼容,免去了系统改造的困扰,”阿里云互联网解决方案架构师张春华表示,“该架构可以在不破坏客户原有系统的前提下,为客户提供一个高效、稳定、安全的开源环境,降低客户迁移成本,确保0故障、0打扰迁移上云。”


当然,在数据上云的过程中,除了开源外,喜马拉雅也存在与其他企业数据上云时一样的顾虑——业务间断风险。陈叶超表示,业务不能间断是喜马拉雅数据上云的前提之一。


为了确保业务的连续性,喜马拉雅技术团队与阿里云团队一起反复打磨上云方案,最终选择了“双跑”作为数据迁移的方式,“我们在‘云上’和‘云下’分别建立了两套新系统,以及相应的资源,然后结合平台进行适配。以‘双跑’的形式完成了‘丝滑’、零故障的过渡。”陈叶超指出。


与此同时,喜马拉雅还与阿里云合作建设企业数据中台。喜马拉雅大数据总负责人郑栋表示:“喜马拉雅希望通过建设数据中台,让业务决策敏捷、智能、精准,驱动企业经营效率提升,实现业务价值。”


在搭建数据中台的过程中,阿里云基于瓴羊“1+N+N”的数智化决策与运营实践,以及QuickBI产品在帮助喜马拉雅构建自己的数智决策系统中起到了关键作用。


通过QuickBI产品,瓴羊与喜马拉雅共建了自上而下的决策分析体系,提升了企业内部人员数据分析的效率,实现业务流程和数据分析直接协同,构建了数据消费和价值洞察的企业文化。


“如何通过计算、存储等能力,将数据真正用起来,实现数据资产化,并为业务发展提供指引,这是数据底座所具备的核心能力。”正如刘伟光所言,大数据上云是实现数据资产化中重要的一步。



实时湖仓一体、AI创新产品.....

共创未来更多可能


通过大数据平台+数据中台的建设,喜马拉雅重构了数据底座,真正具备了更稳定、更高效、更智能化的应用数据的能力。


喜马拉雅大数据全面上云架构升级后,实现了秒级弹性伸缩,减少了数万张表,任务性能提升40%以上,即席查询性能提升30%以上,大幅提升的数据的时效性和开发效率。


在此基础上,陈叶超表示,喜马拉雅接下来还将和阿里云这个“志同道合”的合作伙伴共同推进云上大模型AI创新、实时湖仓一体等技术的落地,为未来产业发展进行布局。


以实时湖仓一体技术为例,该技术对于类似喜马拉雅这种在线音频互联网企业,以及诸如淘宝、天猫等在线购物应用企业而言,是寻找新的增长点的重要抓手。通过实时湖仓一体技术,可以在短时间内快速抓住用户的兴趣点,通过用户浏览、搜索等行为,进行更智能化的推荐。通过定制化的服务,为企业提供精准营销,提升用户洞察和服务。


通过云计算的能力,能对过去不能实时计算、实时化处理的数据,实现实时化处理,“阿里云和喜马拉雅正在公共云上探索一条没有人走过的路。”刘伟光说。


除了湖仓一体技术外,据喜马拉雅CTO姜杰介绍,“借助阿里云的E-MapReduce和OSS-HDFS,我们构建了喜马拉雅云原生大数据平台,并结合喜马拉雅领先的情感语音AI,推动业务创新,为用户提供更优质的内容消费和更智能的语音交互体验。”


据了解,喜马拉雅开发出基于语音对话的大模型,与传统的文本转语音(TTS)技术不同。传统TTS要求声音输入的清晰度非常高,通常需要录制8小时以上的语音才能进行模型训练。但是,喜马拉雅语音对话大型模型采用了一种全新的方法。它只需要用户录入不超过10句的语音内容,然后通过后台的语音对话大型模型进行训练和推理,就能够生成具有韵律、语调和口气的人工智能语音内容。更令人兴奋的是,这个模型还可以实现"Zero-Short"语音音色的输出,使用户能够用自己的声音来聆听播客、有声书、新闻等内容。在新的数据底座的支持下,这项将AI与大数据结合的“新尝试”也得以“照进现实”。


喜马拉雅和阿里云的种种尝试,正走在整个互联网行业的最前沿,致力于抓住智能时代的机会。在未来诸多不确定性中,有一点可以确定——云计算将构建AI进步的算力基石。


在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。阿里云也将始终秉持开源开放的态度,以长期合作伙伴的角色陪伴客户共同探索更好的技术驱动,共同前行。

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
3天前
|
Cloud Native Devops 持续交付
构建未来:云原生技术在企业数字化转型中的关键作用
【5月更文挑战第30天】 随着企业加速其数字化转型的步伐,云原生技术已成为推动创新和维持竞争力的重要驱动力。本文探讨了云原生技术的核心组件,包括容器化、微服务架构、持续集成/持续部署(CI/CD)、以及DevOps实践,并分析了它们如何共同促进敏捷性、可扩展性和可靠性。我们深入讨论了这些技术如何帮助企业实现快速迭代,优化资源使用,以及提高服务质量,同时降低运营成本。通过案例研究和行业趋势分析,本文揭示了云原生技术在未来企业IT战略中的关键地位,并为采纳这些技术的决策者提供了见解。
|
3天前
|
运维 Cloud Native 安全
构建未来:云原生技术在企业数字化转型中的应用
【5月更文挑战第30天】 随着信息技术的不断进步,企业的数字化转型已经成为不可逆转的趋势。在这个过程中,云原生技术以其独特的优势,如弹性伸缩、微服务架构和持续交付等,为企业提供了强大的技术支持。本文将深入探讨云原生技术的关键组成部分,以及它们如何帮助企业实现敏捷开发和自动化运维,从而加速数字化转型的步伐。
|
1天前
|
监控 Cloud Native 安全
云原生技术:推动企业数字化转型的引擎
随着云计算技术的不断发展,云原生技术已经成为了企业数字化转型的重要引擎。本文将深入探讨云原生技术的定义、优势以及在企业中的应用,帮助读者更好地理解这一新兴技术。
|
1天前
|
资源调度 运维 Cloud Native
云原生架构技术之无服务器技术
当这些BaaS云服务日趋完善时,无服务器技术(Serverless)因为屏蔽了服务器的各种运维复杂度,让开发人员可以将更多精力用于业务逻辑设计与实现,而逐渐成为云原生主流技术之一。
10 5
|
1天前
|
运维 负载均衡 Cloud Native
云原生架构技术之云原生微服务
微服务模式将后端单体应用拆分为松耦合的多个子应用,每个子应用负责一组子功能。这些子应用称为“微服务”,多个“微服务”共同形成了一个物理独立但逻辑完整的分布式微服务体系。这些微服务相对独立,通过解耦研发、测试与部署流程,提高整体迭代效率。此外,微服务模式通过分布式架构将应用水平扩展和冗余部署,从根本上解决了单体应用在拓展性和稳定性上存在的先天架构缺陷。但也要注意到微服务模型也面临着分布式系统的典型挑战:如何高效调用远程方法、如何实现可靠的系统容量预估、如何建立负载均衡体系、如何面向松耦合系统进行集成测试、如何面向大规模复杂关联应用的部署与运维。
12 4
|
1天前
|
Kubernetes 负载均衡 Cloud Native
云原生架构之容器技术
容器作为标准化软件单元,它将应用及其所有依赖项打包,使应用不再受环境限制,在不同计算环境间快速、可靠地运行。
16 9
|
2天前
|
Cloud Native 持续交付 云计算
云原生技术:构建现代应用的基石
【5月更文挑战第31天】本文深入探讨了云原生技术的核心概念、优势以及在现代应用开发中的关键作用。我们将通过分析云原生的主要组件,如容器化、微服务和持续集成/持续部署(CI/CD),来揭示它们如何共同推动软件开发的创新和效率。此外,文章还将讨论云原生技术在安全性、可扩展性和成本效益方面的考量,为读者提供对这一变革性领域的全面理解。
|
2天前
|
Cloud Native Devops 持续交付
云原生技术:企业数字化转型的引擎
【5月更文挑战第31天】随着信息技术的飞速发展,云计算已经成为了企业数字化转型的重要推动力。本文将深入探讨云原生技术的概念、优势以及在企业中的应用,帮助企业更好地理解和利用这一技术,实现数字化转型。
|
2天前
|
机器学习/深度学习 算法 Cloud Native
利用机器学习进行情感分析:从理论到实践云原生技术在现代软件开发中的应用与挑战
【5月更文挑战第31天】本文旨在深入探讨机器学习在情感分析领域的应用。首先,我们将解释什么是情感分析以及为什么它在今天的世界中如此重要。然后,我们将详细介绍几种主要的机器学习算法,包括决策树、随机森林和神经网络,以及它们如何被用于情感分析。最后,我们将通过一个实际的案例研究来展示这些理论在实践中的应用。
|
2天前
|
Cloud Native 物联网 持续交付
未来科技浪潮:区块链、物联网与虚拟现实的融合创新云原生技术:重塑IT架构的未来
【5月更文挑战第31天】在信息技术飞速发展的今天,新兴技术如区块链、物联网和虚拟现实等正成为推动社会进步的重要力量。本文将探讨这些技术的发展趋势及其在各领域的应用前景,揭示它们如何相互融合,共同塑造一个智能化、互联的未来世界。 【5月更文挑战第31天】本文深入探讨了云原生技术的兴起及其对传统IT架构的颠覆性影响。通过分析云原生的核心概念,如微服务、容器化、以及持续集成/持续部署(CI/CD),文章揭示了这些技术如何促进更高效、灵活和可扩展的软件开发实践。同时,本文还讨论了企业在采用云原生技术时面临的挑战与机遇,并展望了云原生技术在未来IT领域的发展趋势。