创新场景丨大模型初创公司出海,云计算护航

简介: 开启全球化征程的企业需要的不仅是优秀的技术产品,还有成熟的服务体系,让企业更专注业务突围,无后顾之忧。

image.png

2024 年年初,Sora 的问世让视频生成赛道成为了全球 AI 界瞩目的焦点。

自 2023 年创立的爱诗科技一直布局海外 AI 视频市场,对赛道内变化感受深刻——此前市场仍在“实验创意” 阶段,直到 Sora 震撼了行业内外,吸引了资本和媒体的目光,让视频生成从“小众玩具”直接提升到战略高地,全球科技巨头也纷纷入局。

如何抢占先机并吸引用户生成 AI 视频?爱诗科技选择加速技术迭代——自公司成立以来便聚焦视频大模型,在 Sora 发布前已推出首代模型 PixVerse,现已更新至第六代。如今,PixVerse(拍我 AI) 已成为全球用户规模最大、生成速度最快、质量最高的视频大模型之一,短短两年间,用户量已突破 6000 万。

但这背后面临的是克服技术迭代和出海拓展的双重挑战。对于一款布局全球的应用而言,如何有效利用分散在全球各地的数据进行有效训练和提升?如何满足当地合规需求的跨境数据传输?爱诗科技于今年和阿里云开始合作。

赋能多模态大模型全球布局

视觉内容正成为人们获取信息最重要的媒介。但在短视频平台上,大概只有不到 10% 的用户会创作或者发布视频,因为大部分用户都存在“心理门槛”——怎么拍好视频、怎么剪辑、怎么配音配乐、怎么让自己创意发布之后不会让朋友嘲笑......爱诗科技联合创始人谢旭璋在今年 5 月份的阿里云 AI 出海峰会上表示,希望能用人工智能帮助全球这么多没有做过视频的人,用视频第一次来分享生活,传递情感,分享快乐。

不过,这一看似简单的想法背后面临的是技术实现的现实挑战。与文生文的大语言模型不同的是,多模态视频大模型需要处理多模态的数据,对 GPU 的显存能力提出了更高的要求。与此同时,C 端用户对生成视频速度要求高,在高并发的场景下,如何降低多模态大模型的推理延迟,给用户带来更好的使用体验?

在爱诗科技致力于多模态大模型产品落地的过程中,主要面临着三大挑战:首先是海量训练数据的迁移与归集问题;其次是实时数据处理能力的提升;最后则是优化资源利用效率,以实现提质增效的目标。

首先,由于爱诗科技全球化的布局,致使数据分散在世界各地,并且需要与线下 IDC 以及其他云厂商进行资源的调用和交互,这就牵扯到了海量数据汇总以及跨区域传输数据,比如,爱诗科技训练数据分布在全球多个地域,需要统一汇总管理,这就为整体训练与推理过程中,大数据迁移和成本提出了挑战。

同时,在底层视频模型上,爱诗科技采取 Diffusion+Transformer(DiT)架构,在模型训练和推理过程中需要处理大量视频、文本和元数据,对数据库的实时分析、多模态数据处理和高并发的查询效率提出了较高要求。

此外,爱诗科技对训练和推理平台的性能要求高,需要提升资源利用率和产品界面使用体验。

计算资源方面,因为爱诗科技全球化的布局,尤其是在北美洲、中美洲、欧洲等地区用户群体较大,对于该地区的本地计算节点需求大。而自建成本高,且建设周期长,所以对于爱诗科技而言,亟需一家具备全球化云计算节点布局能力的服务商,承担其在海外的业务负载。

因为多模态大模型相对大语言类模型而言,对 GPU 的使用率及要求更高,且爱诗科技业务具有较强的云计算弹性能力需求,这也对其云服务商的 GPU 弹性计算能力提出了更高的要求。

此外,谢旭璋指出,爱诗科技的业务由于采用了多模态大模型,对多模态数据处理提出了更高的技术要求。这不仅体现在对 GPU 芯片的高利用率需求上,还对并行计算能力提出了更为严苛的标准。此外,鉴于其全球化布局及庞大的用户基础(超过 6000 万用户规模),也需要高并发云计算弹性确保为用户提供稳定、高效的服务体验。

除了对于云计算性能上的要求之外,对于初创型企业而言,成本也是一个不能不谈的话题,对于爱诗科技而言亦是如此。

具体来看,作为一个成立两年多的团队,爱诗科技虽然在大模型研发与应用方面有着丰富的经验,并保持高度灵活性。仅两年时间,公司已成功迭代六代大模型产品。在快速迭代产品的过程中,如何以更低成本、更高效地利用云计算的能力,成为了爱诗科技和阿里云共同关注的核心方向。

云上部署:让全球化业务轻装上阵

如何服务好短短两年间内积累了超过 6000 万名用户?爱诗科技的答案是:找到一个靠谱的全球化云服务商。

在 2023 年年底,爱诗科技决定布局海外市场之初,就与阿里云展开了深度合作。

最初,爱诗科技选择与阿里云合作,主要是因为阿里云在全球范围内拥有广泛的云服务节点,并且具备强大的云计算弹性能力。目前阿里云在全球 29 个地域运营着 89 个可用区,是亚太规模第一的云服务商。爱诗科技决定与于阿里云一同探索多模态视频生成大模型如何为全球化海量用户提供优质的体验和服务。

首先,在跨区域数据传输方面,为了满足“训练数据统一处理”的业务需求,爱诗科技经由阿里云的多 EIP 和共享带宽等方式方法提升公网下载速度,通过 OSS 跨区数据复制实现了全球异地容灾备份以及全球数据加速分发加速。

在数据处理方面,爱诗科技最初采用的是关系型数据库,然而爱诗科技的数据分布广泛,遍布全国乃至全球各地,海量数据的高效汇集与处理面临挑战。

在经过权衡之后,爱诗科技选择开始使用阿里云实时数仓 Hologres,基于分布式架构的 Hologres,支持 PB 级数据分析且具备高效的数据压缩能力,通过实时写入与更新机制实现低延迟响应,在解决爱诗科技性能瓶颈问题的同时,还满足了实时数据分析和高并发的需求。

在此基础上,爱诗科技还选择了使用阿里云人工智能平台 PAI 平台支持大模型的训练。PAI 平台是一款面向企业级用户和开发者的一站式 AI 平台,作为模型训练与推理的一站式平台和一体化智算管理与调度系统,为开发者、模型创新者提供了底层核心技术支持。在接入 PAI 平台之后,爱诗科技可以将更多的精力放在其专注的大模型迭代研发上,搭建、调优和运维等操作完全不需要其操心,随时可以使用高扩展性、高性能、高性价比的 AI 训练资源和环境,爱诗科技实现了灵活的、细颗粒度的资源管控,满足了高效、动态的调度和无感切换需求,提升算力利用率,以更小的硬件成本,获得更大的算力供给。

与此同时,阿里云通过采用标准化云资源调度系统,搭建统一架构,从而能帮助爱诗科技实现全球资源调度,确保跨国业务体验一致性,并且可以凭借全球范围内的云基础设施覆盖,帮助爱诗科技实现业务就近部署在确保了业务的一致性与低延时的同时,还能节省数据传输过程中的成本,从而降低整体业务成本。

提质、高效,全都要

在出海寻求新增量的同时,企业近年来都开始寻求提质增效的路径,爱诗科技也不例外。

多模态大模型底层数据集的规模比大语言类模型所需数据集规模大很多,且数据标注成本相对较高。

以大模型提示词场景为例,因为爱诗科技的大模型产品相较于传统的文生视频的大模型存在些许差别。传统文生视频大模型提示词需要用户自己撰写,爱诗科技的文生视频大模型为了让全体用户都能获得比较好的使用体验,采用了模块化提示词的模式,相较于传统模式模块化提示词在应用过程中,对于算力波动性需求较大,还需要同时进行文本解析和高分辨率图像渲染的操作,对 GPU 显存,以及并行计算能力要求相对较高。为此,爱诗科技也对阿里云提出了新的需求——实现跨模态数据交互机制,这其中还包括了缓存的高性能处理等需求。

基于此,阿里云通过数据加载优化和集群通信优化 ACCL 通信库大幅提升 GPU 利用率,通过分布式训练管理平台、云原生交互式编程环境以及训练加速框架,大幅提升了 AI 作业效率。

除此之外,在整体云性能表现层面,阿里云提供自助式云架构管理产品,让爱诗科技省去了开发部署的时间。

在最近的一次部署中,爱诗科技采用了 CADT(云速搭) 的部署方式,实现了分钟级 GPU 云服务器部署和业务上线,显著降低了应用云上管理的难度和时间成本。同时,爱诗科技还可以对云上架构方案的成本、部署、运维、 回收进行全生命周期的管理。

相对于爱诗科技这样的视频生成初创公司而言,其团队在大模型领域拥有深厚的专业知识和技术积淀,但在优化云服务、确保安全可靠的同时最大限度地降低云计算成本等方面的经验仍略有欠缺。

面向这样的初创企业,阿里云提供的也不仅是产品,更为其提供了“管家”式的服务,不仅会分享最佳实践的案例,还会手把手传授如何更好利用云服务弹性能力、如何利用好云安全中心确保安全等方面的经验。

而这种做好用户底层“管家”的模式,用户可以将更多的精力专注在业务层的开发上面,一方面省去了底层基础架构方面的框架搭建与后续运维时间;另一方面,也让缺乏云应用经验的企业避免了在使用云计算赋能业务过程中,出现浪费资源、操作不当等情况的发生。

接下来,爱诗科技将与阿里云深化云资源合作,为全球 AI 视频生成用户提供更加稳定、高效的服务。双方将扩大在云计算、数据存储及大模型应用等多个领域的合作,推动 AI 视频生成技术的持续发展。

相关文章
|
3月前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
445 8
|
4月前
|
传感器 人工智能 算法
场景入选|TsingtaoAI基于DeepSeek的具身智能实训入选河北省垂直大模型应用场景名单
河北省网络社会组织联合会正式公布《垂直大模型应用场景征集结果名单》,TsingtaoAI自主研发的“基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能”成功入选河北省15个标杆应用场景。这一成果标志着TsingtaoAI在具身智能与大模型融合领域的技术创新与落地能力获得政府及行业权威认可,同时也为人工智能技术与实体产业深度融合提供了可复制的示范案例。
152 0
|
6月前
|
人工智能 自然语言处理 机器人
创新场景丨大模型时代,重塑智能终端新体验
大模型为智能终端带来的变革是全方位的,但挑战也同样显而易见。云侧部署的大模型加端侧应用的大模型是综合平衡性能、成本、功耗、隐私、速度之下的最佳选择。
|
4月前
|
存储 人工智能 安全
自媒体创作场景实践|通义千问3 + MCP=一切皆有可能
本文介绍了通过MCP(Model Context Protocol)结合通义千问大模型实现跨平台、跨服务的自动化任务处理方案。使用Qwen3-235B-A22B模型,配合ComfyUI生成图像,并通过小红书等社交媒体发布内容,展示了如何打破AI云服务的数据孤岛。具体实践包括接入FileSystem、ComfyUI和第三方媒体Server,完成从本地文件读取到生成图像再到发布的全流程。 方案优势在于高可扩展性和易用性,但也存在大模型智能化不足、MCP Server开发难度较大及安全风险等问题。未来需进一步提升模型能力、丰富应用场景并解决安全挑战,推动MCP在更多领域落地。
1160 27
自媒体创作场景实践|通义千问3 + MCP=一切皆有可能
|
3月前
|
数据采集 自然语言处理 调度
优化通义大模型推理性能:企业级场景下的延迟与成本削减策略
本文基于金融、电商、医疗等领域的实战经验,深入探讨通义千问等大模型的推理优化技术栈。从计算图优化、批处理策略、量化压缩到系统架构四个维度展开,结合Python代码示例与压力测试数据,提供企业级解决方案。针对延迟敏感、高吞吐及成本敏感场景,分析性能瓶颈并提出算子融合、动态批处理、混合精度量化等方法,同时设计分布式推理架构与冷启动优化策略。通过案例展示,如电商大促场景优化,实现峰值QPS提升6.5倍、P99延迟降低53%、月度成本下降62%。文章还提供优化实施路线图,助力企业分阶段落地技术方案。
358 4
|
3月前
|
人工智能 Cloud Native 数据可视化
微医控股与阿里云达成战略合作,双方将携手基于通义千问大模型联合打造医疗全场景智能体,共同构建医疗垂类大模型
2025年6月17日,微医控股与阿里云达成战略合作,共建医疗AI基座及医疗全场景智能体。双方将基于通义千问大模型打造医疗垂类大模型,升级微医“5+1”智能体,并在诊断、用药、健康管理等环节深化应用。微医将结合阿里云技术优势推进IDC上云,助力AI+医疗基础设施建设,共同制定行业标准并推广城市级AI数字健共体。目前,微医AI服务已连接全国1.2万家医院和30万名医生,健康管理会员超100万。
529 1
|
5月前
|
SQL 数据可视化 安全
通义灵码进阶指南:解锁智能编程的深度技巧与高阶场景实战
本文深入探讨了通义灵码从基础代码补全到全流程研发加速器的升级路径,揭秘企业级深度集成方案。内容涵盖核心能力再认知(如智能维度拆解与硬件级优化)、精准控制技术(如结构化指令模板与上下文锁定)、企业级应用(私有知识库构建与研发流水线增强)以及高阶场景实战(架构可视化重构与多模态交互)。同时提供避坑指南、效能度量体系,并展望研发智能体的未来影响,助你实现编码效率300%提升。
275 39
|
5月前
|
运维 监控 数据可视化
产品测评 | 大模型时代下全场景数据消费平台的智能BI—Quick BI深度解析
Quick BI是阿里云旗下的全场景数据消费平台,助力企业实现数据驱动决策。用户可通过连接多种数据源(如本地文件、数据库等)进行数据分析,并借助智能小Q助手以对话形式查询数据或搭建报表。平台支持数据可视化、模板快速构建视图等功能,但目前存在不支持JSON格式文件、部分功能灵活性不足等问题。整体而言,Quick BI在数据分析与展示上表现出强大能力,适合业务类数据处理,未来可在智能化及运维场景支持上进一步优化。
|
6月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
353 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
|
6月前
|
人工智能 自然语言处理 安全
创新场景丨后土“量地”,跨模态大模型让自然资源管理有“速度”更有“温度”
“通过需求引领、底座支撑、数字转型、场景驱动、智慧赋能,全面支撑自然资源数字化治理能力提升,最终答好自然资源数字化治理过程中的必答题。

热门文章

最新文章