“爆款”批量生成,如何实现一键创作 AI 有声绘本?

简介: 有声读物作为备受欢迎的内容形式之一,已在教育、影视、文化及娱乐等多个领域广泛应用。本方案通过云原生应用开发平台 CAP、函数计算 FC 和百炼模型服务,实现了有声绘本读物的自动化创作,解决了传统制作中步骤繁琐、周期长和高技术门槛的问题,显著提高了创作效率。

作者:寒斜

有声读物作为备受欢迎的内容形式之一,已在教育、影视、文化及娱乐等多个领域广泛应用。本方案通过云原生应用开发平台 CAP、函数计算 FC 和百炼模型服务,实现了有声绘本读物的自动化创作,解决了传统制作中步骤繁琐、周期长和高技术门槛的问题,显著提高了创作效率。


内容与动作本方案实现了从文案、声音、字幕、图像生成到视频合成的一站式自动化流程。用户无需具备复杂的编程技能,只需通过可视化工作流搭建界面,即可轻松配置和管理视频制作流程。您可以通过这个解决方案制作科普资料、儿童绘本、有声读物等内容,尝试多种内容组合实现“爆款”的一键生成。

新春佳节赢好礼,诚邀您参与函数计算新春活动!

用 AI 一键创作春节主题有声绘本、春节小知识、迎新春藏头诗等,一同记录春节美好瞬间,完成创作即可赢取精美收纳筐!

立即参与:https://developer.aliyun.com/topic/ai/audiobookflow


  • 希望利用 AI 制作高质量视频以吸引观众的内容创作者
  • 需要快速制作大量图文内容满足市场需求的营销团队
  • 期望通过 AI 生成内容提升品牌影响力的企业


使用产品


  • 云原生应用开发平台 CAP
  • 函数计算 FC
  • 大模型服务平台百炼
  • 对象存储


架构与部署


方案概览

在短视频行业快速发展的今天,内容创作的效率和质量成为平台竞争的关键。有声读物在多个领域广泛应用,但传统制作过程复杂,技术和时间成本高。因此,简化制作流程、提高效率并降低成本对于满足市场需求至关重要。


本方案使用云原生应用开发平台 CAP 构建 Web 服务,由其提供函数计算资源以及工作流能力,结合百炼模型服务实现了从文案、声音、字幕、图像生成到视频合成的一站式自动化流程,用户访问 Web 页面发起请求调用工作流,工作流向百炼模型服务发起调用,进一步整合处理后返回给用户。最终形成的运行环境与下图相似。

image.png

本方案的技术架构包括以下基础设施和云服务:


  • 1 个云原生应用开发平台 CAP 项目:用于部署有声读物 Web 服务和任务处理工作流。
  • 1 个对象存储 OSS Bucket:存储图片、音频、视频等。
  • 百炼模型服务:调用 API 完成内容生成、语音合成和字幕相关信息生成。


部署应用

请点击前往部署[1]打开我们提供的云原生应用开发平台 CAP 项目模板,参考下表进行参数配置,然后单击部署项目,最后在弹出面板中单击确认部署说明:首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面,滚动到浏览器底部单击确认授权,等待授权结束后单击返回控制台


项目 描述 示例值
项目名称 自动生成 默认
地域 FC部署地域 默认华东1(杭州)
百炼API-KEY 百炼API-KEY 部署资源中获取的百炼 API-KEY
对象存储存储桶名 下拉选择Bucket名称 ai-audiobook
函数访问OSS需要的角色及权限 函数计算访问对象存储OSS服务时使用的函数角色 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权
命名空间 自动生成,通过命名空间来区分不同的应用地址 默认
工作流访问函数需要的角色 流程运行时需要使用的服务角色,流程会使用此角色调度您的函数 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权
函数调用工作流需要的角色及权限 函数中需要基于此角色访问CloudFlow,并调用StartSyncExecution和在线查询流程 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权


方案验证

一、访问示例应用

1. 应用部署完成之后按照下图找到访问地址。

image.png

2. 点击访问地址,即可打开示例应用。

image.png

二、使用官方示例,进行视频生成

1. 在视频生成时,使用默认填写的人物描述和剧本提示词进行视频生成。


a. 鼠标移动到示例 1,然后单击使用该示例

image.png

b. 单击生成视频,预计等待 2~5 分钟即可查看生成结果。

image.png

image.png


总结


至此,您已基本了解如何通过函数计算一键创作 AI 有声绘本,更多细节以及后续清理资源,欢迎您移步官网查看详情:https://www.aliyun.com/solution/tech-solution/ai-audiobook-flow


相关链接:
[1] 前往部署

https://cap.console.aliyun.com/create-project?template=ai-audiobook-flow&from=solution

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
5月前
|
人工智能 语音技术 Docker
揭秘8.3k star 开源神器 VoiceCraft 用AI革新有声内容创作,只需几秒录音
VoiceCraft 是一款开源语音编辑与文本转语音(TTS)工具,仅需几秒录音即可实现语音克隆、插入、删除、替换等操作,支持零样本编辑和高自然度语音生成。适用于播客、短视频、有声书等内容创作场景,具备本地部署能力,已在 GitHub 获得 8.3k 星标。
639 0
|
12月前
|
人工智能 Serverless 调度
|
10月前
|
存储 人工智能 Cloud Native
“爆款”批量生成,如何实现一键创作 AI 有声绘本?
“爆款”批量生成,如何实现一键创作 AI 有声绘本?
271 0
|
人工智能 搜索推荐 安全
我用AI写了个儿童绘本,在Amazon上架了
随着ChatGPT的讨论度愈来愈高,一些爱好者也从中做了许多新的尝试,例如从中构建小的产品闭环,又或者提升自己的工作效率。我自己和两位小伙伴也实操了一个绘本案例,分享给大家,希望大家能从实践中对AIGC有更深的感触和了解~
|
物联网 Serverless
AIGC-AI绘图-童年拾光儿童绘本插画-
AIGC-AI绘图-函数计算FC-部署自定义模型stable diffusion进行绘图
|
人工智能 机器人
ChatGPT讲故事,DALLE-2负责画出来,两AI合作出绘本
ChatGPT讲故事,DALLE-2负责画出来,两AI合作出绘本
331 0
|
机器学习/深度学习 人工智能 数据可视化
MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」
从无声视频中生成音乐?这听起来很难。由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中,提出了一种名为 “Foley Music” 的模型,仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐。
592 0
MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」
|
3月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
842 45
|
4月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1097 51
|
3月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
536 30