“爆款”批量生成,如何实现一键创作 AI 有声绘本?

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
函数计算FC,每月15万CU 3个月
简介: 有声读物作为备受欢迎的内容形式之一,已在教育、影视、文化及娱乐等多个领域广泛应用。本方案通过云原生应用开发平台 CAP、函数计算 FC 和百炼模型服务,实现了有声绘本读物的自动化创作,解决了传统制作中步骤繁琐、周期长和高技术门槛的问题,显著提高了创作效率。

作者:寒斜

有声读物作为备受欢迎的内容形式之一,已在教育、影视、文化及娱乐等多个领域广泛应用。本方案通过云原生应用开发平台 CAP、函数计算 FC 和百炼模型服务,实现了有声绘本读物的自动化创作,解决了传统制作中步骤繁琐、周期长和高技术门槛的问题,显著提高了创作效率。


内容与动作本方案实现了从文案、声音、字幕、图像生成到视频合成的一站式自动化流程。用户无需具备复杂的编程技能,只需通过可视化工作流搭建界面,即可轻松配置和管理视频制作流程。您可以通过这个解决方案制作科普资料、儿童绘本、有声读物等内容,尝试多种内容组合实现“爆款”的一键生成。

新春佳节赢好礼,诚邀您参与函数计算新春活动!

用 AI 一键创作春节主题有声绘本、春节小知识、迎新春藏头诗等,一同记录春节美好瞬间,完成创作即可赢取精美收纳筐!

立即参与:https://developer.aliyun.com/topic/ai/audiobookflow


  • 希望利用 AI 制作高质量视频以吸引观众的内容创作者
  • 需要快速制作大量图文内容满足市场需求的营销团队
  • 期望通过 AI 生成内容提升品牌影响力的企业


使用产品


  • 云原生应用开发平台 CAP
  • 函数计算 FC
  • 大模型服务平台百炼
  • 对象存储


架构与部署


方案概览

在短视频行业快速发展的今天,内容创作的效率和质量成为平台竞争的关键。有声读物在多个领域广泛应用,但传统制作过程复杂,技术和时间成本高。因此,简化制作流程、提高效率并降低成本对于满足市场需求至关重要。


本方案使用云原生应用开发平台 CAP 构建 Web 服务,由其提供函数计算资源以及工作流能力,结合百炼模型服务实现了从文案、声音、字幕、图像生成到视频合成的一站式自动化流程,用户访问 Web 页面发起请求调用工作流,工作流向百炼模型服务发起调用,进一步整合处理后返回给用户。最终形成的运行环境与下图相似。

image.png

本方案的技术架构包括以下基础设施和云服务:


  • 1 个云原生应用开发平台 CAP 项目:用于部署有声读物 Web 服务和任务处理工作流。
  • 1 个对象存储 OSS Bucket:存储图片、音频、视频等。
  • 百炼模型服务:调用 API 完成内容生成、语音合成和字幕相关信息生成。


部署应用

请点击前往部署[1]打开我们提供的云原生应用开发平台 CAP 项目模板,参考下表进行参数配置,然后单击部署项目,最后在弹出面板中单击确认部署说明:首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面,滚动到浏览器底部单击确认授权,等待授权结束后单击返回控制台


项目 描述 示例值
项目名称 自动生成 默认
地域 FC部署地域 默认华东1(杭州)
百炼API-KEY 百炼API-KEY 部署资源中获取的百炼 API-KEY
对象存储存储桶名 下拉选择Bucket名称 ai-audiobook
函数访问OSS需要的角色及权限 函数计算访问对象存储OSS服务时使用的函数角色 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权
命名空间 自动生成,通过命名空间来区分不同的应用地址 默认
工作流访问函数需要的角色 流程运行时需要使用的服务角色,流程会使用此角色调度您的函数 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权
函数调用工作流需要的角色及权限 函数中需要基于此角色访问CloudFlow,并调用StartSyncExecution和在线查询流程 如果提示您当前选择的应用还需要额外一些权限,请单击前往授权


方案验证

一、访问示例应用

1. 应用部署完成之后按照下图找到访问地址。

image.png

2. 点击访问地址,即可打开示例应用。

image.png

二、使用官方示例,进行视频生成

1. 在视频生成时,使用默认填写的人物描述和剧本提示词进行视频生成。


a. 鼠标移动到示例 1,然后单击使用该示例

image.png

b. 单击生成视频,预计等待 2~5 分钟即可查看生成结果。

image.png

image.png


总结


至此,您已基本了解如何通过函数计算一键创作 AI 有声绘本,更多细节以及后续清理资源,欢迎您移步官网查看详情:https://www.aliyun.com/solution/tech-solution/ai-audiobook-flow


相关链接:
[1] 前往部署

https://cap.console.aliyun.com/create-project?template=ai-audiobook-flow&from=solution

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
26天前
|
人工智能 Serverless 调度
|
9月前
|
人工智能 搜索推荐 安全
我用AI写了个儿童绘本,在Amazon上架了
随着ChatGPT的讨论度愈来愈高,一些爱好者也从中做了许多新的尝试,例如从中构建小的产品闭环,又或者提升自己的工作效率。我自己和两位小伙伴也实操了一个绘本案例,分享给大家,希望大家能从实践中对AIGC有更深的感触和了解~
|
物联网 Serverless
AIGC-AI绘图-童年拾光儿童绘本插画-
AIGC-AI绘图-函数计算FC-部署自定义模型stable diffusion进行绘图
|
人工智能 机器人
ChatGPT讲故事,DALLE-2负责画出来,两AI合作出绘本
ChatGPT讲故事,DALLE-2负责画出来,两AI合作出绘本
254 0
|
机器学习/深度学习 人工智能 数据可视化
MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」
从无声视频中生成音乐?这听起来很难。由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中,提出了一种名为 “Foley Music” 的模型,仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐。
407 0
MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」
|
6天前
|
存储 人工智能 NoSQL
Airweave:快速集成应用数据打造AI知识库的开源平台,支持多源整合和自动同步数据
Airweave 是一个开源工具,能够将应用程序的数据同步到图数据库和向量数据库中,实现智能代理检索。它支持无代码集成、多租户支持和自动同步等功能。
66 14
|
7天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
134 27
|
8天前
|
人工智能 自然语言处理 搜索推荐
现在最火的AI是怎么应用到体育行业的
AI在体育行业的应用日益广泛,涵盖数据分析、伤病预防、观众体验、裁判辅助等多个领域。通过传感器和可穿戴设备,AI分析运动员表现,提供个性化训练建议;预测伤病风险,制定康复方案;优化比赛预测和博彩指数;提升观众的个性化内容推荐和沉浸式观赛体验;辅助裁判判罚,提高准确性;发掘青训人才,优化训练计划;智能管理场馆运营和票务;自动生成媒体内容,提供实时翻译;支持电竞分析和虚拟体育赛事;并为运动员提供个性化营养和健康管理方案。未来,随着技术进步,AI的应用将更加深入和多样化。
|
8天前
|
人工智能 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 7.4 应用实践之 AI大模型外脑
PolarDB向量数据库插件通过实现通义大模型AI的外脑,解决了通用大模型无法触达私有知识库和产生幻觉的问题。该插件允许用户将新发现的知识和未训练的私有知识分段并转换为向量,存储在向量数据库中,并创建索引以加速相似搜索。当用户提问时,系统将问题向量化并与数据库中的向量进行匹配,找到最相似的内容发送给大模型,从而提高回答的准确性和相关性。此外,PolarDB支持多种编程语言接口,如Python,使数据库具备内置AI能力,极大提升了数据处理和分析的效率。
33 4
|
10天前
|
人工智能 自然语言处理 数据可视化
Cursor 为低代码加速,AI 生成应用新体验!
通过连接 Cursor,打破了传统低代码开发的局限,我们无需编写一行代码,甚至连拖拉拽这种操作都可以抛诸脑后。只需通过与 Cursor 进行自然语言对话,用清晰的文字描述自己的应用需求,就能轻松创建出一个完整的低代码应用。
618 8