绘本生产制作与多渠道多端消费

简介: 互联网时代,儿童阅读市场日益渴求内容呈现形态的数字化、多元化,儿童读物原始的线 下实体出版生产模式,已不满足市场需求。市面上已有不少团队专门做数字化绘本生产,然而 投入成本巨大,我们通过实际的少儿绘本业务做切入口,进行了儿童阅读内容的跨媒介生产、 分发和消费的全链路探索。

作者| 阿里文娱开发工程师 归湖

互联网时代,儿童阅读市场日益渴求内容呈现形态的数字化、多元化,儿童读物原始的线 下实体出版生产模式,已不满足市场需求。市面上已有不少团队专门做数字化绘本生产,然而 投入成本巨大,我们通过实际的少儿绘本业务做切入口,进行了儿童阅读内容的跨媒介生产、 分发和消费的全链路探索。

一、绘本生产制作工具

绘本的高质量生产是绘本内容分发消费的前提。绘本的生产制作工具将绘本格式标准化, 将不同版权方提供的不同绘本素材进行加工处理,使其具有更加丰富的内容形式,融合图片、 音频、文字高亮、伴读等播放功能。

1. 绘本生产目标

绘本格式标准化:将不同版权方提供的不同格式绘本原素材进行格式标准化,能方便的对 绘本进行分发与消费。
高亮跟读绘本制作:带高亮跟读功能的绘本更符合儿童的阅读模式,能让其阅读时更加专注。如何快速的为图片以及音频中的每个文字添加准确的时间戳,是该功能的一大挑战。
一次制作多端使用:实现一次制作多端适配,即绘本制作一次,能够同时满足小屏端和大 屏端的要求,减少绘本制作成本。
绘本预览工具以提升制作质量及效率:绘本上线之前需要对绘本质量进行严格把关,制作出来的绘本质量是否符合标准,是否可播,需要提供预览工具以及自动化的校验手段来把控。

2. 绘本生产具体方案

1)绘本格式标准化方案 绘本本身提供的功能和其实现方式,目前业界并没有标准的定义,基本按照自己的提供的
内容和能力的私有协议定义,各不相同,因此各个版权方提供的绘本原始素材不同。少儿绘本
生产需要兼容不同的素材,并且制定标准的绘本格式,提高运营标准化制作能力,以提高绘本分发消费的效率。因此,对绘本的格式提出了以下几个要求:

image.png

图 1-1 绘本格式标准化

a)标准化:不将业务逻辑掺杂进格式的定义,功能点都能够通用化,对于具体的实现方案没有强;
b)协议扩展性:新功能的增加,尽可能“新增描述”,不用动基础的定义结构,从而去保证兼容性,协议的定义要尽可能把未来可能的扩展形式考虑进去;
c)向前向后兼容性:向前兼容——按低版本实现的绘本播放器,打开高版本格式的绘本时,能够最大程度的展现低版本已实现的功能,忽略高版本中新增的功能。向后兼容——按高版本 格式实现的绘本播放器,能够打开低版本的绘本,并且 100%保留低版本已定义的功能;
d)适配性:制作出的绘本如何适配各种不同类型、分辨率的手机; e)性能与实现成本:有一些技术手段可以帮助缩小资源大小、缩小资源加载速度、内存占用等,但会增加实现成本。设计时尽可能保留后续优化的可能性和兼容性。
2)高亮跟读智能化解决方案
目前市面上的电子绘本大多数都是 PDF 或者图片的形式,只能以电子书的方式进行阅读, 不支持高亮跟读的阅读模式。绘本生产制作工具期望通过一种方案,将电子绘本的原始物料加工成可支持高亮跟读阅读模式的电子绘本,使绘本内容更加丰富,并且带高亮跟读功能更能符 合儿童的阅读模式。
绘本原始素材只要分为两种,图片(PDF)或图片(PDF)+音频的格式。 对于只有图片或者 PDF 的绘本,首先需要将图片中的文本,合成音频文件。借助达摩院的语音合成 TTS 技术,通过先进的深度学习技术,将文本转换成自然流畅的语音。它提供了不同
的语音模型可供选择,并提供调节语调、语速和音量等功能,合成指定格式(mp3 或 wav)的音频文件。

image.png

制作高亮跟读绘本最重要的是得到音频中每个文字精确的时间戳,这边借助达摩院提供的 实时语音识别技术,将中文或英文的音频转成文字以及获得每个文字的时间戳。由于达摩院对 语音的操作只支持 8K 和 16K 采样频率的音频,版权方提供的绘本音频大多都是 44.1K 采样率 的音频,因此在转换之前需要做一次音频重采样,转换音频的采样率。获取音频中文字的时间 戳具体流程如下:

image.png

3)一次制作多端适配解决方案
绘本优先投放在小小优酷独客,再在优酷主客、PAD 以及 OTT 端进行分发,不同分辨率的 端对绘本图片的分辨率要求不同,为平衡性能及体验以及降低制作成本,绘本生产期望一次生 产,多端使用。适合小屏端的绘本在大屏端会出现图片模糊的情况,但是适合大屏端的绘本会 使得绘本 zip 包过大,影响小屏端绘本的下载速度和用户的阅读体验,需要去平衡这个问题。
基于上述考虑,在制作绘本的时候,优先制作高分辨率的绘本,然后等比例缩放图片、字 体、文本框等参数,后台自动生成低分辨率绘本,在不同端下发对应的绘本,这样便可以一次 制作,多端使用,减少人工制作成本,提高绘本制作效率。
4)绘本预览工具以及自动化校验方案 绘本的质量直接影响用户对绘本的阅读体验。绘本制作完成之后,需要对绘本的质量进行校验才能上线,因此,绘本生产工具中提供的预览功能,将绘本播放器封装成 SDK,提供对绘
本的下载、解压以及播放的功能,与绘本真实播放场景一致。除此之外,绘本生产工具中通过 定时任务,增量的对新制作的绘本进行质量校验,主要对绘本 zip 包大小和图片大小的校验, 对于质量不达标的绘本进行卡点,需要重新制作或修改。

image.png

二、绘本多渠道多端分发消费

绘本期望在多渠道多端进行分发消费,依赖于绘本播放 SDK 的开发。基于插件模式设计的 独立 SDK,扩展性强,轻量级接入,并在多渠道、多端(小小优酷独客、优酷主客、主客 PAD、 OTT)分发和消费绘本。

1.绘本播放 SDK 目标

1)技术目标
a)性能:首次加载绘本速度,绘本播放过程中操作的 FPS;
b)对外接口:简洁、单一职责;
c)界面适配性:界面需考虑适配性,同时支持 iPhone 和 iPad;
d)功能适配性:针对绘本当前格式,交互的形式进行挖掘;
e)扩展性:扩展的易用性,插件的配置。
2)业务目标
a)绘本功能可以独立接入各业务方;
b)绘本 SDK 支持不同程度的接入定制;
c)制作带有绘本播放功能的 app,结合绘本生产工具打造开放绘本创作平台。

2.绘本 SDK 的架构分层设计思想

image.png

1)核心播放层:用于绘本播放器的 UI 展示、音频播放、用户交互等最核心的内容。核心 播放层可独立编译运行,不带任何 UI 控制。
2)绘本插件层:有多个 Manager,用于统一协调各插件的配置、通信、排版,层级等。这 一层用工厂方法进行管理,绘本开发人员可以在工厂中增加新的 Manager 用于扩展绘本的功能。 作为一个绘本 SDK 的 Plugin 层提供。
PluginManger 用于管理插件,通过继承插件基类 YKPBPlugin,实现伴读 Plugin、预览 Plugin 和设置 Plugin、导航栏 Plugin 等。业务方也通过同样的方式去制作 Plugin。同时,PluginManger 通过读取本地配置文件(Plist)来使能或者禁用某种插件,达到云控插件的效果。
LayerManager 通过读取本地的配置文件(Plist)来配置插件的层级。
3)绘本独立模块层:包括下载模块、Playlog 模块、数据库模块。
4)绘本业务层:包括推荐页、详情页、丛书页。
5)绘本 API:暴露一系列状态回调,状态控制,插件扩展接口等。

三、总结

绘本的生产决定了绘本的功能以及绘本的质量,如何提升绘本的质量、提高绘本的制作效 率、丰富绘本的功能是绘本生产的后续目标。在高亮跟读功能的制作中,人工校验时间戳的成 本较高,减少人工校验成本或者自动校验将会大幅度提高绘本的制作效率。绘本的消费以及分 发效率影响着用户的体验,现在的绘本播放是在绘本下载完才开始播放,支持秒开能力的边下 边播是下后续绘本播放优化的方向,并且在绘本播放的时候支持互动能力也会是另一个重要方 向。

相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 并行计算
Transformer 学习笔记 | Seq2Seq,Encoder-Decoder,分词器tokenizer,attention,词嵌入
本文记录了学习Transformer过程中的笔记,介绍了Seq2Seq模型及其编码器-解码器结构。Seq2Seq模型通过将输入序列转化为上下文向量,再由解码器生成输出序列,适用于机器翻译、对话系统等任务。文章详细探讨了Seq2Seq的优势与局限,如信息压缩导致的细节丢失和短期记忆限制,并引入注意力机制来解决长序列处理问题。此外,还介绍了分词器(tokenizer)的工作原理及不同类型分词器的特点,以及词嵌入和Transformer架构的基础知识。文中包含大量图表和实例,帮助理解复杂的概念。参考资料来自多个权威来源,确保内容的准确性和全面性。
|
7月前
|
数据库
【YashanDB 知识库】数据库一主一备部署及一主两备部署时,主备手动切换方法及自动切换配置
**数据库主备切换简介** 在数据库正常或异常情况下,实现主备切换至关重要。若配置不当,主节点故障将影响业务使用,尤其在23.2版本中。原因包括资源紧张或主节点异常。解决方法涵盖手动和自动切换: 1. **一主一备部署**: - **手动切换**:支持Switchover(同步正常时)和Failover(主库损坏时)。 - **自动切换**:启用yasom仲裁选主开关。 2. **一主两备部署**: - 默认最大保护模式,自动切换开启。 需检查并配置自动切换以确保高可用性。经验总结:一主一备默认关闭自动切换,需手动开启;一主两备默认开启。
|
人工智能 数据库
故事与绘本Bot-扣子AI
**摘要:** 构建了一个结合互动与故事讲解的语音交流Bot,灵感源于减轻教师姐姐夜间给小外甥讲故事的负担。该Bot以“小芸”角色引导用户创作故事,包括主题、情节、角色、背景等要素,并通过LLM模型生成故事内容。工作流程包括输入参数、文章生成、关键字提取和优化、以及相关图片生成。下一步计划支持微信集成、预设故事数据库及绘本图像优化。商业上,考虑将其集成到儿童故事设备和抖音账号,打造自动化故事分享平台。
故事与绘本Bot-扣子AI
|
11月前
|
前端开发 安全 测试技术
前端组件化有什么优势?
【10月更文挑战第4天】
357 56
|
9月前
|
搜索推荐 机器人 定位技术
SEO 搜索引擎优化核心名词全解析
本文详细解析了 SEO(搜索引擎优化)中的核心名词,包括关键词、页面标题、元描述、网站地图、反向链接、锚文本、内部链接、页面权重、域权重、搜索引擎机器人、索引、收录、白帽 SEO 和黑帽 SEO。掌握这些术语及其作用,有助于提升网站在搜索引擎中的可见性和排名,实现长期发展。
301 20
|
7月前
|
Apache
Qwen2.5-Coder: 码无止境,学无止境!
Qwen2.5-Coder: 码无止境,学无止境!
|
11月前
|
Linux 编译器 C语言
./build.sh:行1: g++: 未找到命令的错误问题在centos操作系统下面如何解决
通过上述步骤,您应该能够有效地解决CentOS系统中 `g++: 未找到命令`的错误。确保软件开发环境配置得当,对于顺利执行编译脚本和日常开发工作至关重要。如果问题依然存在,考虑检查脚本内的命令路径引用是否正确,或进一步排查系统配置问题。
468 0
|
数据库 开发者 Java
颠覆传统开发:Hibernate与Spring Boot的集成,让你的开发效率飞跃式提升!
【8月更文挑战第31天】在 Java 开发中,Spring Boot 和 Hibernate 已成为许多开发者的首选技术栈。Spring Boot 简化了配置和部署过程,而 Hibernate 则是一个强大的 ORM 框架,用于管理数据库交互。将两者结合使用,可以极大提升开发效率并构建高性能的现代 Java 应用。本文将通过代码示例展示如何在 Spring Boot 项目中集成 Hibernate,并实现基本的数据库操作,包括添加依赖、配置数据源、创建实体类和仓库接口,以及在服务层和控制器中处理 HTTP 请求。这种组合不仅简化了配置,还提供了一套强大的工具来快速开发现代 Java 应用程序。
825 0
|
供应链 监控 算法
ERP系统中的库存优化与库存周转率分析解析
【7月更文挑战第25天】 ERP系统中的库存优化与库存周转率分析解析
1131 1
|
机器学习/深度学习 运维 算法
[ICDE2024]多正常模式感知的频域异常检测算法MACE
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Learning Multi-Pattern Normalities in the Frequency Domain for Efficient Time Series Anomaly Detection》被ICDE2024收录,该论文解决了云服务环境中不同服务存在不同正常模式,而传统神经网络一个训练好的模型只能较好捕捉一种或少数几种正常模式的问题,该论文提出的方法可以使用一个统一模型对不同服务进行检测,就达到比为每一个服务定制一个模型的SOTA方法更好的效果。