数据洞察创新挑战赛-智能创作赛训练营:课时1:相册服务中的故事生成算法介绍
相册服务中的故事生成算法介绍
内容介绍
一、 什么是相册故事生成算法
二、 相册故事生成算法的准则
三、 特征聚类的故事生成
四、 基于优化选择的故事生成
五、 基于内容的故事生成(图像 embedding)
六、 基于 Hierarchically-Attentive-RNN 的故事生成
七、 图片在 PDS 的可用元数据
一、 什么是相册故事生成算法
1. 相册故事生成算法的定义
对于用户的相册照片集合,根据某个主题选取固定的照片自己。通过选出的照片子集讲诉对应主题的“故事”。
图片子集可以看作是对相册照片集合做的一个符合“主题”的归纳,又称为相册摘要(Album Summarization)。
在日常生活中为了记录美好的瞬间,我们会随时随地拿出手机相机等设备进行拍照,随着时间的推移,我们每个人的照片数量会变得越来越多,面对数量如此庞大的照片集合我们能否高效的对这些图片进行管理、归纳、检索直接决定了我们使用数字相册的体验,手动管理这些相册是一个非常困难而且耗时的工作,现在,利用一些算法可以帮助我们简化这个任务。
比如,在相册故事生成算法中可以从照片集中归纳出具有代表性性的照片,称为相册摘要。通过这种方法帮助我们自动归纳好一段时间的照片形成一个美好的回忆,我们可以将归纳好的照片与好友进行分享等。通常一些相册应用根据主题的不同提供若干类别的故事生成方法,比如在某地的旅行故事,在某个节假日的时光回忆等。
2. 例子
现有左边的一系列的图片集合,这是在某一个时间段内在某一个地方旅行所拍摄的照片,根据故事生成算法可以得到右边的生成之后的旅行故事,可以看到对左边的大的图片集合进行了简化,首先找出一些比较有代表性的图片,然后对它的冗余做一些处理,所以会形成图片的摘要,利用图片的摘要可以总结出这段旅行的时光。生成故事回忆的技术需要有大量的数据和算法的支持,需要人工智能和机器学习等相关技术
3. 相册回忆生成的过程包括以下几个步骤
(1) 图像的识别,使用计算机视觉技术对相册中的照片进行识别和
分类,可以帮助我们确定本章照片的主题和内容
(2) 数据的分析,对照片进行分析,抽取出照片中有用的源信息,
比如时间、地点、人物、事件等等
(3) 感情分析,可以利用一些技术在图片上获得一些自然语言的描
述,可以推断出这张图片背后的背景和故事
4. 故事的生成
我们如何对整个照片集在一定的规则下拿到照片的归纳,正是这些技术的加持使我们现在做一个图片的归纳成为了现实
二、 相册故事生成算法的准则
做相册的故事生成首先要解决一个事情是我们希望我们的相册故事中运用怎么样的图片,首先要定义相册故事生成的准则,在目前的一些研究中,一般按以下三点做相册的故事归纳
1. 相册的故事归纳
(1) 美观程度的高低,我们一般希望我们的故事相册中存在一些看
起来好看的图片,比如下面三幅图如果是一个黑暗的图片,那我们大概率不想让它存在于故事相册中,如果是中间很正常的图片,那么会有一定的概率存入故事相册中,如果是第三个质量比较好的一些风景照,那么大概率会存入故事相册中。这就是对美观程度的评估,这里也包含我们对图像本身质量好坏的评估
(2) 含义丰富
图片的语义含义是丰富的,该图片要能讲述一定的内容,比如
可以是一个风景区的门,可以是一个蓝天加湖泊的风景,这些被我们认为是有意义的风景,如果是随手拍的一些杂乱背景的图片,这种在图片的意义上认为它的语义含义是很弱的,我们也不希望把它放在图片集合中
图片集的概括性,生成图片归纳的子集后,这个子集要对原来的大规模的照片有一个归纳概括的作用,尽量的能够概括原来大批量的图片的尽可能多的信息
(3) 简洁明了
我们要做一个从大量图片得到一个图片子集的过程,不希望有过多的冗余,冗余有两层含义
① 完全相似的图片像随手的连拍,这几张连拍也是不希望把他生成
在同一个故事中,因为有一张就可以了
② 语义相似的图片,几张图片在语义程度是相似的,大概率只希望
只有一张图片存在在相册中从而达到最后归纳出来的故事的简洁性
2.相册故事生成算法的准则
相册故事作为图片集合的摘要,通常代表了用户的一些"美丽回忆",这个摘要集合可供保存以及分享。相册故事中的图片集合通常需要满足如下要求:
(1) 美观度高
① 图片质量好
② 图片美学分数高
(2) 含义丰富
① 图片概括性高
② 图片集纪念性高
(3) 简洁明了
① 减少冗余图片
② 语义相似图片减少
三、 特征聚类的故事生成
参考文献:Zhao , Ye ; Hong , Richang : Jiang , Jianguo (2015). Visual summarization of image collections by fast RANSAC . Neurocomputing .0.S0925231215005986-. doi :10.1016/j. neucom .2014.09.095
1.故事生成的算法
最常见的一种故事生成的算法是利用聚类对原始照片进行归纳总结
(1) 聚类生成算法步骤
① 用一个特征的形式把原来的图片做一个表征
② 在特征空间对原来的图片做一些聚类拿到不同的类别
③ 在不同的类别下可以对每一类的图片拿到分数最高的
这样比较合理的满足上面三个准则的要求。这类的故事生成方法有很多,不同的区别在于如何做特征提取
(2) 此类算法的差异点
① 特征提取
比如对图片做一个提取就是一种特征提取方法,拿到图片的标签也可以构成图片的向量集合,这也是做图片特征的一种方法
② 相似度计算
在算聚类时,怎么样衡量两个图片之间的相似度,怎么样去掉冗余后拿到整个分布
③ 聚类算法
不同的算法里会有不同的聚类算法帮我们更好的生成符合相册归纳语义的一些聚类中心,然后在这些集合上选用最优的图片最后生成归纳。这是一种基于特征聚类的故事生成
四、 基于优化选择的故事生成
参考文献: J .- H . Kim and J .- S . Lee ," Travel photo album summarization based on aesthetic quality , interestingness , and memorableness ,"2016 Asir - Pacific Signal and Information Processing Association Annual Summit and Conference ( APSIPA ), Jeju , Korea ( South ),2016. pp .1-5, doi :10.1109/APSIPA2016.7820889.
上面讲解了三种不同的故事生成的维度,这类算法是把这些维度明确化,用一个优选的策略让选中的子集满足上面提到的三个准则
在这篇文章中作者利用显著性分数,图片敏锐度,天空检测构造了图片美观的程度的分数,然后利用人物数量以及拍摄时间构成了照片的有意义的程度。用相似度衡量冗余程度,通过这三方面得到一个比较好的相册分类。
1.美学程度
这篇文章里作者认为一个图片美学程度比较高,一定会有一个显著的目标,图片锐度一定是比较好的,不能是一个模糊的图片,作者还提到了一些室外场景的照片有一个准则:自己觉得自己拍到天空,那么这张图片是美学程度比较高的,也会把它的分数加上,也就是通过这三方面的衡量共同决定了美学程度
2. 有意义程度
作者的含义是指人物数量比较多,那这个照片可能产生的共同回忆含义比较丰富,那图片的含义分数就比较高。如果在某一个连续的时间段内连续地拍了很多的照片,可以提测出这个时间段内其实是有一个重要的事情发生,所以在这个时间段内拍的照片重要性的分数会提高
3. 相似度的度量
作者利用图片的特征对不同图片的相似度做了一个评分,剔除掉冗余的照片
五、 基于内容的故事生产(图像 embedding)
参考文献:X . Pan et al ," Content Visual Summarization for Image Collections ," in IEEE Transactions on Visualization and Computer Graphics , vol .27, no .4, pp .2298-2312,1 April 2021, doi :10.1109/TVCG.2019.2948611.
作者主要提出可以利用embedding 信息隐含地表达上面提到的三种准则的约束,它认为 embedding 信息含有很丰富的信息
1.根据准则定义评价函数
(1)多样性指标
根据不同图片选出来的子集的特征分布,通过公式可以构造出多样性,这个多样性是对原来每张图片中的 embedding 不同维度的衡量
(2)简洁性指标
在图片 embedding 的空间中是有距离的,作者会认为对这个距离做一个衡量也能够得到图片的冗余程度,根据这个对整个子集的简洁性做了一个比较。
(3)图片的美观程度
美观程度可以利用单独的分数计算后得到美观程度
2.定义目标函数
根据这三个子项的结合得到整个故事生成中的目标函数
3.优化求解
在这篇论文中作者设计了一种优化方法求解目标函数从而得到最优的图片子集
六、 基于 Hierarchically-Attentive-RNN 的故事生成
在这篇论文里作者提出了一种方法是利用神经网络的方法生成故事,这里有三个阶段,比上一个故事生成的任务多了一个阶段
1.作者认为需要做一个图片集合特征的表达,首先利用了 ResNet 网络提取每张图片的特征,然后作者认为相邻的图片之间可能有关系,所以又用了双向的 RNN 网络提取不同图片之间的特征,最后得到相片集合的特征
2.通过这个相片集合的特征再做相片选择的过程,利用第一步得到的图片特征送入神经网络中让它选择出具有最佳语义表达的图片特征子集,这就是用隐性的形式做了一个符合图片生成规则的一个特征子集
3.故事文字生成,作者利用图片生成的子集生成一个自然语言的故事描述的任务。有的对应的不同研究方法在做这方面的研究
七、 图片在 PDS 的可用元数据
1. 利用 PDS已有的信息生成算法
将 PDS 用到的图片的源信息做一个列举
(1) EXIF 信息:包含图片的原始大小、拍摄时间、拍摄地点等信息,这些信息可以被我们利用,做故事生成
(2) 图片标签:利用 AI 算法识别图片中的场景、物体和事件等内容,实现图片的自动打标,目前支持的标签种类包含三十多个分类、数千个标签会对照片做一个描述,可以利用这些照片信息做故事生成
(3) 人脸信息
对这个图片会做一些人脸分析,检测到人脸的位置分析人脸的ID、年龄、性别、心情、表情以及人脸质量的分数等。可以将这些参数组合描述图片的特性
(4) 图片质量分数
建立了一个图片美学的评估模型,利用这个模型可以得出图片的美学程度,对故事筛选中的图片美学程度有一个评分。有很多源信息可以辅助我们生成故事。如何利用这些信息关键在于如何发挥。