4.20 粒计算在智能信息服务中的应用
粒计算的理论与方法在智能信息服务中的应用可以归结为处理信息系统中的数值、 文本、图像、音视频等数据,解决其中的不确定性问题。
例如,在处理图像方面,Zadeh 提出了模糊信息粒理论研究的一般框架后,Pedrycz 等[22]对信息粒间的结合进行了深入的研究,并结合数字化图像可粒化的特点,基于图像的内容信息和空间信息进行粒化。Pal 等[23] 提出了基于粒计算思想和粗糙熵的图像分割方法,将图像分割成若干的图像粒,最小化粗糙度从而确定分割的阈值。随后,Chakraborty 等[24]将此思想扩展于检测移动物体。
在处理文本方面,很多研究者充分利用文本可分成词语级、句子级和篇章级等不同的粒度的特点开展了大量的研究工作。何中市等[25]将云模型引入文本分类应用研究,分析文本语言中的不确定性。文本情感挖掘是文本数据挖掘中的研究领域之一,目标在于挖掘文本中的观点、态度、情绪等主观信息。张志飞等[26]针对文本中语言粒度不同,所表达的情感粒度也存在差异,情感的表达存在不确定性,提出了基于三支决策的多粒度文本情感分类。
粒计算的思想用于分析和处理当今热门的大数据也有其独到的优势。大数据规模巨大,结构复杂,数据质量参差不齐,我们可以利用粒计算的思想使用多粒度来表示大数据,从而在多视角、多层抽象全景地描述大数据中的知识。根据数据的规模、种类、结构,选取适宜的粒结构、合适的粒度来抽象数据的机理与方法,以降低数据的规模,获取更加丰富的信息。另外,大数据本身带有很强的不确定性,这就要求我们使用不确定性的度量方法来分析数据之间的关系[27] 。
传统数据挖掘与机器学习方法不能直接用于大数据分析问题,必须进行创新。目前的主要策略有分治和分层两种。分而治之是讲传统算法分布是并行化[28];而分层抽象,则是将现有模型粒化/层次化,或设计多粒度 / 多层次的新模型[29] ,如基于深度机学习的方法[30-31]和基于粒计算的方法[32] 。
大数据的多粒度表示与计算理论体系见图 1。
大数据的多粒度表示与计算旨在多视角、多层抽象而全景地描述大数据中的知识,是观察空间到表示空间的一对多映射关系。大数据的多粒度表示与计算一般需要解决以下关键问题:① 大数据的粒化机理。在大数据预处理阶段,根据数据的规模、种类、结构,选取适宜的粒结构、合适的粒度来抽象数据,以降低数据的规模,获取更加丰富的信息。② 多源异构数据的信息融合。对粒化后的多源异构数据,把不同粒结构、不同粒度的信息进行融合,以获得相互增强的知识;③ 大数据不确定性度量与分析,大数据内在的不确定性,导致大数据挖掘结构的不确定性[33] 。多粒度的方法能分析它们之间的关系,降低不确定性。④ 大数据的深度挖掘多粒度知识表示能提供丰富的信息,利于深度挖掘出数据内在的各种知识。上述即大数据的多粒度表示与深度挖掘的计算理论体系。