《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法-阿里云开发者社区

《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法

2017-09-04 1442

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章，第12.7节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.7 序列模式挖掘近似算法

数据中通常蕴含大量的频繁模式。确定性算法能够挖掘出所有频繁的模式，具有最高的准确性，但通常会花费大量计算时间，并且消耗大量内存。而序列模式挖掘近似算法是适应大数据的另一种方式。但是，近似算法所挖掘的结果中却存在着误差。因此，错误误差的估计通常是近似算法重点关注的对象。其中，Manku 等人[41]提出的 LCA（LowestCommon Ancestors）算法是一个代表性的从流数据中挖掘频繁模式的近似算法。在 LCA 算法中，增量数据以大小为 B 的块更新。对于第 n 批数据，LCA 先计算新增数据中的数据模式及其频率，然后更新到历史的结果中。但是，对于那些发生次数小于 n 的模式，LCA 会将它们从内存中删除。因此，LCA 算法存在少计算项集频率的情况，这个误差的上界是 εn ，这里 ε 是用户设定的一个误差率参数。类似地，如 Carma 算法[42] 、estDec 算法 [43] 、FP-Stream 算法[44]和 FDPM 算法[45]都考虑了类似的挖掘问题并借鉴了类似思想设计算法。又如前文所述的文献[39]中的算法也是一种近似算法，用于动态数据中的频繁情景模式挖掘。此外，Kum等人[46]则对序列模式的形式进行近似，提出了近似序列模式挖掘的概念，它的基本思想是挖掘那些可能被多个序列共享的近似的序列模式，而不是找到那些确定的序列模式。

《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法

12.7 序列模式挖掘近似算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法

12.7 序列模式挖掘近似算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景