《中国人工智能学会通讯》——12.6 增量序列模式挖掘

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.6节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.6 增量序列模式挖掘

在动态更新的流式数据中进行数据挖掘的需求由来已久[34] ,对于序列模式挖掘来说,当数据发生少量更新时对全体数据重新进行挖掘是不可取的。因此,一些增量序列挖掘算法被提出以适应不断增长的数据,这类算法在更新迅速的大数据中显得十分重要。

Parthasarathy 等人[35]提出的 ISM 增量序列模式挖掘算法,基于 SPADE 算法进行扩展,以最小的 I/O 和计算代价处理新增数据。具体地,一种增量序列晶格的结构被用于存储所有频繁序列 , 以及原数据库中位于负边界中的所有序列。这些位于负边界中的序列可能由于新增数据的加入 , 而变成频繁序列模式。Masseglia 等人[36]则提出了一种基于Apriori 思想的增量序列模式挖掘算法 ISE。ISE 利用尽可能少的老频繁序列模式的信息最小化计算代价,挖掘出新增数据中的频繁模式。Cheng 等人[37]提出的 IncSpan,通过维护一个“几乎频繁”的序列集合作为新增数据中可能成为频繁序列模式的候选集 , 高效地进行增量挖掘。Gao 等人[38]则提出了 StreamCloSeq 算法增量,挖掘频繁闭序列模式。

对于频繁情景模式挖掘,Patnaik 等人[39]较早在频繁情景挖掘问题中考虑了数据动态问题。在Patnaik所描述的问题中,事件序列以批量方式更新;然后,对于一段新的事件序列,首先使用已有的频繁情景挖掘算法在增量序列上挖掘候选的情景模式。他们工作的主要贡献是提出了一个频率的下界,凡是频率超过此下界的情景模式很有可能在更新后的序列中是一个 top k 的频繁情景模式。我们[40]率先将频繁情景模式发现算法推广到在线形式,提出的MESELO 算法从动态更新的序列中 , 不断快速地挖掘出最新的频繁情景集合。这里,事件序列总是一个时刻接一个时刻地连续不断更新,而不是批量的更新数据。这个问题中数据更新更快,对算法的响应时间要求更加严格。具体地,在 MESELO 算法中,一种最后情景发生的概念被提出,基于最后情景发生,动态更新的事件序列中的情景最小发生可以快速地被找到。另外,一种高度压缩的场景 trie 则被提出用来高效存储事件序列的更新信息,辅助算法快速计算。MESELO 算法是首个单遍历的频繁情景模式挖掘算法,较传统的方法提高了 1~2 数量级,响应时间通常不超过 1 s。

相关文章
|
4月前
|
人工智能 算法 数据可视化
|
2月前
|
机器学习/深度学习 人工智能 开发框架
智能ai量化高频策略交易软件、现货合约跟单模式开发技术规则
该项目涵盖智能AI量化高频策略交易软件及现货合约跟单模式开发,融合人工智能、量化交易与软件工程。软件开发包括需求分析、技术选型、系统构建、测试部署及运维;跟单模式则涉及功能定义、策略开发、交易执行、终端设计与市场推广,确保系统高效稳定运行。
|
3月前
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
3月前
|
人工智能 测试技术 持续交付
就AI 基础设施的演进与挑战问题之定义应用的交付模式的问题如何解决
就AI 基础设施的演进与挑战问题之定义应用的交付模式的问题如何解决
|
4月前
|
人工智能 运维 安全
龙蜥社区第五届理事大会圆满结束!深度探讨 AI 浪潮下的合作模式
围绕 CentOS 停服替代和 AI 技术浪潮下的合作契机等话题进行了深度探讨。
|
4月前
|
人工智能 运维 Serverless
报名参课丨解锁 Serverless+AI 新模式,拥有专属 AIGC 环境
Serverless 和 AI 大模型都是当前云上最火的技术方向,本次活动期望通过 Severless+AI 技术的强强联合,期待为客户提供基于 Serverless 技术实现 AI 推理部署平台的技术思路,一键解锁 AI 潜力,无需繁琐运维,降低 GPU 的使用成本、减少企业或个人创业的试错成本,让人人都可以拥有自己“专属”的 AIGC 环境成为可能。
|
5月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之最大长度是指的是batch内最长序列吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
设计模式 人工智能 自然语言处理
【设计模式】MVVM模式在AI大模型领域的创新应用
【设计模式】MVVM模式在AI大模型领域的创新应用
73 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI计算在哪些方面可以提高教育模式的效率?
【5月更文挑战第19天】AI计算可以在多个方面提高教育模式的效率,具体包括: 智能教育环境:通过机器学习和自然语言处理技术,可以创建个性化的学习环境,根据学生的学习习惯和进度调整教学内容和难度,从而提高学 AI计算在哪些方面可以提高教育模式的效率?
142 1
|
6月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。