《中国人工智能学会通讯》——12.2 大数据环境下序列模式挖掘及应用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.2节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.2 大数据环境下序列模式挖掘及应用

模式发现问题诞生于 1993 年[1] ,与分类、聚类和异常点检测并称为数据挖掘四大问题[2] 。它指的是从数据库找出频繁共现的“项”,被称为频繁模式。模式发现问题在数据挖掘领域地位重要,有大量关于模式发现的论文发表在重要数据挖掘、数据库会议。Google Scholar 记录的 Agrawal 等人[1]提出的经典模式发现算法 Apriori 的论文单篇 , 被引用次数近 1.8 万次,已成为数据挖掘领域引用最多的论文之一。

序列模式 (Sequential pattern) [3] (及其扩展情景模式 (Episode) [4] )是引入了时间关系和约束的数据模式,它指的是从时序数据中挖掘频繁出现的子序列。这类模式因为蕴含了时间维度的补充信息,为推荐或者预测提供了潜在的帮助[2] 。序列模式挖掘曾成功应用于网络挖掘[5-6] 、设备故障检测 [7] 、软件 bug 检测[8] 、时空数据分析 [9] 、股票趋势预测 [10] 、化学与生物模式[11-12]和新闻分析[13-14]等。由于其广泛的应用,它逐渐成为数据挖掘领域中一个专门的研究主题。

由于序列模式挖掘是从频繁模式挖掘[1]演化而来,因此 Agrawal 和 Srikant [3] 最初提出该问题也是为了挖掘用户购物数据中行为模式来辅助决策。这个挖掘问题的问题描述如下:

设 I={I 1 , I 2 , …, I m } 是所有项的集合。给定一个序列集合 D,其中任意一条序列 S i 由一个元素列表组成,每一个元素则由 I 中的项组成,以及一个用户指定的最小支持度阈值 min_sup,序列模式挖掘是指从D中挖掘出现频率不低于min_sup的子序列,它们被称为频繁序列模式。

如表 1 所示的一个序列集合中,字母代表项,括号中的项视为无序,若设置最小支持度 min_sup为 2,子序列〈(bc)a〉是一个频繁序列模式,它共出现了 2 次,分别位于 s 1 和 s 2 中。image
频繁情景模式挖掘,作为序列模式挖掘的扩展,则考虑的是从一条长事件序列中挖掘频繁的子序列,其问题描述如下:

设 E={E 1 , E 2 , …, E m } 是所有事件的集合。情景模式发现问题是指从一条单一的事件长序列 S 中挖掘出现频率不小于 min_sup 的子序列,min_sup 是用户指定的最小支持度阈值参数。其中,S 中的任意一个事件集合均由 E 的事件组成。挖掘出来的频繁子序列被称作频繁情景模式。

如图 1 所示的一条事件序列中,字母代表事件,数字代表事件发生的时间,若设置最小支持度 min_sup 为 3,子序列〈A, B〉是一个频繁情景模式,它共出现了 3 次,在序列中用虚线矩形框标注。image
由于序列模式挖掘(及其扩展频繁情景模式挖掘)和频繁模式挖掘的相关性,其算法多数也是由频繁模式挖掘算法改进而来,这些算法大致可以分为基于 Apriori 的算法[3]和模式增长算法[15]两类。其中,基于 Apriori 思想的算法主要思想是通过生成候选集,以及扫描数据库进行逐层挖掘。这些算法通常还基于 Apriroi 算法的支持度的向下封闭性(downward closure)进行剪枝,即任何不频繁模式的超模式也不会频繁。但是在频繁情景挖掘问题中,这种性质不一定适用[16] 。这些算法虽然可以使用剪枝技术提升效率,但是它们实际的缺点是生成了大量的候选序列并需要重复扫描数据库对每一个候选序列计算支持度,这样的迭代过程使得挖掘效率低下。为了缓解这些问题,基于模式增长的算法开始涌现。它们大多采用了分治思想,以当前的频繁序列模式作为前缀将原始序列分割成若干个投影数据库(projected databases),并在这些投影区域内进行挖掘。相较于前一大类算法,基于模式增长的方法的好处是不需要生成序列的候选集合,并且缩小了数据库扫描的范围,在性能上具有一定的优势。

近年来,为了能够处理持续快速增长的大数据,序列模式挖掘(及其扩展频繁情景模式挖掘)在并行、增量和近似算法上也取得了显著进步。本文将从算法角度综述主要的序列模式挖掘(以及频繁情景模式挖掘)算法,并且回顾适用于大数据的序列模式挖掘(频繁情景模式挖掘)代表性算法。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
人工智能 Serverless
AI助理精准匹配------助力快速搭建Stable Difussion图像生成应用
【10月更文挑战第7天】过去在阿里云社区搭建Stable Diffusion图像生成应用需查阅在线实验室或官方文档,耗时且不便。现阿里云AI助理提供精准匹配服务,直接在首页询问AI助理即可获取详细部署步骤,简化了操作流程,提高了效率。用户可按AI助理提供的步骤快速完成应用创建、参数设置、应用部署及资源释放等操作,轻松体验Stable Diffusion图像生成功能。
|
7天前
|
传感器 机器学习/深度学习 人工智能
AI在智能制造中的革新应用与未来展望
【10月更文挑战第10天】AI在智能制造中的革新应用与未来展望
|
22小时前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术在金融领域的应用有哪些?
【10月更文挑战第16天】人工智能技术在金融领域的应用有哪些?
17 1
|
22小时前
|
机器学习/深度学习 人工智能 算法
介绍一下AI在药物研发中的应用。
【10月更文挑战第16天】介绍一下AI在药物研发中的应用。
7 0
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命性应用
【10月更文挑战第14天】 本文探讨了人工智能(AI)在医疗行业中的多种应用,包括疾病诊断、个性化治疗、药物研发等。通过具体案例分析,展示了AI技术如何提高医疗服务效率和准确性,同时指出了当前面临的挑战与未来发展趋势。
15 2
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在软件测试中的创新应用与实践###
本文旨在探讨人工智能(AI)技术如何革新软件测试领域,提升测试效率、质量与覆盖范围。通过深入分析AI驱动的自动化测试工具、智能化缺陷预测模型及持续集成/持续部署(CI/CD)流程优化等关键方面,本研究揭示了AI技术在解决传统软件测试痛点中的潜力与价值。文章首先概述了软件测试的重要性和当前面临的挑战,随后详细介绍了AI技术在测试用例生成、执行、结果分析及维护中的应用实例,并展望了未来AI与软件测试深度融合的趋势,强调了技术伦理与质量控制的重要性。本文为软件开发与测试团队提供了关于如何有效利用AI技术提升测试效能的实践指南。 ###
|
4天前
|
机器学习/深度学习 人工智能 监控
探索AI技术在医疗健康领域的应用与挑战
【10月更文挑战第13天】 本文探讨了人工智能(AI)在医疗健康领域的多种创新应用,包括疾病诊断、个性化治疗、患者监护和药物研发等方面。同时,文章也分析了当前AI技术在实际应用中面临的挑战,如数据隐私、算法透明度、监管问题等,并提出了一些可能的解决思路。通过综合分析,本文旨在为读者提供一个关于AI在医疗领域应用现状及未来的全面视角。
22 3
|
4天前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能在医疗诊断中的应用与发展
【10月更文挑战第13天】 随着科技的不断进步,人工智能(AI)在医疗领域展现出巨大潜力。本文将探讨AI在医疗诊断中的应用现状、面临的挑战以及未来发展的趋势。通过深入分析AI技术如何辅助医生提高诊断精度和效率,我们期望能为相关领域的研究和实践提供有价值的参考。
18 1