数据挖掘与预测分析术语总结

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。

分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。参见>>>

大数据(Big Data): 大数据既是一个被滥用的流行语,也是一个当今社会的真实趋势。此术语指代总量与日俱增的数据,这些数据每天都在被捕获、处理、汇集、储存、分析。维基百科是这样描述“大数据”的:“数据集的总和如此庞大复杂,以至于现有的数据库管理工具难以处理(…)”。

商业智能(Business Intelligence): 分析数据、展示信息以帮助企业的执行者、管理层、其他人员进行更有根据的商业决策的应用、设施、工具、过程。

流失分析(Churn Analysis/Attrition Analysis): 描述哪些顾客可能停止使用公司的产品/业务,以及识别哪些顾客的流失会带来最大损失。流失分析的结果用于为可能要流失的顾客准备新的优惠。

联合分析/权衡分析(Conjoint Analysis/ Trade-off Analysis): 在消费者实际使用的基础上,比较同一产品/服务的几个不同变种。它能预测产品/服务上市后的接受度,用于产品线管理、定价等活动。

信用评分(Credit Scoring): 评估一个实体(公司或个人)的信用值。银行(借款人)以此判断借款者是否会还款。

配套销售/增值销售(Cross / Up selling): 一个营销概念。根据特定消费者的特征和过往行为,向其销售补充商品(配套销售)或附加商品(增值销售)。

顾客细分&画像(Customer Segmentation & Profiling): 根据现有的顾客数据,将特征、行为相似的顾客归类分组。描述和比较各组。

数据集市(Data Mart): 特定机构所储存的,关于一个特定主题或部门的数据,如销售、财务、营销数据。

数据仓库(Data Warehouse): 数据的中央存储库,采集、储存来自一个企业多个商业系统的数据。

数据质量(Data Quality): 有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

抽取-转换-加载 ETL (Extract-Transform-Load): 数据仓储中的一个过程。从一个来源获取数据,根据需求转换数据以便接下来使用,之后把数据放置在正确的目标数据库。

欺诈检测(Fraud Detection): 识别针对特定组织或公司的疑似欺诈式转账、订购、以及其他非法活动。在IT系统预先设计触发式警报,尝试或进行此类活动会出现警告。

Hadoop: 另一个当今大数据领域的热门。Apache Hadoop是一个在已有商业硬件组成的计算机集群上,分布式存储、处理庞大数据集的开源软件架构。它使得大规模数据储存和更快速数据处理成为可能。

物联网(Internet of Things, IoT): 广泛分布的网络,由诸多种类(个人、家庭、工业)诸多用途(医疗、休闲、媒体、购物、制造、环境调节)的电子设备组成。这些设备通过互联网交换数据,彼此协调活动。

顾客的生命周期价值 (Lifetime Value, LTV): 顾客在他/她的一生中为一个公司产生的预期折算利润。

机器学习(Machine Learning): 一个学科,研究从数据中自动学习,以便计算机能根据它们收到的反馈调整自身运行。与人工智能、数据挖掘、统计方法关系密切。

购物篮分析(Market Basket Analysis): 识别在交易中经常同时出现的商品组合或服务组合,例如经常被一起购买的产品。此类分析的结果被用于推荐附加商品,为陈列商品的决策提供依据等。

联机分析处理(On-Line Analytical Processing, OLAP): 能让用户轻松制作、浏览报告的工具,这些报告总结相关数据,并从多角度分析。

预测分析(Predictive Analytics): 从现存的数据集中提取信息以便识别模式、预测未来收益和趋势。在商业领域,预测模型及分析被用于分析当前数据和历史事实,以更好了解消费者、产品、合作伙伴,并为公司识别机遇和风险。

实时决策(Real Time Decisioning, RTD): 帮助企业做出实时(近乎无延迟)的最优销售/营销决策。比如,实时决策系统(打分系统)可以通过多种商业规则或模型,在顾客与公司互动的瞬间,对顾客进行评分和排名。

留存/顾客留存(Retention / Customer Retention): 指建立后能够长期维持的客户关系的百分比。

社交网络分析(Social Network Analysis, SNA): 描绘并测量人与人、组与组、机构与机构、电脑与电脑、URL与URL、以及其他种类相连的信息/知识实体之间的关系与流动。这些人或组是网络中的节点,而它们之间的连线表示关系或流动。SNA为分析人际关系提供了一种方法,既是数学的又是视觉的。

生存分析(Survival Analysis): 估测一名顾客继续使用某业务的时间,或在后续时段流失的可能性。此类信息能让企业判断所要预测时段的顾客留存,并引入合适的忠诚度政策。

文本挖掘(Text Mining): 对包含自然语言的数据的分析。对源数据中词语和短语进行统计计算,以便用数学术语表达文本结构,之后用传统数据挖掘技术分析文本结构。

非结构化数据(Unstructured Data):数据要么缺乏事先定义的数据模型,要么没按事先定义的规范进行组织。这个术语通常指那些不能放在传统的列式数据库中的信息,比如电子邮件信息、评论。

网络挖掘/网络数据挖掘(Web Mining / Web Data Mining) : 使用数据挖掘技术从互联网站点、文档或服务中自动发现和提取信息。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
3月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
74 0
|
3月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
119 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
3月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
168 0
|
3月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
122 3
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
66 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
76 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
3月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
68 1
|
3月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
78 1
|
3月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。

热门文章

最新文章

下一篇
无影云桌面