数据面面观:关于数据挖掘和数据分析

简介:

数据面面观:关于数据挖掘和数据分析

  1、

很多关于数据挖掘的帖子和文章都在强调工具、算法和架构等,但其实这些都不是数据挖掘的核心,数据挖掘的最重要的环节如下:

数据来源:通过无论是公开的数据还是合作方式、第三方的方式获得数据;

获取标签:对标的物无论是用户、商品、文章分析,以获取足够定义这些标的物的标签,并对标签进行指标化和定义权重,通过这些标签对;

定义特征:通过标的物的个体画像以及标的物间的关系定义个体和整体的特征;

评估模型:通过定义的特征定义并评估一系列数据模型;

应用模型:模型数据可视化、基于有效模型数据价值应用。

2、

为什么把数据挖掘和数据分析放在一起说,是因为数据挖掘本身是一个数据应用化的过程,而应用化的过程某种意义上就是一个数据分析的过程,而这个数据分析可以是人为定义的、AI人工智能辅助的等等。

所以,我们可以暂且这样定数据挖掘和数据分析的关系:通过不断优化的数据分析方法,并利用数据挖掘才能够得出数据应用价值的最大化的结果。

数据挖掘是数据价值结果导向的过程集合,而数据应用价值到底有多大?者就是通过数据分析来评估的,其来自于数据分析的过程以及得出的结论。

3、

数据挖掘并不局限。就狭义而言,它就是一个在海量数据中挖掘数据价值的过程;而就广义而言,只要是有数据来源的,并能够通过数据分析方法论得到一数据价值结果为导向的过程,都可以称作数据挖掘。

4、

产品运营经常会涉及到数据分析,从某种意义上而言,也是一个以数据价值为结果导向的过程:

数据来源:产品运营过程中的产生和收集的一系列数据,如图:

数据面面观:关于数据挖掘和数据分析

获取标签:通过基本信息和一系列行为数据获取分析得到关键标签,并定义标签的权重和指标,以对基本用户、商品、文章等等标的物进行画像;

定义特征:通过标的物个体的统计数据和画像分析个体间关系的特征和整体性特征,比如电商类用户就可以根据性别和消费能力、消费周期等标签指标,定义其相应的特征;再比如对UV、PV等一系列数据进行整体性的特征判断,以判断产品本身目前的运营特征和情况;等等...

评估模型:通过提取的特征,定义一系列的可用模型,使得从数据来源到标签再到特征以及画像的数据通过模型更直观的展现出来;

应用模型:比如招聘网站按照不同职能区分的用户对于网站的使用情况,产品对于90后用户的运营情况等,以在某种程度上帮助改进产品和提升以及验证运营工作对于目前产品运营的有效性。

5、

举个商业化应用的例子,比如EverString这个产品,去年年底刚刚融了B轮65m美刀。这是一家通过大数据技术提供B2BMarketing领域企业智能解决方案的公司,通过挖掘企业数据与结合企业CRM,并建立模型,再利用这些模型帮助企业来预测谁是他们下一个客户。以下是对于这家公司业务的分析:

数据来源:通过爬虫来抓取全网数据并结合企业CRM获取与企业相关的数据,EverString自称有1100万家企业的海量数据库;

获取标签:它们拥有丰富的公司标签,以及合理的指标与权重;

定义特征:与公司业务和规模相关的特征,更加个性化并增加精准性;

评估模型:定义无论是公司层面的营销运营模型,还是基于公司业务本身的数据模型,以关注数据应用价值和更加符合业务应用价值效果的数据模型;

应用模型:将模型应用在整体的业务流程当中,比如通过对历史大量积累的数据进行分析和建模,从而对未来事件的决策的预测。

6、

关于数据分析,并不可以简单理解为对于对于数据进行定量、定性的分析和得出一个可用的数据结果的过程集合,这也是我为什么把数据挖掘和数据分析放在一起说的原因。数据分析一定是伴随着数据从采集到定义,再到应用,最后通过分析数据应用的价值,并不断自我过程优化。

从某种意义上而言,数据分析会用到的很多工具。我们会发现无论是用GA、百度统计、友盟等等,它们同样在做着:从采集数据、获取标签(机型、地理位置、用户画像等)、定义特征(转换率、客单价等)和模型(漏斗模型等)到应用模型(可视化图表等)。这个过程同样可以理解为一个数据分析方法结合数据挖掘的过程,即对可获取的数据进行价值挖掘和应用的过程。



本文转自d1net(转载)

相关文章
|
3月前
|
数据挖掘 PyTorch TensorFlow
|
27天前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
51 10
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
65 0
某A保险公司的 数据图表和数据分析
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
519 54
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
61 0
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
47 5
|
4月前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
45 2
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
72 0
|
4月前
|
SQL 数据挖掘 Serverless
SQL 窗口函数简直太厉害啦!复杂数据分析的超强利器,带你轻松攻克数据难题,快来一探究竟!
【8月更文挑战第31天】在数据驱动时代,高效处理和分析大量数据至关重要。SQL窗口函数可对一组行操作并返回结果集,无需分组即可保留原始行信息。本文将介绍窗口函数的分类、应用场景及最佳实践,助您掌握这一强大工具。例如,在销售数据分析中,可使用窗口函数计算累计销售额和移动平均销售额,更好地理解业务趋势。
80 0
|
4月前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
84 0