数据挖掘-理解业务和数据(二)

简介: 数据挖掘-理解业务和数据(二)

数据挖掘流程图 :


1c0a48c57df74ae68a469ee23a732a87.png

前置准备:

3efcb704dade4953b084714550f51a93.png

1、思想问题


避免对业务的轻视


要做什么样的人,要先去按照那样的人去思考。


做数据挖掘,一定要避免的思想问题

我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了

数据挖掘人员需要真正理解业务场景与挖掘需求

数据挖掘的本质是一种方法

要去解决问题,一定要源于业务需求,服务业务需求


如果要做一个成功的数据挖掘项目:


深入学习业务,明白业务的关键点。

在项目的需求阶段与业务方进行充分的沟通,在发现偏差时及时调整。

在制定OKR的时候与业务方来共同制定


明白可以为和不可以为


一个业务需求来了:

  • 明了业务的要求以及目标

  • 明白数据挖掘要解决的点在哪里

技术在业务上绝不是万能的

比如你在做一个OTA酒店消歧的项目,酒店业务中的一个痛点:

不同的供应商提供的酒店信息可能存在一些区别,需要消耗大量的人工去做比对决策

实际上会遇到的情况:


数据可能是残缺的导致无法使用算法处理

不同供应商提供的同一家酒店名称可能是不同语种的,无法使用同样的模型来解决。不同的供应商提供的信息可能是不对等的,无法使用一套解决方案来完全解决所有问题


数据挖掘不是万能的


数据不完美:


每一个公司都只是掌握了部分数据,有些甚至没有多少数据,还需要去外面爬取数据来进行处理

数据的真实性、准确性、完整性具体到每一条数据时或者某一个需求时,是不完美的,甚至是匮乏的。


业务条件不完美:

数据挖掘项目通常都是跨团队的协作项目。

例如上面的酒店业务,需要与业务进行了更深入的讨论,最后确定目标是提升酒店运营人员的效率

项目降低了酒店运营60%的人力成本。


数据挖掘只能在有限的资源与条件下去提供最大化的解决方案

与业务方进行深入的沟通,同时对你所掌握的数据有充分的认识,对业务的难点和重点有明确的区分。

建立需求多方评估机制,让业务专家与技术专家参与进来,评估需求的合理性以及你的数据情况 。

对需求讲行坼解,以最大化在数据限制和业务限制前提下的项目效果 。


2、业务背景和目标


在进行数据挖掘之初就要去明确业务背景和业务目标

需求的产生必然是因为某种分析需求、某个问题或者某个业务目标的需求。

假设你现在是一个自媒体平台,

自媒体作者发布文章,很多用户会来看这些内容,从而产生互动行为

这些会刺激作者继续创作,而作者持续发布好内容又会吸引更多的用户来浏览


需求:要对发布内容的自媒体做一个贡献度评级模型

贡献度该如何去衡量?

对于一个作者,贡献度体现在他的内容上


CTR(点击率)高的内容贡献度高,还是有独特观点的内容贡献度高?

能引发讨论的内容贡献度高,还是技术深度更深的内容贡献度高?

发布内容的频率高贡献度高,还是发布的内容够长贡献度高?

你应该展开沟通,并成立专家小组来对目标进行评审:

在沟通的过程中了解到:业务背景是在打造品牌影响力的时候,发现很多用户对我们的内容产生了质疑,业务方希望能够对作者形成一种分级制度。


3、把握数据


作为一个数据挖掘工程师,需要对你要用到的数据了如指掌

收集、存储、转换数据都是十分重要的环节。


1.是否有数据

是否有这样一个数据集来支持你做这样一个模型,来完成这样一个需求,来回答业务的问题


2.有多少数据

数量的不同会影响处理方式


3.是什么样的数据

需要考虑的是这些维度是否可以支持完成业务需求,是否与所提出的问题有关系4.标签

比如监督学习任务,每条数据都需要有结果的标注,这也是模型或者算法要学习的结果


总结


  • 思想准备――确保自己已经具备了一个专业的数据挖掘工程师的思维模式
  • 理解业务―—确保与业务需求方的充分沟通,对业务需求的充分理解
  • 理解数据――确保对可以掌握的数据有全面的了解,知道哪些数据有用,哪些数据没用
目录
相关文章
|
6月前
|
数据采集 算法 数据挖掘
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
【数据挖掘】数据变换与离散化讲解与实战(超详细 附源码)
231 0
|
6月前
|
数据可视化 数据挖掘 大数据
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
【数据挖掘】数据规约中维归约、小波变换、主成分分析的讲解及实战(超详细 附源码)
141 0
|
6月前
|
数据可视化 算法 JavaScript
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
【Python数据挖掘】数据可视化及数据对象的相似性度量算法详解(超详细 附源码)
207 0
|
3月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
61 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
64 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
74 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
6月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
6月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
6月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
6月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

热门文章

最新文章