从0到1构建数据生态系列:数据价值挖掘

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

这估计《从0到1构建数据生态系列》的最后一篇,主题是数据价值。

在之前,我们所有做的一切一切,都是基础,那么其最终的目的是什么?

当然,结果很明显,就是数据价值,那么,作为数据生态的最上层,所谓的数据价值又是以什么形式体现的呢?

BI体系

在 大数据职位画像–看看你是不是白混了贼多年 这篇对于大数据职位分析的文章中,我们知道,大数据中很大一部分人的角色定位就是“数据分析”。

对应的职位岗位的名称也多样,“数据分析师”,“大数据分析师”,“BI数据分析”,“BI工程师”等等,五花八门。

这些岗位对应所创造的最上层数据应用价值就是,意图通过数据分析的手段,来带数据化的运营监测,数据化的决策指导,以及趋势性的预测等等。

对于前一点,即数据化的运营,这是最常规的应用手段,通过数据的反馈情况,进行运营策略的动态修正,以期获取最大化运营效果。

对于上层来说,他需要把控公司企业整体的事态走向,来制定未来的战略规划,这也是数据分析带来的好处。

通常,我们在构建起数据生态链路之后,第一需要支撑的就是BI分析体系,用于运营以及决策。

此外,结合分析以及深化一些的数学模型,我们还可以做到一些趋势性的预测,对于未来的策略做更进一步的指导,这就属于BI体系更深入的应用了。

画像体系

除了BI体系之外,画像体系是上层应用的重要核心支持,在此之上可以演变各种有效的实际业务应用。

所谓画像体系,即一方面是指针对于公司用户构建起能够全面描述用户特征的用户画像,另一方面,对于实体目标,即除了用户之外的实体,我们同样可以构建起画像,例如品牌画像,内容画像,产品画像等等。

基于这些画像,我们其实是可以做很多事的。

例如针对于电商,我们可以结合推荐系统,做更个性化的商品推荐;结合活跃时段,地域,购物特征等,进行更加个性化的推送服务,以及做个性化的EDM等;又诸如品牌画像,可以更好的为品牌进行制定推广策略;针对产品画像,剖析产品结构,优化产品内部逻辑,指导产品快速迭代等等。

画像是基石,在基石之上可以做更多可扩展性的实际应用,当然,前提是你的画像维度足够丰富,属性足够准确。

并且,需要注意的一点就是,我们在构建画像体系的时候,对于画像维度进行分层次的拆解,有助于我们填充画像属性,以及更好的实用指导。

至于说如何填充画像的属性,其实方法就很多了,部分是很明显的属性,部分是统计维度的属性,部分是需要通过机器学习以及挖掘的手段进行获取。

当然,更多的细节我们就不放在这里讨论了。

推荐系统

在网络兴起之前,用户能够接触到的信息实体(所谓信息是泛指,商品之类的也算)都是通过线下的实际展示,能够直接获取的范围有限。

在网络兴起之后,虚拟空间的概念兴起,信息实体可以放在虚拟空间中,这意味着实体(包括商品等一系列相关实体)的数量可以无限扩充。

在很早之前,用户获取信息的主要手段有两种:结构化的目录导航,搜索。

但在虚拟空间的兴起之后,随着海量实体的增长,这种以用户主动触发为主的获取实体模式弊端越来越大:筛选时间变长、可选项增大带来选择困难现象。

在时间成本越来高的现在,必然追求更加高效的实体信息获取方式,最本质的目的是:缩短用户与目标实体之间距离,减少无效信息的获取,以及提升效率。

所以,以个性化被动信息推动为模式的推荐系统则受到了欢迎。

而推荐系统,在是建立在数据的基础上,融合适应场景的各种模型算法,最终以精准信息推送为目的,提升用户的点击转化,或者其他更明确的商业目的。

推荐系统是数据得以应用的最常见的方式之一,也算是在国内应用的相对成熟的场景。

数据时代的搜索引擎

就信息检索来说,搜索引擎早就存在,而且一直存在,但早期的搜索引擎只有一个目的,那就是检索与检索词相关的信息。

这里所说的相关,纯属于信息实体属性相关。当然,这样做当然是无可厚非的,信息检索的本质本来就是检索相关的信息。

但随着数据进一步应用,以及机器学习等技术的推广,搜索引擎的模式也在悄然发生改变,只是你或许并没有过多关注而已,只是感觉搜索越来越好用了。

我们知道,中文博大精深,一句话,稍微改动一下,或者说重新组织一下,意思都可能发生巨大的变化,甚至是相同的一个词,理解的角度不同,其意义都是不相同的。

在过去,这种情景是很难处理的,而如今,随着对数据的进一步应用,以及算法模型的进一步开发,搜索意图识别已经算是“正经”搜索引擎的标配了。

除此之外,还有诸如搜索纠正,相关搜索推荐等基本的优化点,用于提升用户的体验。

最大的改变在于,过去的搜索是一个“点”,而现在的搜索结果是一个“面”。

所谓的“点”即是你所搜索直接关注的目的,也就是信息本身,而“面”则是一个多维结构,在你关注的点的同时,扩散所有的相关信息。

这就是知识图谱在搜索中的应用,产生的搜索结果是一整个相关的知识图谱结构。

实现业务的数据化、自动化、智能化

相对于上面描述的几个相对明确的数据价值应用,这里描述的就相对于偏业务层,并没有说具体涉及到某种模型,具体的算法,而是一种业务驱动模式。

我们希望通过数据,能够构建起业务驱动的自动化流程,并且这整个业务流程是可数据化观测的,然后在一些关键环节是可以智能化运作的,这样就能够提升业务的精准性。

当然,更重要的是提升商业转换价值。

期间,我们可以利用各种统计分析的手段,让业务流转是可以数据可观测的,也可以通过诸如画像属性的进一步业务化,也可以使用诸如推荐、预测等相关相对底层的技术,甚至是可以利用更复杂的神经网络深度学习等自动学习、自动优化的手段。

关键在于使用数据,再结合机器学习的手段来优化整个流程,这才是我们所需要的。

结语

最后,随着数据的价值在逐渐被挖掘,上层将会越来越多的应用模式被探索出来。

但可以预见的是,数据价值的使用,必然会从单纯的数据本身价值,逐渐延伸到更多的其他方面,而作为数据价值探索的手段,机器学习相关的技术和数据的结合也会越来越紧密。

本文作者:blogchong
来源:51CTO
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
机器学习/深度学习 数据挖掘 定位技术
领域大模型驱动的数据分析预测能力如何处理现代社会犯罪活动?
领域大模型驱动的数据分析预测能力如何处理现代社会犯罪活动?
83 0
|
8月前
|
存储 数据采集 机器学习/深度学习
大数据分析:挖掘数据价值的技术和方法
在数字化时代,大数据已经成为企业和科研机构的重要资源之一。然而,对于海量的数据如何进行分析和挖掘却是一个巨大的挑战。本文将介绍大数据分析的基本概念、技术和方法,帮助读者了解如何利用现代技术和工具,挖掘数据中蕴藏的价值。
721 0
|
存储 安全 大数据
构建企业数据银行 发挥数据核心价值
数字经济时代的特征就是数据的爆炸式增长。这些信息为企业的经营和管理带来了便利,但如何更好、更合理地管理和使用这些数据发挥更重要的作用,产生更多的智慧是企业重点关注的问题。
构建企业数据银行 发挥数据核心价值
|
数据采集 存储 安全
如何在大数据时代构建数据治理体系
随着云计算、物联网、移动互联网等新一代信息技术的快速发展,人类产生的数据量呈指数级增长。
如何在大数据时代构建数据治理体系
|
数据采集 分布式计算 Hadoop
2018年,从商业智能中获得更多价值的九种方式
对于太多的组织来说,“商业智能”让人想到古板,陈旧的报告里的简单的统计摘要。
190 0
2018年,从商业智能中获得更多价值的九种方式
|
移动开发 数据可视化 安全
利用NBI大数据可视化工具做RFM模型分析,洞察数据价值,驱动业务增长
RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理的分析模式中,RFM模型是被广泛提到的。该数据模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。
利用NBI大数据可视化工具做RFM模型分析,洞察数据价值,驱动业务增长
|
存储 SQL 分布式计算
本地生活行业如何在云上挖掘更多数据价值
阿里云数据湖解决方案,助力本地生活服务实现精细化运营
20791 0
本地生活行业如何在云上挖掘更多数据价值
|
存储 SQL 分布式计算
多引擎集成挖掘湖上数据价值
在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
多引擎集成挖掘湖上数据价值
|
人工智能 缓存 数据可视化
数据中台必备的4个核心能力,你让数据创造价值了吗?
本文主要阐述数据中台的定义和核心能力。
7397 0
数据中台必备的4个核心能力,你让数据创造价值了吗?
|
大数据 物联网
大数据核心价值是“分析和预测”
海量数据本身并不能给企业带来太多的价值,通过数据的理解、分析、探索和挖掘,找出对企业有价值的关键数据,帮助企业进行更好的管理和预测,这样数据才能给企业带来足够的价值。
1119 0