DataQuotient画像分析产品体验报告

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: DataQuotient画像分析产品试用与体验报告,可用于提升数据分析能力,简化定制开发工作。

画像分析体验总结

整体分为两个部分

标签管理

1、配置对应的数据源,将数据源表定义为“实体”,字段定义为标签 
2、配置同步计划和任务,进行数据的同步管理
3、类似于数据的映射,将技术语言与业务语言通过实体,关系,标签进行映射。

群体画像

1、主要是关注业务上每个字段的筛选,过滤条件,组合出满足业务要求的分析场景
2、提供了群体计算、群体分析、群体对比、相似度分析,使得从业务的角色能更快速、更灵活、更主观的操作数据
3、通过多种图表方式展现圈定的结果。

体验前后的差异对比

没有使用阿里产品前的实现方式

每一次业务规则的调整,都需要修改代码,重新执行,才能得到最新的结果

使用阿里产品的实现方式

只需要在界面上重新配置过滤规则,然后执行筛选,就能得到最新的结果,并能通过多种图表方式直观 的呈现出来。

特点

省去了重新修改代码的环节,从业务的角度调整规则即可实现画像分析。随着多种图表展现形式对结果的反馈,可以不断的完善规则,从而提高了画像分析的准确性和时效性。

适用场景

基础的标签(指标)数据生成好后,提供给业务人员,进行业务角度的数据分析使用,可以快速的将群体方案直接发布为API对外提供。

目标与操作过程

本次目标

1、尝试用这份数据找分析出,高压力中年油腻男,单身带娃,无父母补贴,低学历,高年龄
2、尝试用这份数据找分析出,单身女强人,单身无娃,有父母补贴,高学历,中低年龄

前提条件 -- 数据准备

一、准备数据源

1、建立数据表

CREATE TABLE `test_data_quotient_person_info` (
  `person_id` varchar(32) DEFAULT NULL COMMENT '人员ID',
  `id_card_number` varchar(32) DEFAULT NULL COMMENT '身份证号',
  `person_name` varchar(32) DEFAULT NULL COMMENT '姓名',
    `person_sex` varchar(32) DEFAULT NULL COMMENT '性别: 1-男 2-女 3-不详',
  `marry_tag` int(10) DEFAULT NULL COMMENT '婚姻标签:0-未婚 1-已婚',
  `children_number_tag` int(10) DEFAULT NULL COMMENT '孩子个数标签',
  `education_tag` int(10) DEFAULT NULL COMMENT '学历标签:0-初等学历 1-中等学历 2-高等学历',
    `person_age` int(10) DEFAULT NULL COMMENT '年龄',
    `parent_number_tag` int(10) DEFAULT NULL COMMENT '父母存活个数标签'
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、配置数据
1.png

二、配置dataworks数据同步

1、按照数据源的方式建表,然后选择对应的同步信息
2.png

2、配置调度
与本文描述内容无关,此处省略

画像分析 -- 标签管理

三、云计算资源

1、配置外部的云计算资源,类似于“数据集成”中的数据源管理。
3.png

2、配置好外部云计算资源后可以查看对应的库表信息
4.png

四、标签中心

1、新建标签模型实体

** 关系模型还未体验 **

2、实体绑定标签数据表

绑定表的时候需要先”更新缓存表“更新成功后,才能看到新加入的源数据表。
5.png

3、选择绑定表后,先点击主字段,绑定为主标签,再绑定所有字段
6.png

4、我的标签--快查功能
7.png

任务同步成功后,才能使用到画像分析的云计算资源分析引擎,对标签数据进行探查与分析
8.png

可灵活的选择标签字段,查看数据,通过图表(柱状图、饼图、折线图)展现,数据的聚合(最大、最新、均
值、求和、次数)情况
9.png

五、标签同步

1、配置同步计划

不能配置已经上线的标签,标签需要先下线,才能配置同步
目标云计算资源需要选择,mysql;选择odps,在群体画像--群体列表中将无法找到云计算资源

10.png

2、同步计划配置完成后点击启动,将数据同步到画像云计算资源中
11.png

3、可在同步任务中查看同步状态,和进行重跑操作,以及查看错误日志
12.png

六、API服务

与dataworks的数据服务功能类似

画像分析 -- 群体画像

七、配置群体

1、新建群体
21.png

2、选定实体后可以添加标签的逻辑
22.png

3、目标场景的圈定条件为

一、中低学历奶爸
    性别:男 : 1
    孩子个数 : 大于0 :  1-2  或者 >0 
    学历: 中、低学历 :    0-1  或者 <2
二、高年龄奶爸
    性别:男 : 1
    孩子个数 : 大于0 :  1-2  或者 >0 
    年龄: 大于30 :    >30

23.png

4、圈群完成后,可以查看圈选结果,对结果不满意可以重新圈定,确认结果后必须发布群体,才能生效
24.png
26.png

5、发布成功后可以在群体列表中看到发布的群体
27.png

6、群体计算,可以将圈定的群体再次通过(交、并、差)的计算发布成一个全新的群体
28.png

使用交集发布成新的群体“高龄低学历奶爸”
29.png

八、分析

1、群体分析
选择分析对象(群体)和度量方式,分析维度(每个维度对应一幅图)后,可展现多种类型(柱状图、饼图、折
线图、面积图)的图形报表
31.png

2、对比分析
对比分析:可以选择两个群体,按照不同的度量方式,选择不同的分析维度,展现不同的图表
32.png
相似性分析:可以查看两个群体的相似度,以及每个标签的覆盖人数
33.png

九、全流程体验

源数据中的样本数据无满足“单身女强人”标签的用户,从源数据中新增一个,然后看出如何同步的画像分析中

1、配置目标群体
41.png

2、源数据中增加一条“单身女强人”用户
42.png

3、执行dataworks同步数据到ODPS中,在运维中心使用重跑调度,重跑成功后日志中显示的记录数位101。

4、在同步任务中选择任务,进行重跑调度,重新更新数据。
43.png

5、同步任务执行成功后,即可在群体列表中,单击指定群体,看到群体的详情
44.png

大环节的操作流程:1、修改源数据;2、执行dataworks重跑调度;3、执行画像分析同步任务;4、群体 画像中看结果。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
机器学习/深度学习 监控 数据挖掘
数据并非都是正态分布:三种常见的统计分布及其应用
这篇文章除了介绍线性模型在减肥app预测中的不切实际性,还探讨了不同统计分布在体重管理和数据分析中的应用。文章提到了正态分布和泊松分布,前者常用于描述围绕平均值对称分布的连续数据,如体重;后者适合计数数据,如体重变化次数。正态分布以其钟形曲线闻名,泊松分布则描述独立事件的数量。文章还简要介绍了卡方分布在检验分类变量关系时的作用。最后,文章指出了在线性回归中假设数据正态分布的原因,包括便于统计推断和最小化估计误差。
1252 5
|
11月前
|
负载均衡 监控 关系型数据库
MySQL 官宣:支持读写分离了!!
【10月更文挑战第8天】MySQL的读写分离功能显著提升了数据库性能、可用性和可靠性。通过将读写操作分配至不同服务器,有效减轻单个服务器负载,提高响应速度与吞吐量,并增强系统稳定性。此外,它还支持便捷的扩展方式,可通过增加只读服务器提升读操作性能。实现读写分离的方法包括软件层面(如使用数据库中间件)和硬件层面(使用独立服务器)。使用时需注意数据一致性、负载均衡及监控管理等问题。
512 0
|
11月前
|
存储 Serverless 数据库
科普文:云计算服务类型IaaS, PaaS, SaaS, BaaS, Faas说明
本文介绍了云计算服务的几种主要类型,包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)、BaaS(后端即服务)和FaaS(函数即服务)。每种服务模式提供了不同的服务层次和功能,从基础设施的提供到应用的开发和运行,再到软件的交付使用,满足了企业和个人用户在不同场景下的需求。文章详细阐述了每种服务模式的特点、优势和缺点,并列举了相应的示例。云计算服务的发展始于21世纪初,随着互联网技术的普及,这些服务模式不断演进,为企业和个人带来了高效、灵活的解决方案。然而,使用这些服务时也需要注意服务的稳定性、数据安全性和成本等问题。
7914 5
|
9月前
|
前端开发 数据可视化 JavaScript
前端echarts加标记点及标记线和提示框
通过本文的介绍,希望您能够深入理解和掌握如何在ECharts中添加标记点、标记线和提示框,并在实际项目中灵活运用这些功能,提升数据可视化效果。
958 4
|
11月前
|
存储 数据采集 数据处理
Pandas中批量转换object至float的高效方法
在数据分析中,常需将Pandas DataFrame中的object类型列转换为float类型以进行数值计算。本文介绍如何使用`pd.to_numeric`函数高效转换,并处理非数字值,包括用0或平均值填充NaN值的方法。
650 1
|
Docker 容器
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
Docker 启动失败 (code=exited, status=1/FAILURE)错误解决办法
2252 1
|
Kubernetes Cloud Native Java
Java一分钟之-Quarkus:Kubernetes原生的Java框架
【6月更文挑战第12天】Quarkus是面向Kubernetes的Java框架,以其超快启动速度和低内存占用著称。核心特性包括AOT编译实现毫秒级启动、优化的运行时模型、与Kubernetes的无缝集成及丰富的扩展库。常见问题涉及Maven依赖管理、热重载机制理解和配置文件的忽视。解决这些问题的关键在于深入学习官方文档、使用Dev UI调试和参与社区交流。通过代码示例展示了如何快速创建REST服务。掌握Quarkus能提升开发效率,适应微服务架构。
191 0
|
数据采集 数据管理 大数据
推荐 | AllData开源数据中台技术分享
AllData数据中台架构师团队全面解析开源项目[alldata](https://github.com/alldatacenter/alldata),涵盖功能设计、架构分析及源码解读。团队分享了项目总结、发展规划,推荐关注公众号“大数据商业驱动引擎”以获取更多信息。他们讨论了数据治理、调度引擎、商业化探索及未来规划,涉及元数据管理、数据安全、Airflow调度引擎等。此外,还介绍了数据平台功能,如用户管理、权限控制,并提到了商业化版本的源码支持。鼓励用户参与社区交流,共同推动项目发展。
推荐 | AllData开源数据中台技术分享
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的校园活动管理系统附带文章和源代码部署视频讲解等
基于ssm+vue.js+uniapp小程序的校园活动管理系统附带文章和源代码部署视频讲解等
170 7
|
机器学习/深度学习 文字识别 自然语言处理
【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变
通过对GPT-4V和文档识别领域的深入分析和思考,为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下,提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下,出现了: 素级OCR统一模型、OCR大一统模型、文档识别分析+LLM(LanguageModel)等应用的新方向。下面来详细看一下。
982 0