Dataphin帮助企业构建数据中台系列之--萃取数据中心

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.comDataphin作为阿里巴巴数据中台OneData (OneModel、OneID、OneService)方法论的产品载体,帮助企业构建三大数据中心:基于数据集成形成的垂直数据中心、基于数据开发沉淀的公共数据中心和基于标签工厂构建的萃取数据中心。

作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.com
Dataphin作为阿里巴巴数据中台OneData (OneModel、OneID、OneService)方法论的产品载体,帮助企业构建三大数据中心:基于数据集成形成的垂直数据中心、基于数据开发沉淀的公共数据中心和基于标签工厂构建的萃取数据中心。今天我们就一起来看看,Dataphin是如何基于OneID思想构建数据萃取中心,连接上下游应用为企业创造更多价值的吧~

  1. 为什么要建立萃取数据中心:提升数据价值密度
    首先,我们来看看Dataphin为什么要帮助企业构建自己的萃取数据中心?

大数据时代,任何微小的数据都可能产生不可思议的价值。作为智能数据构建与管理平台,Dataphin的规范建模、数据处理等核心功能帮助企业高效整合来自不同业务数据库的海量数据,沉淀数据资产,构建自己的数据中台,应对大数据时代Volume(大量)、Variety(多样)、Velocity(高速)方面的挑战。然而,相比于传统的小数据,大数据更大的价值在于从海量不相关的各类数据中,挖掘出对预测分析有参考意义的数据,提升数据价值密度并应用于指导生产,从而帮助企业实现提效降本的目的。Dataphin的数据萃取功能正提供了这样的能力。

从业务视角来看,日常生产和营销活动中,不管是人群圈选、选址还是个性化投放,都离不开标签的指导。标签是对一个实体的立体刻画(不局限于人,任何可被描述和分析的存在都可以是实体,如商品、公司等)。不同维度的标签从不同角度对实体进行描述,例如以零售视角为切入点,我们可以从自然属性(如性别、年龄)、社会属性(如经济状况、婚姻状态)、兴趣偏好(如喜欢整洁的环境、希望有漂亮的牙齿)和行业消费偏好(如美妆偏好、母婴偏好)来对消费者进行描述。高质量、全面的标签能够有效地抽象出一个实体的信息全貌,为精准营销奠定了基础。

数据只有融通才能产生更大的价值,我们不仅希望可以分析和应用大数据,更希望得到通过跨业务单元连接起来的数据和精细化萃取的数据。这种情况下,Dataphin数据萃取模块基于业务数据库的原始数据和建模研发等沉淀的数据资产,将全系统中主数据——即贯穿各个隔离业务的核心对象,进行识别与关联连接,打通业务数据孤岛,进一步提炼可直接应用的高价值标签数据,从而帮助企业构建自己的萃取数据中心,并对接上游应用(QuickAudience等)进一步指导生产营销活动。

  1. 如何高效建立萃取数据中心:可视化配置,自动化生产
    Dataphin研发模块下的数据萃取为我们提供了连接行为数据并实现标签萃取的功能,现阶段优先支持以消费者为对象的数据体系,功能模块主要包括3 大部分:ID中心、行为中心和标签中心(目前ID中心暂未上线)。此外,运维模块下还提供单独的萃取运维子模块,支持从业务视角查看萃取相关的调度任务。下面,我们将从几个功能模块的视角给大家介绍Dataphin如何帮助企业构建自己的萃取数据中心。

image

1)ID中心:相关ID自动化识别与连接
Dataphin基于OneID的思想,以唯一标识打通来自不同平台、系统、渠道的数据,支持通过可视化界面参数配置的方式,从所有数据中提炼并基于算法自动识别各类型ID 之间的映射关系(购物会员ID、视频观看者ID、购物设备mac、观看设备IP 等),并将属于同一实体的不同类型ID通过唯一的One ID进行连接,使得基于ID生产的标签可以聚合到同一实体,从而对实体进行更精准、全面的刻画。

2)行为中心:沉淀行为元素,构建行为规则
Dataphin目前支持以人的相关ID 为中心,通过可视化界面表单配置的方式,从来源行为数据中提炼进而聚拢不同业务域下的行为数据(如电商购物、视频观看)。

首先,我们需要从业务视角对行为数据进行梳理,从中提炼出可复用的行为元素(行为域、业务线、动作、对象、对象属性),并通过对行为元素进行组合定义不同的行为(行为域-业务线-动作-对象)。行为域聚合业务含义一致的行为数据,如电商域、文娱域;业务线基于行为域将行为数据进一步细分,各业务线之间相对独立,如淘宝业务线、天猫业务线;动作指行为主体发出的操作,如购买、浏览;对象指行为主体操作的具体事物,如商品、电影;对象属性是对象的描述性信息,如名称、品牌、年份。通过抽取沉淀行为元素,我们可以将来源数据更好地进行划分组合以得到具有明确业务含义的行为,如电商域-淘宝-购买-商品、文娱域-优酷-浏览-电影。通过沉淀行为元素,我们可以更好地规范来源数据,并减少重复建设和人力投入。
image

给同一行为选择不同的来源表并添加配置,即生成不同的行为规则(由行为+来源表唯一确定),后续标签生产将依赖已经构建的行为和行为规则。规则配置主要包括行为主体ID、对象、对象属性和行为发生次数,从来源表选择相应的字段,再通过行为规则的周期调度任务,我们就能得到持续更新的行为数据作为标签生产的来源。
image

3)标签中心:高效标签生产
构建完成行为和行为规则后,进一步地,我们将基于算法模型,通过简单的界面配置定义标签的生成规则。

标签的配置分为两大步骤:第一步首先基于定义的行为圈选出某标签需要依赖的行为数据,接着对预期得到的标签值和打标方式进行配置;第二步需要对已选的行为数据设置时间衰减模式,并基于业务含义给不同的行为分配不同的权重。例如,我们认为“购买母婴用品”和“观看亲子视频”的用户都可以被打上“母婴人群”的标签,那么第一步,我们将这两种行为相关的数据都勾选出来,设置预期标签值为“母婴人群”;第二步,我们认为近期的行为比之前发生的行为更有参考性,因此选择线性衰减模式,给近期行为赋予更大的时间权重;同时,基于业务经验,我们认为“购买母婴用品”比“观看亲子视频”更能精确定位到目标用户,所以给“购买母婴用品”行为分配更大的权重。这样,我们就完成了“母婴人群”这样一个购物偏好标签的生产。image

不同于传统标签生产,Dataphin数据萃取的用户只需要关心标签的具体业务含义和规则,而不用关心底层算法的实现,通过简单的界面操作即可完成标签的配置,并自动生成代码和周期调度任务,极大程度上降低了标签生产的难度和门槛。
image

4)萃取运维
最后,我们在萃取模块配置的行为规则和标签都会生成自动化调度的周期任务。在“运维”界面的“萃取运维”子模块下,我们可以从业务视角更清晰明了地查看相应任务和对应生成的实例,并针对异常调度通过补数据等操作回复生产。如此一来,业务人员也可以配置并查看萃取任务,大大降低了对技术人员的依赖。
image

  1. 总结
    Dataphin数据萃取功能上线后,批量生产十几个同类型的标签的时间从两周缩短到两天左右,而且可以监控标签生产任务,不管是速度还是正确性上都得到了很大的提升;参与的人员也从原本的数据产品经理、数据研发工程师、数据科学家为主导转变为更多的业务角色可以参与甚至主导。

Dataphin萃取数据中心的建立,帮助企业更好的实现了目标对象相关ID 的识别与连接、目标对象所有行为的规范化结构化聚集和目标对象相关标签属性的快速创建,从而快速构建企业自己用户数据资产,以便对接数据应用类产品,实现营销投放等。

看了这些介绍,是不是对Dataphin的数据萃取功能充满了期待和信心?那就快来体验一下吧~更多Dataphin的惊喜等你来挖掘!

结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:

Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
30天前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
232 2
|
15天前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
61 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
2月前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木,我们可以构建出城堡、飞机、甚至整个城市。现在,想象一下如果有一个数字世界的乐高,我们可以用这样的“积木”来构建智能程序,这些程序能够阅读、理解和撰写文本,甚至与我们对话。这就是大型语言模型(LLM)能够做到的,比如 GPT-4,它就像是一套庞大的乐高积木套装,等待我们来发掘和搭建。
103 1
|
3月前
|
人工智能 自然语言处理 前端开发
LangChain 构建问题之MetaGPT 和 ChatDev 的支持功能差异如何解决
LangChain 构建问题之MetaGPT 和 ChatDev 的支持功能差异如何解决
62 0
|
3月前
|
数据可视化 Unix Linux
LangChain 构建问题之可视化智能代理对游戏的生成过程如何解决
LangChain 构建问题之可视化智能代理对游戏的生成过程如何解决
26 0
|
8天前
|
存储 运维 区块链
区块链技术对数据中心的潜在影响
区块链技术对数据中心的潜在影响
|
6月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
3月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
6月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
|
6月前
|
人工智能 监控 物联网
探索现代数据中心的冷却技术
【5月更文挑战第27天】 在信息技术迅猛发展的今天,数据中心作为信息处理的核心设施,其稳定性和效率至关重要。而随着计算能力的提升,数据中心面临的一个重大挑战便是散热问题。本文将深入探讨现代数据中心冷却技术的进展,包括传统的空气冷却系统、水冷系统,以及新兴的相变材料和热管技术。通过对不同冷却方式的效率、成本及实施难度的分析,旨在为读者提供一份关于数据中心散热优化的参考指南。

热门文章

最新文章