暂时未有相关云产品技术能力~
Dataphin智能数据建设与治理官方出口。
Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V5.0版本研发新增支持Databricks作为离线计算引擎、支持MySQL数据库一键增全量同步、支持管理Hudi、Delta Lake表等;资产运营与消费持续提效,支持批量编辑目录名称及描述、Quick BI仪表板的上架管理等功能,增加资产可用性与盘点效率。
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
在企业级数据集成中,常需循环调用API获取全量数据,如零售企业每日拉取多门店销售流水。传统方案面临分页采集不全、多参数轮询效率低、动态终止条件缺失等问题。本文介绍一种高效方案,支持分页循环与参数遍历循环两种模式,自动处理分页接口与多参数轮询,灵活设置终止条件,提升数据采集完整性与效率,适应数据波动与接口变化,降低运维复杂度。
Dataphin JDBC提供了统一访问Dataphin中数据的功能,助您实现数据权限的集中式管理。
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。
码表(Lookup表)由可枚举数据组成,用于存储名称与编码的映射关系,适用于属性值约束和质量监控。本文介绍在Dataphin创建码表的三种方式:1) 引用内置模板库,如行政区划、度量单位等标准码表;2) 从已有维表逆向生成码表,实现数据资产复用;3) 自定义创建,支持在线编辑或本地导入。通过这些方式,用户可高效管理码表,提升数据标准化水平,并将其应用于数据标准和质量规则中,确保数据一致性和合规性。
通过Dataphin的业务指标定义和管理功能,业务人员能够以标准化方式快速创建业务指标并详细说明其详情,从而实现与技术人员的高效沟通,促进相关技术指标的快速开发。此外,业务人员还可以利用Dataphin的指标关系图功能,直观地理解指标的加工逻辑,并迅速定位异常数据根因,从而显著提高问题解决的效率。
为提升API数据交互安全性,Dataphin 5.1推出两种新认证方式:基于OAuth 2.0的动态授权与请求签名认证。前者通过短期Access Token确保安全,后者对关键参数加密签名保障数据完整性。功能支持API数据源OAuth 2.0认证和自定义签名配置,未来还将拓展更灵活的认证方式以满足多样化需求。
数据集成中,离线与实时方式各有优劣。为解决传统“全量+增量”双轨模式运维复杂的问题,Dataphin 5.0推出“全量+增量一体化实时同步”功能。用户仅需创建一个实时任务,即可完成整库或多表的数据迁移,系统自动协调全量与增量同步,简化管理并降低运维成本。该功能支持灵活配置启动范围与方式,提供实时监控及操作能力,大幅提升数据同步效率与稳定性。
Dataphin推出MCP服务,助力Agent高效获取数据,释放企业数据价值。
Dataphin在5.0版本新增“调度资源弹性伸缩”功能,通过设置资源组的Min(保障资源)和Max(上限资源),优化资源共享逻辑,提升集群资源利用率。方案涵盖三种资源分配场景,并支持查看实时使用量。
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
数据治理冷启动常因沟通协调多、流程长且配置繁琐而受阻。Dataphin 提供多种内置模板,涵盖数据标准码表(如行政区划、度量单位等)、安全分类分级(如金融、能源行业规范)、数据质量规则(40+常用规则)及识别特征(如手机号、身份证号),助力企业快速构建治理框架,提升效率,加速数据战略实施。
数据资产运营常需跨部门协作,使用在线文档梳理信息并快速录入系统至关重要。Dataphin 支持通过 Excel 模板批量导入专题、目录及资产配置,大幅提升效率。场景包括:1) 专题目录初始化配置,快速完成多层级目录定义;2) 批量修改专题目录,适配组织结构调整;3) 批量修改资产信息,实现线上协同编辑与更新。系统还提供异常预检与高亮提示,确保导入准确性,助力高效资产盘点与运营。
DataphinV4.5版本通过展示血缘关系图、质量概况和元数据变更记录,助力解决这些问题。血缘关系帮助厘清数据依赖链路,质量概况提供数据可靠性评估依据,元数据变更记录便于追踪数据变动影响。这些功能丰富了资产信息,有助于提升数据分析与开发的效率,减少沟通成本。
本文介绍了数据服务产品中异步调用的应用场景与优势,包括大数据引擎查询、复杂SQL及大规模数据下载等场景,解决了同步调用可能导致的资源浪费和性能问题。通过创建异步API、测试发布以及权限申请等功能,实现高效稳定的服务提供。以电商订单查询为例,展示了如何利用异步调用提升系统性能与用户体验。
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
本文介绍了基于增全量一体实时集成的库存管理与分析解决方案。通过将业务中台的库存表同步至MaxCompute Delta表,实现离线与实时分析的统一支持。相比传统方案,该方法确保数据一致性,优化存储成本,降低维护复杂度,并大幅提升实时性,满足高效库存管理需求。
用户留存率是指在互联网行业中,某段时间内新增用户中,在后续特定时间点或时间段内继续使用应用的用户比例。它是衡量应用质量和用户保留能力的重要指标。 本文为您介绍如何基于Dataphin规范建模结合SQL加工能力进行留存率指标开发。
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
随着大模型技术突破,全球企业迎来数据智能革命。Gartner预测,到2027年,中国80%的企业将采用多模型生成式AI策略。然而,数据孤岛与高门槛仍阻碍价值释放。
支持通过Spark本地客户端提交Spark Batch任务
离线集成输入端支持mysql数据源分库分表
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
审计日志导出
Hadoop集群管理
实时研发-基于Flink on k8s
API的非必填参数(2)-未传参时指定默认值
识别特征(2)-识别字段的分类分级
API的非必填参数(1)
离线集成之增量追加
借助词根进行字段命名
排他编辑锁
通过Python脚本连接数据库
限流配置
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
目前,用户在Dataphin上进行数据开发时,风格各异,缺乏一致性。为此,我们整理了一份开发规范文档,旨在帮助所有用户实现更高效和一致的开发流程。
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
为您提供Dataphin快速上手操作指南,一起轻松构建数据
在“点数成金”时代,企业数据成为宝贵资产。12月18-19日,信通院“2024数据资产管理大会”在京举办,瓴羊政企金融事业部总监徐宁分享了Dataphin在数据治理领域的创新方法论与实践经验,强调数据资产双循环和元数据管理的重要性。瓴羊副总裁王赛获颁数据资产管理专家证书。
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。