非结构化数据处理,为什么是Dataphin?

简介: Dataphin V6.1重磅推出非结构化数据处理能力,支持文档、音视频、图片等多模态数据的一站式资产化治理:提供7类50+开箱即用算子、可视化DAG编排、文件+元数据混合管理、细粒度权限与动态脱敏,实现与结构化数据统一治理、血缘追踪和版本管控。

背景

在企业数字化转型与AI应用落地的进程中,企业内部 80% 以上的数据都以非结构化形态存在——合同、客服录音、会议录音、培训视频、产品文档等。这类数据天然具备以下挑战:

  1. 资产化缺失
  1. 这类数据通常数量庞大,且散落在企业的各个角落,包括个人电脑、文件服务器、NAS存储、云盘、邮件系统以及各类业务应用的附件中,企业无法以全局视角统一查看和管理这些数据资产;
  2. 缺乏结构化的元数据信息对非结构化数据进行描述,无法快速定位有价值的信息。
  1. 较高的技术壁垒:
  1. 非结构化数据格式极其复杂多样,不同格式的文件均需专门的解析库与预处理工具,对开发人员的技术能力要求高;
  2. 从原始文件到可被 RAG/Agent 消费的向量,需要经历解析、清洗、切片、向量化等十余个环节,自研脚本难以维护。
  1. 治理标准缺位
  1. 敏感信息常隐藏于文档正文、图片或音视频中,在AI介入之前,这些文件可能无人问津。但是AI介入后,这些文件的权限管控就是重中之重,基于文件夹的粗粒度权限控制无法实现内容级的细粒度访问控制与动态脱敏;
  2. 传统依赖字段名的分类分级规则无法识别语义隐含与同义异构现象,导致敏感数据定级不准;同时,海量文件散落在各类系统中,缺乏自动化的内容提取与智能打标能力,难以建立统一的数据目录与血缘追踪,形成大量无法盘点的数据。

高质量的非结构化数据是AI理解真实世界复杂语境、构建企业专属知识壁垒并实现从通用智能向垂直领域精准决策进化的核心燃料。基于此,Dataphin在V6.1.0版本中,重磅推出“非结构化数据处理”的功能。

为什么是Dataphin?

面对以上挑战,我们怎么应对?

  • 提供丰富的多模态算子
  • 内置通用、文本、文档、图片、音频、视频、向量化在内的7种算子,满足不同模态的非结构化数据处理需求,开箱即用;
  • 可视化 DAG 编排
  • 拖拉拽即可完成复杂处理工作流的搭建,自动解析数据集间的血缘关系;
  • 除了支持离线的数据处理任务,在未来也将支持常驻的非结构化任务,做到数据更新实时响应;
  • 结构化与非结构化融合,统一资产底座
  • 将非结构化数据集与结构化表资产纳入同一平台进行治理,构建“结构化 + 非结构化”一体的企业级数据资产底座,同时提供数据血缘,清晰展示数据从原始状态到最终的全演变过程。
  • 打通结构化表(如客户ID)与非结构化数据(如客服录音)的语义关联,支持联合加工、联合检索、联合建模;
  • 企业级治理能力
  • 一键复用 Dataphin 已有的多版本管理、提交发布、Dev-Prod隔离、智能运维等成熟能力;
  • 在未来,我们也将引入更细粒度的知识库管理和治理能力,满足AI时代的知识库治理诉求。

功能介绍

Dataphin 将非结构化数据处理具象化为两个核心概念:数据集(Dataset)工作流(Workflow),分别对应"数据资产形态"与"加工编排能力"。

数据集

数据集是 Dataphin 中一种全新的非结构化数据资产形态,按内部组成分为三种类型:

数据集类型

是否包含文件存储

是否包含元数据表

说明

混合数据集

同时包含文件存储和元数据表的数据集为混合数据集,其中:

  • 文件存储用于表明非结构化数据存在哪里;
  • 元数据表用于描述当前数据集,例如:这个数据集中有哪些对象,对象的存储URL是什么,等等;

文件数据集

仅指明文件存储的数据集,通常是最初始的数据集

表数据集

仅存放纯文本/结构化描述信息的数据集(例如纯文本知识库)

关键概念解释:

  • 文件存储:指数据集中非结构化数据的实际物理存储位置,例如 oss://my-bucket/contracts/
  • 元数据表:指对数据集进行结构化描述的表。例如一个合同数据集中有哪些文件、每个文件的 URL、解析后的文本、识别出的甲方乙方等信息,都通过元数据表的字段进行记录。
    功能特性:
  • 三种数据集类型:文件数据集、表数据集、混合数据集,覆盖纯文件、纯元数据表、文件+元数据表三种典型场景;
  • 文件存储:当前支持对接OSS,未来将扩展更多对象存储;
  • 元数据表:当前支持对接PostgreSQLMilvus,更支持在页面创建向量化字段;
  • 挂载路径:支持在 Python / Shell 任务中以挂载路径方式直接读写数据集文件,打通研发与处理链路;
  • 多版本管理:每个数据集支持多版本沉淀,工作流中各算子的输出落到不同版本,保障可追溯。

工作流

工作流是 Dataphin 面向数据集提供的可视化处理任务,本质上是一个由若干算子通过 DAG 拖拉拽编排而成的处理流水线。

算子分为七大类、50+ 个:

类别

典型算子

通用

文件基本信息、MD5精准去重

文本

文本chunk切分、特殊字符移除、违规内容替换、隐私信息打码、SimHash值计算、文本推理(LLM)、多语言文本质量分、简繁体转换、HTML正文提取

文档

PDF 解析、PPT 解析、Word 解析、Excel 解析

图片

图像基本信息、图像水印检测、图片理解、图像近似去重(感知hash)、图片NSFW、图像美学分、图片OCR、图像质量分

音频

音色变换、音频合成检测、音频时间戳、音频语种检测、音频人声检测、音频转码、音频增强、音频质量分、音频说话人分离、音频切片、音频转文本(ASR)、音频基本信息

视频

视频基本信息、视频音频检测、视频关键帧抽取、视频格式转换、视频切片、视频画质质量分、视频抽取音频

向量化

文本 Embedding、图片 Embedding

功能特性:

  • 七大类 30+ 算子:通用 / 文本 / 文档 / 图片 / 音频 / 视频 / 向量化,开箱即用;
  • DAG 可视化编排:拖拉拽完成复杂流水线设计,支持算子并行/串行混合编排;
  • 算子粒度资源配置:每个算子可独立设置资源规格、超时时间等参数;
  • 自动血缘解析:自动识别数据集与数据集之间的输入输出关系,沉淀血缘网络;
  • 模型支持:支持对接兼容OpenAI调用协议的多模态模型,未来也将支持更多不同调用协议的模型;
  • 提交发布与运维闭环:与 Dataphin 离线任务一致的发布流程、运维中心、告警体系,工作流任务即"企业级任务"。

数据集的资产管理

非结构化数据集的资产化能力也同步纳入 Dataphin 资产清单,支持但不限于:

  • 支持查看数据集基本信息(类型、文件存储、元数据表配置等);
  • 支持查看数据集版本信息血缘关系
  • 支持文件预览(图片、文档、音视频等)与元数据预览
  • 支持查看数据集的产出任务列表使用说明,便于上下游协同。

元数据在线预览

image.png

血缘图

结语

Dataphin V6.1 推出的非结构化数据处理能力,让企业的文档、图片、音视频等非结构化资产首次拥有了与结构化数据同等的"企业级"治理待遇——可被任务直接读写、可被血缘追踪、可被版本管理、可被发布运维。我们期待与开发者、合作伙伴一起,将这套底座共同打磨为面向 AI 时代的事实标准。

未来我们也将推出知识图谱、实时非结构化工作流等AI时代的重磅功能,敬请期待。

相关文章
|
2天前
|
数据采集 人工智能 数据可视化
从数据到知识:Dataphin 知识图谱,重新定义企业智能决策
Dataphin知识图谱助力企业从PB级数据迈向可理解、可推理、可决策的知识智能。它深度融合数据研发体系,支持可视化建模、结构化/非结构化数据双通道入图、Schema全生命周期管理及GraphRAG问答,真正实现“数据即知识”。
259 0
从数据到知识:Dataphin 知识图谱,重新定义企业智能决策
|
3月前
|
SQL 分布式计算 关系型数据库
Dataphin功能Tips系列(92)如何方便快速地通过SQL取数实现定制化数据同步
本文介绍如何在Dataphin中实现MySQL到MaxCompute的T-1增量数据同步:通过离线集成任务,将MySQL输入组件切换为脚本模式,利用`querySql`配合`${extract_date}`动态参数(默认`${yyyy-MM-dd}`),精准抽取前一日订单数据,配置调度后即可全自动运行。
255 5
|
3月前
|
Kubernetes 调度 流计算
Flink on Kubernetes 自定义镜像能力:让企业存量实时任务零成本迁移,实现统一平台管控
Dataphin推出Flink on Kubernetes自定义镜像能力,支持企业直接复用存量业务镜像与K8s配置,零代码改造、零环境风险完成实时任务迁移,实现“业务不动、管控升级”,兼顾稳定性与平台化治理。
157 0
|
1月前
|
人工智能 运维 架构师
我在 AIP 智能体平台踩过的坑,都在这篇企业 AI 落地经验里了
软件架构师罗小东分享企业AI落地实战经验:聚焦AIP智能体平台建设中的真实坑点与解法——涵盖智能体全生命周期管理、多源知识库语义检索、MCP工具集成及多模型中立架构设计,强调“解决问题”而非堆砌功能。(239字)
|
5月前
|
人工智能 前端开发 API
X-应用创作:您专属的全栈工程师,根据需求直接生成可上线的应用
Dataphin在V5.5推出“X-应用创作”,利用大模型丰富的全栈开发能力,结合系统内部的数据服务API,面向多元应用场景,快速构建高效且美观的微应用。
219 4
|
7月前
|
数据采集 人工智能
Dataphin X-数据质量,智能分析质量问题并推荐整改建议
针对数据治理中质量问题难发现、根因定位难、整改效率低等痛点,推出AI驱动的数据质量问题智能分析功能。通过智能分析异常、追溯根因、构建数据证据链,自动生成含改进建议与影响评估的质量报告,提升治理效率与决策可靠性。
345 3
|
3月前
|
数据可视化 定位技术
Dataphin功能Tips系列(94)Dataphin 构建外部数据系统血缘统一管理解决方案(1)
Dataphin支持通过OpenAPI注册外部系统血缘,补全全链路数据地图断点。提供BY_GUID/BY_PROPERTY两种方式,支持表级与字段级血缘纳管及可视化展示,助力血缘追溯与影响分析。
180 1
|
3月前
|
数据可视化 定位技术
Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)
Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。
175 1
|
3月前
Dataphin登录系统重磅升级:界面化SSO配置、多账号登录功能上线
Dataphin V6.0推出界面化SSO配置与多账号体系登录功能,支持CAS、OAuth2.0、SAML、飞书等多种协议,解决旧版配置复杂、不支持多源登录等痛点,提升企业单点登录体验与管理效率。
285 0
|
9月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
509 2