2024年非结构化数据管理将以四种方式发生变化

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 2024年非结构化数据管理将以四种方式发生变化

本文来自 企业网D1net公众号

AI的快速增长将重塑数据管理的关键方面。本文的预测集中在优化AI和云技术的数据管理组件上,随着GenAI开启最终用户生产力和技术熟练的新纪元,其具有长期的影响。


如果说经济好的时候、坏的时候、不确定的时候、稳定的时候有一个不变的东西的话,那就是我们对大多数非结构化数据的依赖,以及我们从海量数据收集中得出的分析。非结构化数据是指当今公司的文档、图像、音频和视频文件、传感器数据和研究数据。


想想监控和车载摄像头视频加上快速DNA分析来更快地破案,供应链分析来预测核心产品和服务的可用性,传感器驱动的土壤和天气条件分析来提高作物产量,或者客户支持电话分析来改善产品和体验。


现在,有了GenAI,以及它提供的一长串潜在的社会效益和风险。正是IT专业人员管理数据,并将存储、保护和交付给用户和应用程序的技术作为数据经济的关键参与者。事实上,根据KomEnterprises《2023年非结构化数据管理状况》调查,为AI做准备是首要的数据存储优先事项,其次是云成本优化。


随着我们进入2024年,公司将需要创新并更智能地使用AI。数据存储和备份至少占IT预算的30%。我们下面的预测集中在优化AI和云技术的数据管理组件上,随着GenAI开启最终用户生产力和技术熟练的新纪元,其具有长期的影响。


1AI数据治理的多层次方法


KomEnterprises对IT决策者的调查发现,企业正在限制允许员工使用的工具和/或数据,这是重要的第一步,但AI数据治理需要一个战略规划。


GenAI创造了从隐私和安全到数据泄露、透明度、准确性、道德等诸多风险。IT不是依赖一个系统来管理这些不同的问题,而是需要部署多个AI安全工具层,从网络级别开始,以防止AI工具访问被阻止的数据或用户将公司数据发送到未经授权的AI服务。


第二级保护位于数据级别,审核哪些数据被移动到哪里,何时由谁 移动,并在个人身份信息或敏感数据被共享时发出警报。最后,在用户层可以存在一种安全机制,以便在用户使用公司或敏感数据设计提示时发出警告,或者在提示可能泄露太多公司背景时提供反馈。跨混合云存储对非结构化数据资产的可见性是保护数据和监控GenAI项目的基础。


2云迁移的财务运营专业知识


行业研究表明,管理云支出是企业面临的一大挑战,许多公司对这一支出或如何优化这一支出的可见性有限。 基本上,数据量继续超过存储,随着数据老化,IT领导者需要经济高效的数据选项,例如云对象存储。


根据KomEnterprises的调查,虽然在2022年,27%的企业管理着10PB或更多的数据,但今年,这一数据密集型所有者的比例已跃升至惊人的32%。过度采购存储容量以避免任何业务中断、云资源利用不足和一刀切的存储策略造成了大量浪费。


将财务运营融入日常实践将是从云数据迁移中产生价值和投资回报的核心因素。 在2024年,IT将需要在迁移项目前后了解数据存储成本和数据使用模式,并与上层管理人员清楚地沟通这些指标,以创建对云的认可。


采用分析优先方法进行非结构化数据管理的组织将避免云浪费,他们将能够删除重复和孤立的数据以及迁移前不再需要的数据,并可以将数据正确放置在适当的云层中,此分析应包括云存储的多个层之间的明显区别,这些云存储具有自动化流程,可在数据过时时将其移动到低成本存储,以最大限度地节省成本。


3储备IT专业人员的丰富技能


术语FinOps将成为2024年存储架构师术语的一部分。随着存储变得更加以软件和服务为中心,管理硬件的要求越来越低。相反,管理供应商、合同以及向部门和用户提供安全、经济高效的数据服务将占用存储专业人员的大量时间。公司也不再是单一供应商的商店,存储管理员必须能够在不同的技术之间切换,而不是专攻一个平台。


这需要在网络、安全、云架构、成本建模和数据分析方面拥有更广泛的技能和知识。“数据洞察工程师”或“数据管理架构师”等数据头衔将取代特定于存储的工作头衔。在成熟的基础设施团队中,负责存储的经理将与数据科学和AI团队合作,采购支持AI的基础设施,并设计数据分类和数据工作流到分析平台的计划。


4AI的非结构化数据准备


有了成本优化和AI数据治理的战略,IT部门就可以集中精力利用非结构化数据来满足新的用例需求,非结构化数据包含AI的隐藏价值。


IT领导者将寻找自动化方法来分析非结构化数据、索引元数据并使用AI和机器学习来丰富/分类数据,这将使团队能够运行深入的分析,以发现并仅将正确的数据提供给AI应用程序,从而为研究人员和数据科学家节省大量手动工作。



相关文章
|
1月前
灵活标签导出:一键满足多样化下游数据需求!
Dataphin标签平台支持导出标签时同步导出代码名称,解决了业务人员理解代码值的难题。用户可选择导出标签值、代码名称或两者,支持多数据源一键建表,实现与业务系统无缝对接。
灵活标签导出:一键满足多样化下游数据需求!
|
1月前
|
自然语言处理 中间件 测试技术
中间件数据格式结构化数据与非结构化数据之间的转换
中间件数据格式结构化数据与非结构化数据之间的转换
31 3
|
存储 数据采集 监控
为什么说元数据是数据治理的核心要素
我们不断听到关于大数据的爆炸式增长以及数据对任何领域的任何业务的重要性。但是,如此多的业务用户根本不使用他们的数据,因为他们不知道自己拥有什么(是否有企业数据的最新清单?),他们找不到它(是否组织中的任何人都知道重要数据的位置?)或者他们只是不信任它(我们找到了它,但它来自哪里,它意味着什么?)。
为什么说元数据是数据治理的核心要素
|
10月前
|
存储 自然语言处理 文字识别
非结构化数据怎么治理?
非结构化数据怎么治理?
|
存储 监控 负载均衡
海量非结构化数据存储中的小对象合并技术
随着人工智能, IoT 等技术的推广普及,智能监控,智能制造等新兴领域蓬勃发展,涌现出了越来越多的海量非结构化数据存储需求。
|
存储 数据采集 编解码
谈谈数据管理中的数据治理和元数据
数据治理是数据管理策略中最基本的功能,因为它是其他功能的中心和领导。在这里,我们应该对两个经常被误解的概念进行区分:
谈谈数据管理中的数据治理和元数据
|
数据采集 NoSQL 前端开发
数据处理-链路统计-数据库到前端展现|学习笔记
快速学习数据处理-链路统计-数据库到前端展现
155 0
数据处理-链路统计-数据库到前端展现|学习笔记
|
机器学习/深度学习 人工智能 监控
使用 Arize 监控非结构化数据(Arize)
为什么要 Embeddings? 我们认为 Embeddings 是人工智能和深度学习的基础。Embeddings 是深度学习模型如何表示模型所学习的结构、映射、层次结构和流形的核心。它们将现代深度学习从transformers扩展到编码器、解码器、自动编码器、推荐引擎、矩阵分解、SVD、图神经网络和生成模型——它们无处不在。
|
搜索推荐 BI
由结构化到组件
组件技术是当前有效处理软件开发当中软件复用最具有价值的技术方式,组件技术的合理采用会在本质上减少软件编写的时间,提升编写效率,减少维护成本的支出。