AI场景下的对象存储OSS数据管理实践
本文介绍了对象存储(OSS)在AI业务中的应用与实践。内容涵盖四个方面:1) 对象存储作为AI数据基石,因其低成本和高弹性成为云上数据存储首选;2) AI场景下的对象存储实践方案,包括数据获取、预处理、训练及推理阶段的具体使用方法;3) 国内主要区域的默认吞吐量提升至100Gbps,优化了大数据量下的带宽需求;4) 常用工具介绍,如OSSutil、ossfs、Python SDK等,帮助用户高效管理数据。重点讲解了OSS在AI训练和推理中的性能优化措施,以及不同工具的特点和应用场景。
DAMA数据管理知识体系指南(4):数据架构
DAMA:国际数据管理协会,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,是当前国际上在数据治理领域最权威的机构。 DMBOK2则是DAMA组织众多数据管理领域的国际级资深专家编著,深入阐述数据管理各领域的完整知识体系。它是市场上唯一综合了数据管理方方面面的一部权威性著作。 本系列文章,将针对DMBOK中的核心内容进行解读。
DMBOK 读书笔记系列 元数据
元数据最常见的定义是:关于数据的数据。元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。
数据管理的艺术:PolarDB开源版详评与实战部署策略(一)
PolarDB-X是阿里巴巴自研的高性能云原生分布式数据库,基于共享存储的Shared-nothing架构,支持MySQL生态,具备金融级高可用、分布式水平扩展、HTAP混合负载等能力。它通过CN(计算节点)和DN(存储节点)实现计算与存储分离,保证数据强一致性,并支持全局二级索引和多主多写。PolarDB-X开源版提供更高程度的定制化和控制权,适合追求技术自主性和成本优化的开发者。部署方式包括RPM包、PXD工具和Kubernetes,其中PXD工具提供了一键部署的便利性。
推荐 | AllData开源数据中台项目
AllData是一个可定义的数据中台,采用Wujie微前端架构和可插拔后端设计,提供全链路数字化解决方案。它包括数据平台、数据中台、机器学习平台和大模型应用,旨在连接和优化数据处理流程。项目已在GitHub上开源(https://github.com/alldatacenter/alldata),并提供了详细的官方文档和安装指南。AllData 2.0版本针对商业版和开源版的功能进行了区分,商业版在稳定性方面表现更优,同时增加了数据平台等功能。项目团队积极参与开源社区,致力于提供稳定的架构和不断改进的用户体验。
数据管理进化论:DMS助力企业实现智能Data Mesh
Gartner分析师认为Data Mesh对企业提升数据价值交付效率具有重要意义,阿里云数据管理服务DMS给出了对于Data Mesh的核心思考,包括企业什么时候应该考虑实施Data Mesh,如何解决业务团队素养和意愿问题。结合这些思考,DMS提出了企业可行的落地策略,即企业应以数据价值不断提升为导向,基于元数据驱动的Fabric、AI等能力实现智能Data Mesh,最终形成分布式和集中化的动态平衡,以达到企业数据驱动的最佳状态。