• 关于 元数据 的搜索结果

回答

统一的元数据管理,可以实现: • 持久化的元数据存储。 之前元数据都是在集群内部的mysql数据库,元数据会随着集群的释放而丢失,特别是EMR提供了灵活按量模式,集群可以按需创建用完就释放。如果用户需要保留现有的元数据信息,必须登录集群手动将元数据信息导出。支持统一的元数据管理之后,不再存在该问题。 • 更方便地实现计算存储分离。 EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后机器可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。 • 更方便地实现数据共享。 使用统一的元数据库,如果用户的所有数据都存放在OSS之上,则不需要做任何元数据的迁移和重建,所有集群都是可以直接访问数据,这样每个EMR集群可以做不同的业务,但是可以很方便地实现数据的共享。

LiuWH 2020-03-20 09:39:23 0 浏览量 回答数 0

问题

归档存储的计费方式

云栖大讲堂 2019-12-01 21:06:54 1316 浏览量 回答数 0

回答

XSQL团队在设计阶段,对业内诸多类似平台进行了调研,发现凡是数据源自身进行元数据管理的,元数据管理也是最大的痛点。当一个平台站在上帝视角,管理众生时,他不得不为了满足众生的需求,东奔西跑。放弃元数据的中心化可以避免数据同步、数据不一致,数据延迟等不利因素。XSQL也因此在部署上更加轻量、简便。XSQL通过缓存与实时获取元数据相结合的方式,避免了元数据管理的臃肿。此外,这种设计也将在部署和运维中带来收益——部署变得更加简单,并且不需要强制依赖任何的外部存储。下图简要展示了XSQL的元数据去中心设计。

kun坤 2020-04-24 14:47:48 0 浏览量 回答数 0

高校特惠专场

助力学生创业梦,0元体验,快速入门云计算!

问题

E-MapReduce表管理是什么?

nicenelly 2019-12-01 21:17:33 1230 浏览量 回答数 0

问题

E-MapReduce表管理是什么?

nicenelly 2019-12-01 21:22:15 916 浏览量 回答数 0

回答

由于区块链是一个共享的账本,为了保证电子证照数据的私密性,共享数据不会直接存储在区块链上,而是通过智能合约将其锚定为区块链上的数字资产。当以数据库方式提供时,将政府业务库中共享的数据同步一份到其前置机的ODS中后,再将该部分共享数据在ODS中的访问信息加密后作为数字资产的元数据;当以数据文件方式提供时,是将政府业务库中可共享的数据经过加密后,写到ODS的文件系统中,形成一个共享数据文件,再将该共享数据文件的完整性哈希值作为数字资产的元数据存储在区块链上,而共享数据文件本身依然存储在政府业务库前置机的ODS中。 其中,数字资产包括头信息和数字资产元数据两部分,具体分析如下。 (1)头信息:包括版本号、数据类型、哈希算法。其中,版本号表示数字资产解析标准使用的版本的编号;数据类型表示数字资产是非结构化数据(文件存储方式)还是结构化数据(数据库存储方式);哈希算法表示计算文件完整性所采用的哈希算法,如MD5、SHA1、SHA256、SHA3等,当数据类型为非结构化数据时该字段才生效。 (2)数字资产元数据:如果共享数据为结构化数据,则数字资产元数据表示政府业务系统前置机ODS的访问接口信息的加密字符串;如果共享数据为非结构化数据,则数字资产元数据表示共享数据文件的完整性哈希值。即,结构化数据的数字资产为:版本号+数据类型+数字资产元数据;非结构化数据的数字资产为:版本号+数据类型+哈希算法+数字资产元数据。 数据共享方通过区块链客户端发布数字资产时,数字资产被记录在交易负载中后提交到预置智能合约,实现数字资产的发布。 可信电子证照实际上是采用一种链上链下相结合的存储方式,以此来实现共享数据的存储与接入,并能保障数据在存储上的私密性和区块链的存储效率。这样做的好处是,在区块链的持续记账过程中,可防止区块链的链上数据过度膨胀,保障交易效率。具体而言,对占用空间较小的文本数据直接采用链上存储,对占用空间较大的数据或者文件则将访问这类数据的元数据信息采用链上存储,文件本身采用链下存储。链下存储可以是任意网络文件系统、文件链接、点对点分布式文件系统等,如IPFS等。

问问小秘 2019-12-02 03:10:06 0 浏览量 回答数 0

问题

如何为Spark SQL设置元数据数据库?

社区小助手 2019-12-01 19:28:44 735 浏览量 回答数 1

问题

对大数据平台中的元数据管理是怎么理解的,元数据收集管理体系是怎么样的,会对大数据应用有什么样的影响

Runt 2020-04-14 18:23:15 1 浏览量 回答数 1

回答

web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司里的第一个项目就是数据质量管理,在这里在说下数据质量管理: 通过制定、实施数据质量检核,暴露各系统数据质量问题。持续监控各系统数据质量波动情况及数据质量规则占比分析,定期生成各系统关键数据质量报告,掌握系统数据质量状况。结合系统提供的清洗组件以及数据质量问题处理流程为各系统数据质量提升提供有效支撑。数据质量(DataQuality)管理是贯穿数据生命周期的全过程,覆盖质量评估,数据去噪,数据监控,数据探查,数据清洗,数据诊断等方面。数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、唯一性、一致性、准确性、合法性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。数据质量管理准则包括测量、提高组织数据的质量和整合性的方法。数据质量处理包括数据标准化、匹配、生存和质量监测。数据必须具备适当的质量,以解决业务要求问题。 结合大数据的参考框架及数据处理实际需求情况,数据质量管理系统主要功能定位为:数据发现、质量管理、元数据、主数据管理和信息政策管理。在数据生命周期中,数据的获取和使用周期包括系列活动:评估,分析,调整,丢弃数据,目前数据清洗的模型: 基于粗糙集理论数据清洗 基于聚式模式数据清洗 基于模糊匹配数据清洗模型 基于遗传神经网络数据清洗 基于专家系统体系结构等数据校验及转换 数据校验的目的是确保抽取数据本身的正确性和完整性, 数据转换的目的是保证数据的一致性数据清洗流程1数据预处理: 包括数据元素化,保准化 2确定清洗方法: 3校验清洗方法:先验证所用的清洗方法是否合适,抽取小样本进行验证,判断其召回率和准确率 4执行清洗工具: 5数据归档:将新旧数据源进行归档处理,方便以后的清洗一般情况下,模式中反应的元数据对应判断一个数据源的质量远远不够,因此通过具体实例来获得有关数据熟悉和不寻常模式的元数据很重要。这些元数据可以帮助发现数据质量问题,也有助于发现属性间的依赖关系,

xuning715 2019-12-02 01:12:15 0 浏览量 回答数 0

回答

BlueStore 通过将元数据保存到 RocksDB 来实现快速的元数据操作;通过下面两点来避免一致性开销: 直接写数据到裸盘,从而只有一次 cache flush; 修改 RocksDB 将 WAL 作为 circular buffer 使用,从而达到元数据写入只有一次 cache flush——这个 feature 已经 upstream 到上游。 BlueFS 实现了像 open、 mkdir、 pwrite这些 RocksDB 所需的基本系统调用。BlueFS 的磁盘布局如下图。 BlueFS 为每一个文件维护一个 inode,其中包含为这个文件分配的 extent 信息。superblock 保存在固定位置,包含 journal 的 inode。journal 有文件系统元数据的唯一副本,mount 时加载到内存。每当有元数据操作例如创建目录、文件和分配 extent 时,journal 和内存里的元数据会被更新。journal 不保存在固定位置,它的 extent 会与文件的 extent 有交错。每当达到一个阈值时,journal 会被压缩并写到新的位置,这个新的位置被记录到 superblock 里。这样设计之所以可行是因为得益于大文件和周期压缩会限制任一时刻 volume 元数据的数量。 关于元数据组织,BlueStore 在 RocksDB 中使用了多个命名空间,每个命名空间用来保存不同类型的元数据。举例来说对象信息都保存在命名空间 O 中(也就是说 RocksDB 中 O 开头的 key 都表示对象的元数据),块分配元数据保存在命名空间 B,集合元数据(collection metadata)保存在命名空间 C。每个集合(collection)映射到一个 PG,并代表 pool namespace 的一个 shard。collection 的名字包含 pool 的标识和collection 里对象名字的统一 prefix。 举个例子,一个 kv:C12.e4-6标识 pool 12 的一个集合,这个集合里的对象的哈希以 e4 的 6 个最高有效位开头(hash values starting with the 6 significant bits of e4)。例如对象 012.e532 就是这个集合的成员(前六位是 111001),而 012.e832 就不是(前六位是 111010)。这种元数据组织方式允许通过只修改有效位数的数量(the number of significant bits)把数百万的对象分割成多个集合。这样比如有加入的 OSD 增加了总容量或者现有 OSD 因为失效从集群移除时,FileStore 在拆分 collection 时就需要昂贵的目录拆分,而 BlueStore 就简单很多。

kun坤 2020-04-23 19:51:35 0 浏览量 回答数 0

回答

hive 的内部表和外部表的區別是 hive 的内部表是由 hive 自己管理的,外部表只是管理元数据,当删除数据的时候,内部表会连数据和元数据全部删除,而外部表则只会删除元数据,数据依然存放在 hdfs 中。外部表相对来说更加的安全一些,数据的组织也更加的灵活一些,方便共享源数据

游客6nvww5bb5kd2w 2020-02-14 19:37:47 0 浏览量 回答数 0

回答

HDFS是分布式文件系统,提供统一的接口给用户访问文件系统,主要特性为高可用性、高吞吐、多租户等特性。Mongodb是分布式的数据库,既然是数据库就需要将元数据以及存储的kv数据保存在文件系统中,所以Mongodb的editlog等元数据数据(类似于mysql的binlog)需要刷新到hdfs中,同时在分布式系统中,故障是常见的,这样当一台mogodb挂机的时候,其他的服务器能够读取hdfs中存储元数据和数据文件而不丢失任何数据。简单的说相比较于单机系统,mongodb类比于mysql,hdfs类比于linux。

meng1986712 2019-12-02 01:43:27 0 浏览量 回答数 0

回答

通过Information_Schema元数据的TASKS_HISTORY明细来查,元数据服务Information_Schema已经全面开放,大家可以使用此服务查询项目内关键对象的元数据信息,在元数据之外,也提供了包括作业运行、数据上下传使用历史的行为数据。 具体可参考官方文档操作:https://help.aliyun.com/document_detail/135432.html 如有更多疑问咨询可以加入MaxCompute开发者社区钉群点击链接

montos 2020-05-27 14:03:01 0 浏览量 回答数 0

回答

关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段,这样的结构可以便于表与表之间进行连接等操作,但从另一个角度来说它也是关系型数据库性能瓶颈的一个因素。而非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。比如 有条2条数据,都在一张表里数据1:物品名称:桌子材质:木头数据2:物品名称:苹果是否成熟:是如果是MySQL建表,那就是建3列(数据名称,材质,是否成熟),只是有些行中有些列没值或者没用。比如,苹果就不需要材质列。在Mongodb中,没有列的概念,只有存储的键值。也就是每行以key-value的方式存储,在等同的Mysql的表概念中。存储的行数据每行列都不一样。第一行没有是否存储的key,第二行没有材质的key

落地花开啦 2019-12-02 01:53:59 0 浏览量 回答数 0

回答

基于阿里云存储的文档、图片、视频等多媒体数据,典型的应用场景有图片应用、网盘应用等,针对目前的架构进行如下场景分析。 场景分析1:图片应用 对于图片应用来说,它首先上传图片、视频到对象存储中;随着业务的不断发展和法规政策的监管需求,会增加鉴黄检测、标签检测、人脸检测、OCR 识别等 AI 分析功能,如下图所示。 图片社区 通常,图片应用会选择采用业务服务器安装不同厂家的 AI 分析能力,通过这些功能得到关键的元数据信息,然后保存到数据库中,从而更好的支撑元数据检索,支撑业务和监管的需求。 场景痛点 采用此方案,会存在如下的痛点: 接口不统一。因为有多厂家的选型,需要考虑不同厂家接口的兼容性。 资源浪费。同一张图片会被多次读取,甚至是传输到外部网络,浪费网络带宽。 无存量数据的低成本批量处理方案。采用厂商的同步处理价格高昂,需要提供存量数据的低成本批量处理方案,接受异步接口返回检测结果(比如针对存量的 OSS Bucket 里面的所有图片,进行打标处理)。 场景分析2:网盘 对于网盘应用来说,通常需要用户登录、目录服务、数据直传 OSS、AI 智能处理等功能。通过后端使用服务器和数据库,其架构如下图所示。 网盘 为了支撑网盘的数据管理,通常需要提供各类元数据管理,特别是在 AI 智能处理场景下,需要定义相关的存储格式,处理数据库的异常,这带来了较大的开发难度。 场景痛点 采用此方案,会存在如下的难点: 元数据表设计难度大。针对不同的元数据,需要分类设计各类表结构存储,有相当的技术门槛。 多维度元数据管理有挑战。需要组合多种元数据,进行关联查询处理,存在设计挑战。 维护元数据的的一致性难题。解决这些元数据在异常场景下的恢复处理,是系统级难题。 智能媒体管理产品优势 针对上述场景痛点的分析,智能媒体管理服务围绕 6 个关键点(海量数据、端云拉通、标准统一、智能分析、场景结合、一键处理)进行设计,从而提供基于场景的 AI 智能处理方案,如下图所示。 痛点 通过针对性的架构设计,使用智能媒体管理存在如下优势: 存储数据无缝贴合。与 OSS 云存储产品直接关联,自动处理云上数据。 丰富数据处理。结合业界优秀的识别、处理能力,为您的应用处理提供丰富的功能支持。 简化运维。提供 Serverless 化服务,无需关心业务运维。 场景化一站式解决方案。面向场景的构建快捷的元数据管理,快速实现应用。

1934890530796658 2020-03-31 14:54:11 0 浏览量 回答数 0

问题

在西部数据预定过vip域名的人请检查下钱有没有被吞

qq1347939332 2019-12-01 21:27:47 3181 浏览量 回答数 1

回答

资费项 计费项 标准型单价 低频访问型单价存储费用 (注①) 数据存储 0.148 元/GB/月 敬请期待流量费用 (注①) 内/外网流入流量(数据上传到OSS) 免费 内网流出流量(通过ECS云服务器下载OSS的数据) 免费 外网流出流量 00:00-08:00(闲时):0.25元/GB8:00-24:00(忙时):0.50元/GB CDN回源流出流量 0.15元/GB 跨区域复制流量 0.50元/GB 请求费用 所有请求类型 0.01元/万次 数据处理费用 (注②) 图片处理 每月0-10TB:免费10TB:0.025元/GB 备注说明1、如您数据规模超过500TB及以上,可享受更多折扣!欢迎来电垂询(电话:95187转1)2、OSS提供的图片服务按图片原文件的大小计算数据的处理量进行计量,按小时计费(按量付费)。不使用图片服务的相关功能(如:图片在线裁切、缩略、水印等功能)不计费。

51干警网 2019-12-01 23:26:19 0 浏览量 回答数 0

回答

你好,pg_xlogdump是查不出数据的,要查出数据,首先要有数据结构,然后要有数据。数据结构是需要查数据库的元数据才能查到,pg_xlogdump不干这件事。PostgreSQL提供的逻辑复制功能,例如test_decoding模块,原理也是如此,首先要创建SLOT,SLOT保证你在解析XLOG时,数据库的元数据还在,因此可以解读出XLOG的数据。PostgreSQL基于XLOG的恢复并不是逻辑恢复,而是物理块的恢复。所以不需要解读数据。

德哥 2019-12-02 01:30:36 0 浏览量 回答数 0

问题

什么是实例元数据

boxti 2019-12-01 21:40:35 1166 浏览量 回答数 0

回答

因为木有元数据,一般eclipse关联svn,eclipse会自动生成元数据,即使你断开了链接,不删除元数据,下次还是能svn的,而且版本信息也不会变,但是你删除了元数据,然后再链接svn,因为没有以前版本信息,所以你一链接当前的svn,以前的版本会被现在的版本给覆盖掉

爵霸 2019-12-02 02:28:58 0 浏览量 回答数 0

回答

智能媒体管理服务(IMM)围绕 6 个关键点:海量数据、端云拉通、标准统一、智能分析、场景结合、一键处理 设计,采用如下的分层架构。 智能媒体管理架构图 产品架构 基于架构图的描述,IMM 服务有依赖的上下文,架构包含 3 层:处理引擎、元数据管理、场景化封装。 智能媒体管理架构依赖上下文 对下依赖阿里云的对象存储、文件存储等服务,通过安全的机制访问里面存储的非结构化数据(例如图片、视频),提取价值信息。 对上基于场景理解,进行封装,支撑视频网盘、手机相册、社交图库、家庭监控等图片、视频应用场景,为它们产生新的价值。 处理引擎层 基于阿里云存储,提供就近构建计算框架,该框架支持批量异步处理、准实时同步处理,在一键关联云存储(例如,指定 OSS Bucket 的目录前缀、指定 OSS Bucket 的某个对象)后,实现快速的自动数据处理,通过整合业界领先的数据处理算法,目前处理引擎提供如下功能: 文档格式转换。支持将包括 OFFICE 在内的 48 种文档转换为 JPG、PNG、PDF、VECTOR 格式,从而更好的支持文档预览功能。 内容识别。通过 AI 技术,识别图片中的物品标签,从而实现机器的制动打标,更好的支撑推荐应用。 人脸识别。通过 AI 技术,识别图片中的人脸,检测出人脸框,判断人脸姿势、年龄、性别等属性。 元数据管理层 基于处理引擎提供的功能,通过对场景的深入理解和梳理,IMM 封装了场景的元数据设计,对外提供场景的元数据访问接口,简化场景应用的设计难度、无须关注元数据索引数据库的运维工作,目前支持如下的元数据索引: 人脸聚类索引。构建元数据集合,然后调用人脸分组的接口分析图片,把得到的元数据加入到该元数据集合中,从而可以得到该集合中相似的人脸。通过该索引,可以快速的支撑网盘的人脸相册、家庭监控的陌生人检测、甚至新零售的顾客管理等场景。 标签分组索引。构建元数据集合,然后调用标签分组的索引接口分析图片,把得到的元数据加入到该元数据集合中,从而可以根据标签搜索图片。通过该索引,可以快速的支撑网盘的场景相册、家庭监控的宠物跟踪、甚至暴力、恐怖、色情图片等标签的搜索。 场景封装层 通过阿里云对场景的支撑,把 处理引擎层 和 元数据管理层 的功能进行包装,并按照资源包方式提供出来,从而简化使用,方便应用快速的接入,实现 AI 和场景的紧密结合,目前支持如下的场景实例: 文档标准型。把文档相关的格式转换、预览整合,让你快速实现文档的智能管理能力。 图片标准型。把内容识别(标签检测)、人脸检测的 AI 功能整合,让你快速实现图片的智能管理能力。 图片专业型。把内容识别(标签检测)、人脸检测、内容搜索、人脸聚类的 AI 功能整合,让你快速实现图片的智能管理能力。

1934890530796658 2020-03-31 14:54:06 0 浏览量 回答数 0

回答

1、全域数据采集与引入 以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务(电商、零售、生产等)、多终端(PC、H5、APP等)、多形态(自身业务系统、三方购买、互联网采集抓取)的数据。2、标准规范数据架构与研发 统一基础层、公共中间层、百花齐放应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。3、连接与深度萃取数据价值 形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。4、统一数据资产管理 构建元数据中心,通过资产分析、应用、优化、运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。5、统一主题式服务 通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。

aoteman675 2019-12-02 01:41:34 0 浏览量 回答数 0

问题

产品优势-RDS与自建数据库对比优势

李沃晟 2019-12-01 21:35:56 737 浏览量 回答数 0

回答

Re退订云主机149元含0元6个月的ECS1M带宽加数据盘 买了不会用 你们客服是不是故意拖过5天呀 ------------------------- Re退订云主机149元含0元6个月的ECS1M带宽加数据盘 不让退 明显阿里不靠谱呀 ------------------------- Re退订云主机149元含0元6个月的ECS1M带宽加数据盘 有喘气的吗 免费的ECS不让退 附带收费的带宽跟数据盘的钱就白送你们了? 太坑爹了吧 ------------------------- 回4楼cloudservice的帖子 我购买的带宽跟服务器肯定可以退呀 ------------------------- Re退订云主机149元含0元6个月的ECS1M带宽加数据盘 弱势群体只能继续等

小伙伴户外 2019-12-01 23:55:30 0 浏览量 回答数 0

回答

Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设OneData体系(OneModel、OneID、OneService),集产品、技术、方法论于一体,一站式地为您提供集数据引入、规范定义、数据建模研发、数据萃取、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助您打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系,驱动创新。Dataphin的主要功能模块包括: • 平台管理 平台管理是Dataphin的基础功能,主要包含全局化功能设置和首页引导。该功能帮助您系统地了解和熟悉整个产品,快速开始工作,并进行必要的系统管理与控制,保障各模块正常运转。 o 全局化功能设置包括计算设置与成员管理、智能引擎。 o 首页引导详情请参见Dataphin首页。 • 全局设计 基于业务全局,从顶层自下规划设计业务数据总线,包括:划分命名空间、定义主题域及相关名词、划分管理单元(即项目)、定义数据源及计算引擎源。 • 数据引入 数据引入基于全局设计定义的项目空间与物理数据源,将各业务系统、各类型的数据抽取加载至目标数据库。这个过程可以实现各类业务数据的同步与集成,助您完成基础数据中心建设,为后续进一步加工数据奠定基础。 • 规范定义 基于全局设计定义的业务总线、数据引入构建的基础数据中心,根据业务数据需求,结构化地定义数据元素(例如维度、统计指标),保障数据无二义性地标准化、规范化生产。 • 建模研发 基于规范定义的数据元素,设计与构建可视化的数据模型。数据模型提交发布后,系统智能自动化地生成代码与调度任务,完成公共数据中心的全托管建设。 • 编码研发 基于通用的代码编辑页面,灵活地进行个性化的数据编码研发,完成任务发布。 • 资源及函数管理 o 支持管理各种资源包(例如JAR、文本文件),以满足部分数据处理需求。 o 支持查找与使用内置的系统函数。 o 支持用户自定义函数,以满足数据研发的特殊加工需求。 • 数据萃取 基于Dataphin数据建模研发沉淀的数据,萃取提供以目标对象为中心的数据打通和深度挖掘,并生成代码与调度任务,完成实体对象识别、连接及标签生产,可快速应用于各类业务。 • 调度运维 对建模研发、编码研发生成的代码任务进行基于策略的调度与运维,确保所有任务正常有序地运行。调度运维操作包括:部署数据生产任务、查看任务运行情况、管理及维护任务之间的依赖关系。 • 元数据中心 支持采集、解析和管理基础数据中心、公共数据中心、萃取数据中心的元数据。 • 资产分析 o 在元数据中心基础上,深度分析元数据,实现数据资产化管理。 o 为您可视化地呈现资产分布、元数据详情等,方便您快速查找、深度了解数据资产。 • 即席查询 支持用户通过自定义SQL等方式,查询数据资产中的数据。同时,通过查询分析引擎,快速获取物理表、逻辑表(即数据模型,或逻辑模型)的数据查询结果。 • 数据服务 数据服务为您提供高效便捷的主题式查询功能及有效的全链路企业内API生命周期托管,真正实现低门槛API开发,帮助您更好地进行数据资产应用以实现价值化。

LiuWH 2020-03-23 11:15:47 0 浏览量 回答数 0

回答

分布式文件系统,无论是 Lustre、GlusterFS、OrangeFS、BeeGFS、XtreemFS 还是之前的 Ceph,都有几个关键需求: 高效的事务 快速的元数据操作 (可能不是通用的)对未来的不向后兼容的存储硬件的支持 因为大部分文件系统按 POSIX 标准实现,因此缺乏事务概念,因此分布式文件系统往往通过 WAL 或者基于文件系统的内部事务机制实现(Lustre)。 无法高效的列举目录内容或者 hanle 海量小文件也是分布式存储使用本地文件系统的一个痛点,为此分布式文件系统就需要通过元数据缓存、哈希、数据库或对本地文件系统打 patch 来解决。 根据硬件供应商的预测,2023 年半数的数据中心将使用 SMR HDD。此外 ZNS SSD 能够通过不提供 FTL 来避免 gc 带来的不可控的延迟。像这种新硬件也是 Ceph 希望支持的。 上图是 Ceph 的大致架构,考虑到 Ceph 架构的介绍文章很多,这里就赘述了,读者可以搜索任一篇 Ceph 架构的介绍文章。 Ceph 的 ObjectStore 第一个实现是一个叫 EBOFS(Extent and B-Tree-based Object File System ) 的用户态文件系统。2018 年 Btrfs 出现,有事务、去重、校验码、透明压缩都特性,因此 EBOFS 被基于 Btrfs 实现的 FileStore 取代。 FileStore 里,一个对象集合会被映射到目录,数据会被存储到文件。一开始对象的属性是被 POSIX 的 xattrs 保存的,但后来被移到了 LevelDB(xattrs 容量有限)。 Btrfs 被用作生产环境后端很多年,这个过程中 Btrfs 一直有不稳定和数据/元数据的 fragmentation 问题,但因为对象接口的不断演进导致已经不太可能退回到 EBOFS 了,因此 FileStore 被移植到过 XFS、ext4、ZFS,最终因为在 XFS 上良好的 scale 和元数据性能而成为 FileStore 的事实标准。 虽然基于 XFS 的 FileStore 已经比较稳定了,但是一直受元数据 fragmentation 和无法充分发挥硬件性能的问题困扰。因为缺乏原生的事务,所以用户态的 WAL 实现使用了完整数据的 journal,并受读取-修改-写入这一过程(read-modify-write workloads )的速度限制——这个正是 Ceph WAL 的典型操作过程。此外,XFS 不是一个 COW 文件系统,快照因为需要克隆操作受此影响就会很慢。 NewStore 是 Ceph 尝试通过基于文件系统解决元数据问题的第一次尝试。NewStore 不再使用目录来代表对象集合,而是用 RocksDB 保存元数据。此外 RocksDB 还用来实现 WAL,使得读取-修改-写入过程可以通过合并数据和元数据日志来加速。 这个方案整体来说就是通过文件保存数据、通过在日志文件系统上运行 RocksDB 来保存元数据。但这个方案带来沉重的一致性负担,最终促使了 BlueStore 的开发。

kun坤 2020-04-23 19:46:29 0 浏览量 回答数 0

回答

XSQL对元数据的缓存有两种级别,既能减少对底层数据源的压力,也提升了XSQL的执行效率。很多场景下(例如:对Hive的使用),元数据的更新变化很少。此时可以通过对元数据的缓存,减少对底层数据源的请求数,对底层数据源更加友好,也保证了XSQL在解析、执行时的效率提升。XSQL提供的两级缓存如下图所示。

kun坤 2020-04-24 14:48:18 0 浏览量 回答数 0

问题

关于购买OSS的价格求助

lucio 2019-12-01 21:30:23 2267 浏览量 回答数 1

回答

XSQL可以按照用户需要,设置元数据白名单来避免缓存多余的元信息,进一步提升执行效率。针对很多业务场景,用户往往只需要少数几个数据库、几张表,因此没必要拉取太多的元信息,缓存到内存。对于长期运行的这类任务,将大大减少对底层数据源的压力,提升效率。元数据白名单如下图所示。

kun坤 2020-04-24 14:49:04 0 浏览量 回答数 0

问题

odps获取表元数据

司大雨 2019-12-01 19:24:38 2008 浏览量 回答数 4
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站 云栖号弹性计算 阿里云云栖号 云栖号案例 云栖号直播