开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

数据集成转换类型类型类型有哪些?

数据集成转换类型类型类型有哪些?

展开
收起
哒哒哒哒哒~ 2023-03-08 11:06:53 169 0
2 条回答
写回答
取消 提交回答
  • 数据集成转换类型通常包括以下几种:

    数据清洗:数据清洗是指将非结构化、结构不完整、有缺失值、有异常值、有重复值等数据进行处理,将其转换为结构完整、质量优良的数据。常见的清洗方式包括去除重复记录、填补缺失值、清除异常值、去重等。 数据转换:数据转换是指将数据从一种格式或类型转换为另一种格式或类型。例如,将文本数据转换为数值数据,将不同格式的数据转换为统一格式,将源数据转换为目标数据等。 数据加载:数据加载是指将处理后的数据从数据源中提取出来,并将其加载到一个新的数据源中,为数据消费者提供统一的数据视图。常见的加载方式包括ETL(数据交互平台)、数据填充等。 数据同步:数据同步是指将数据从一个位置复制到另一个位置。它可以是同步或异步的,支持源与目标之间的双向数据交换。企业应用程序集成(EAI)和企业数据复制(EDR)技术支持数据同步。 数据聚合:数据聚合是指将来自多个数据源的数据收集、整理和合并,以便进行更高级的数据分析和决策支持。聚合可以是集中式或分布式,基于共同属性或主题。 数据分发:数据分发是指将数据从一个数据源发布到多个目的地,以支持不同的应用程序和用户。它可以是基于事件驱动的,也可以是批量处理的。 数据归档:数据归档是指将不再需要的数据存储在成本更低、访问速度更慢的存储介质上,以备将来查询和参考。它可以优化当前数据存储环境,节省成本,提高性能。

    2023-05-23 19:30:27
    赞同 展开评论 打赏
  • "由于这些文件表的元数据信息由Hive维护,并存放在Hive自己维护的元数据库(如MySQL)中。目前HDFS Reader不支持对Hive元数据的数据库进行访问查询,因此您在进行类型转换时,必须指定数据类型。RCFile、ParquetFile、ORCFile、TextFile和SequenceFile中的类型,会默认转为数据集成支持的内部类型,如下表所示。类型分类 数据集成column配置类型 Hive数据类型 整数类 long tinyint、smallint、int和bigint 浮点类 double float和double 字符串类 string string、char、varchar、struct、map、array、union和binary 日期时间类 date date和timestamp 布尔类 boolean boolean说明如下:long:HDFS文件中的整型类型数据,例如123456789。double:HDFS文件中的浮点类型数据,例如3.1415。bool:HDFS文件中的布尔类型数据,例如true、false,不区分大小写。date:HDFS文件中的时间类型数据,例如2014-12-31 00:00:00。Hive支持的数据类型TIMESTAMP可以精确到纳秒级别,所以TextFile、ORCFile中TIMESTAMP存放的数据类似于2015-08-21 22:40:47.397898389。如果转换的类型配置为数据集成的DATE,转换之后会导致纳秒部分丢失。所以如果需要保留纳秒部分的数据,请配置转换类型为数据集成的字符串类型。 此答案整理自钉群“DataWorks交流群(答疑@机器人)”" image.png

    2023-03-09 09:34:27
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
集成智能接入网关APP:优化企业级移动办公网络 立即下载
《DataWorks 数据集成实时同步》 立即下载
云效助力企业集成安全到DevOps中 立即下载