开发者社区 问答 正文

OSS如何投递到Parquet存储?

本文档主要介绍日志服务投递OSS使用Parquet存储的相关配置,关于投递日志到OSS的其它内容请参考 投递日志到 OSS

Parquet存储字段配置



数据类型


Parquet存储支持6种类型:string、boolean、int32、int64、float、double。
日志投递过程中,会将日志服务数据由字符串转换为Parquet目标类型。如果转换到非String类型失败,则该列数据为null。

列配置


请依次填写Parquet中需要的日志服务数据字段名和目标数据类型,在投递时将按照该字段顺序组织Parquet数据,并使用日志服务的字段名称作为Parquet数据列名,以下两种情况发生时将置数据列值为null:

  • 该字段名在日志服务数据中不存在。

  • 改字段由string转换非string(如double、int64等)失败。
    字段配置页面:


可配置的保留字段


在投递OSS过程中,除了使用日志本身的Key-Value外,日志服务保留同时提供以下几个保留字段可供选择:
保留字段语义
__time__日志的 Unix 时间戳(是从 1970 年 1 月 1 日开始所经过的秒数),由用户日志字段的 time 计算得到。
__topic__日志的 topic。
__source__日志来源的客户端 IP。

JSON格式存储会默认带上以上字段内容。
Parquet、CSV存储可以根据您的需求自行选择。例如您需要日志的topic,那么可以填写字段名:__topic__,字段类型string。

OSS存储地址

压缩类型文件后缀OSS文件地址举例
无外部压缩.parquetoss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.parquet
snappy.snappy.parquetoss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.snappy.parquet


数据消费



E-MapReduce / Spark / Hive


参考 社区文档

单机校验工具


开源社区提供的 parquet-tools可以用来文件级别验证Parquet格式、查看schema、读取数据内容。
您可以自行编译该工具或者点击 下载日志服务提供的版本。
  • 查看Parquet文件schema



  • 查看Parquet文件全部内容


[size=; font-size: 8pt,8pt][font='YaHei Consolas Hybrid']$ ja [font=PingFangSC, 'helvetica neue', 'hiragino sans gb', arial, 'microsoft yahei ui', 'microsoft yahei', simsun, sans-serif]更多用法请执行:java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar -h,参考帮助。



展开
收起
轩墨 2017-10-23 10:40:44 3379 分享 版权
阿里云 AI 助理回答

Parquet存储配置指南

在使用日志服务将日志投递到OSS并采用Parquet格式存储时,以下为详细配置步骤与说明:

  1. 数据类型支持

    • Parquet存储支持6种数据类型:stringbooleanint32int64floatdouble
    • 投递过程中,日志服务会尝试将字符串数据转换为目标类型。如果转换失败(例如,非字符串转为数字类型),该字段值将设为null
  2. 列配置

    • 需要明确指定哪些日志服务中的字段及其对应的目标Parquet数据类型。这些配置会在投递时遵循指定的顺序组织Parquet数据,并直接使用日志服务字段名称作为Parquet列名。
    • 如果配置的字段在日志中不存在,或字符串类型转换为非字符串类型失败,对应的Parquet列值将被置为null
  3. 保留字段

    • 日志服务提供几个预定义的保留字段供选择加入到Parquet文件中,包括:
      • __time__: Unix时间戳,基于用户日志的时间字段计算。
      • __topic__: 日志主题。
      • __source__: 客户端IP地址。
    • 在使用JSON、CSV格式时,默认包含这些保留字段;而在Parquet格式下,可以根据需要手动添加,如添加__topic__字段,类型为string
  4. OSS存储地址与压缩类型

    • Parquet文件可存储于OSS,并可选择不同的压缩方式,影响后缀和文件大小:
      • 无压缩:.parquet
      • Snappy压缩:.snappy.parquet
      • 其他压缩类型如gzip, zstd等亦可选。
      • 示例地址:oss://your-bucket-name/path/to/your/file.snappy.parquet
  5. 数据消费

    • 对于Parquet格式的数据,可以利用E-MapReduce、Spark、Hive等大数据处理工具进行分析,具体操作请参考相关社区文档。
    • 单机验证工具推荐使用开源的parquet-tools,它能够帮助查看Parquet文件的schema、内容等信息。可以通过编译源码或下载日志服务提供的版本来使用此工具。

通过上述配置,您可以有效地将日志服务的日志数据以Parquet格式高效地存储至OSS,便于后续的大数据分析与处理。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答