对象存储OSS(Object Storage Service)具有海量、可靠、安全、高性能、低成本的特点。OSS提供标准、低频、归档类型,覆盖多种数据从热到冷的存储需求,可以存储的文件数量和空间无限制,成为企业数据上云的首选。
OSS支持多种计算引擎无缝对接,且是中国唯一被Hadoop社区官方默认支持的存储。用户可基于OSS构建企业级数据湖,构建企业数据的采集、存储、处理、消费的完成解决方案。
近期,OSS新发布了OSS Select,进一步协助客户更好地发掘数据的价值。
OSS Select-使用SQL选取OSS文件中的内容
OSS Select,让用户可以直接使用SQL语句,从OSS文件中选取所需要的内容,而不必读取整个文件的内容。OSS Select目前已商业化(深圳区域已上线,其他区域陆续上线中)。
企业级用户使用OSS Select,可将查询条件下推到OSS,为计算应用加速,更好地发挥数据的价值。
OSS Select应用案例
比如,生命科技行业客户,基于OSS Select+函数计算,对测序统计文件进行分析,提升业务效率。
OSS Select主要特点:
- 多种使用方式:支持通过OSS RESTFul API、SDK、控制台使用OSS Select,也可与Spark、DataLakeAnalytics等计算应用结合。
- 为应用程序加速:计算应用通过和Select结合,将查询条件下推到OSS,可以为数据分析提速60%~10倍。
- 支持的文件格式:OSS Select支持CSV/TSV文件(文件编码为UTF-8,符合RFC 4180标准的CSV文件),或Zip压缩后的CSV、TSV文件,且行列分隔符以及Quote字符都可自定义。目前支持标准型、低频型存储。
OSS Select系列文章
以下是OSS Select系列文章,用户可以参考多种场景下如何使用Select对数据进行分析处理。
- 打开OSS Select的正确姿势:OSS Select使用场景和技巧
- Spark+OSS Select快速上手:Spark读写OSS,并使用OSS Select来加速查询
- OSS Select介绍和SDK中使用Select示例
- 即时查询和分析OSS上更多数据,可以使用Data Lake Analytics +OSS,参考:Data Lake Analytics + OSS数据文件格式处理大全