OSS重磅推出OSS Select——使用SQL选取文件的内容

2018-05-17 28198

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储OSS，敏感数据保护2.0 200GB 1年

简介： OSS重磅推出OSS Select功能，可以直接使用简单的SQL语句，从OSS的文件中选取所需要的内容

对象存储OSS（Object Storage Service）具有海量、可靠、安全、高性能、低成本的特点。OSS提供标准、低频、归档类型，覆盖多种数据从热到冷的存储需求，单个文件的大小从1字节到48.8TB，可以存储的文件个数无限制。OSS已成为互联网、企业级数据应用的基础设施。
通常，获取对象存储数据的通方式为：获取整个对象，或按指定的字节范围来获取数据。杭州云栖大会上，阿里云对象存储OSS商业化发布OSS Select（目前深圳区域已sh），用户可直接使用简单的SQL语句，从OSS的文件中选取所需要的内容。

OSS Select介绍

使用SQL选取OSS文件中的内容

OSS Select（深圳区域已商业化），让开发者可以直接使用SQL语句，从OSS文件中选取需要的内容。

使用OSS Select，只获取应用程序所需的查询结果，并支持并发地分片查询，会大幅提升程序的性能，通常情况下能有400%的提升。

功能说明：

支持的文件格式：文件编码为UTF-8，符合RFC 4180标准的CSV文件（包括TSV等类CSV文件，文件的行列分隔符以及Quote字符都可自定义）。
支持的文件存储类型：标准型、低频型。
支持的加密文件：OSS完全托管、KMS加密-默认KMS主密钥
控制台-选取内容：通过控制台，您可以针对128MB以下的文件，提取40MB以下的数据记录。如果您需要处理更大的文件或返回更多的记录，可以使用 OSS API或SDK
阿里云DataLakeAnalytics产品已支持使用OSS Select，进一步加速对OSS上数据的交互式查询分析。后续阿里云EMR、MaxCompute、HybridDB等产品都会陆续支持OSS Select
了解更多OSS Select使用方法,可以参考OSS API文档

使用方式

使用OSS API/SDK(参考本文示例）

比如，生命科技行业客户，基于OSS Select+函数计算，对测序统计文件进行分析，提升效率

使用OSS控制台（参考示例）

在Spark/Presto等大数据应用中使用OSS Select加速

阿里云DataLakeAnalytics中，使用OSS Select

使用示例

使用示例1(python)

# -*- coding: utf-8 -*-

import os
import oss2


def select_call_back(consumed_bytes, total_bytes = None):
    print('Consumed Bytes:' + str(consumed_bytes) + '\n')
# 首先初始化AccessKeyId、AccessKeySecret、Endpoint等信息。
# 通过环境变量获取，或者把诸如“<你的AccessKeyId>”替换成真实的AccessKeyId等。
#
# 以杭州区域为例，Endpoint可以是：
#   http://oss-cn-hangzhou.aliyuncs.com
#   https://oss-cn-hangzhou.aliyuncs.com
# 分别以HTTP、HTTPS协议访问。
access_key_id = os.getenv('OSS_TEST_ACCESS_KEY_ID', '<你的AccessKeyId>')
access_key_secret = os.getenv('OSS_TEST_ACCESS_KEY_SECRET', '<你的AccessKeySecret>')
bucket_name = os.getenv('OSS_TEST_BUCKET', '<你的Bucket>')
endpoint = os.getenv('OSS_TEST_ENDPOINT', '<你的访问域名>')


# 确认上面的参数都填写正确了
for param in (access_key_id, access_key_secret, bucket_name, endpoint):
    assert '<' not in param, '请设置参数：' + param


# 创建Bucket对象，所有Object相关的接口都可以通过Bucket对象来进行
bucket = oss2.Bucket(oss2.Auth(access_key_id, access_key_secret), endpoint, bucket_name)
# 
csvfile = 'sample.csv'
resultfilename = 'python_select.csv'

csv_meta_params = {'FileHeaderInfo': 'None',
                'RecordDelimiter': '\r\n'}

# LineRange（可选参数）：表示指定查询行的范围
select_csv_params = {'FileHeaderInfo': 'None',
                 'LineRange':(100,1000)} 

csv_header = bucket.get_csv_object_meta(key, csv_meta_params)

# 将查询结果输出到文件
result = bucket.select_csv_object_to_file(csvfile, resultfile, 
         "select _1, _3, _4 from ossobject where _4 > 40 and  _1 like '%Tom%' ", 
        select_call_back, input_format)
        
          
        
        
        
          
          AI 代码解读

以上是一个简单的python示例，使用SQL查询OSS的对象，并将结果输出到文件汇总。

除了将查询结果输出到文件，还可以将查询结果直接返回

result = bucket.select_csv_object(csvfile,  "select * from ossobject where _4 > 40 and  _1 like '%Tom%' ", select_call_back, select_csv_params)


content_got = b''
for chunk in result:
    content_got += chunk
print(content_got)
        
          
        
        
        
          
          AI 代码解读

查询结果：

使用示例2（Spark on OSS 使用Select）

您可以使用OSS Select来加速您的各类应用。OSS Select团队，创建了一个Spark的示例，基于OSS Select，实现 Spark Data Source API。假设，您需要从大量的人员名单中，查询符合条件的人员信息。比如查询50岁以上，姓名中包含Tom的目标人员。

使用OSS Select提升应用程序性能

启用OSS Select，Spark借助OSS Select仅获取文件中所需要的数据；而禁用OSS Select，Spark获取整个文件
不使用OSS Select，查询需要78秒（1.3分钟）。而使用OSS Select，只需要11秒，程序性能提升6倍！

测试配置说明：

Spark测试集群配置：

数量	配置
master	1	4core 8GB
workers	2	4core 8GB

Spark配置：

export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=6g
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=2g
        
          
        
        
        
          
          AI 代码解读

数据量：

CSV数据量为7GB。

支持区域

目前OSS Select已在华南1（深圳）区域正式商业化，用户在华南1（深圳）区域的Bucket，已可使用OSS Select。

OSS重磅推出OSS Select——使用SQL选取文件的内容

OSS Select介绍

使用SQL选取OSS文件中的内容

功能说明：

使用方式

使用OSS API/SDK(参考本文示例）

使用OSS控制台（参考示例）

在Spark/Presto等大数据应用中使用OSS Select加速

阿里云DataLakeAnalytics中，使用OSS Select

使用示例

使用示例1(python)

使用示例2（Spark on OSS 使用Select）

使用OSS Select提升应用程序性能

测试配置说明：

Spark测试集群配置：

Spark配置：

数据量：

支持区域

更多信息

DataLakeAnalytics：

基于OSS，进行数据查询分析和可视化BI报表

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

OSS重磅推出OSS Select——使用SQL选取文件的内容

OSS Select介绍

使用SQL选取OSS文件中的内容

功能说明：

使用方式

使用OSS API/SDK(参考本文示例）

使用OSS控制台（参考示例）

在Spark/Presto等大数据应用中使用OSS Select加速

阿里云DataLakeAnalytics中，使用OSS Select

使用示例

使用示例1(python)

使用示例2（Spark on OSS 使用Select）

使用OSS Select提升应用程序性能

测试配置说明：

Spark测试集群配置：

Spark配置：

数据量：

支持区域

更多信息

DataLakeAnalytics：

基于OSS，进行数据查询分析和可视化BI报表

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景