• 关于

    是odps

    的搜索结果

回答

详细解答可以参考官方帮助文档 本文将为您介绍较为常用的 MaxCompute 核心接口,更多详情请参见 SDK Java Doc。 您可以通过 Maven 管理配置新 SDK 的版本。Maven 的配置信息如下(最新版本可以随时到 search.maven.org 搜索 odps-sdk-core 获取): <dependency> <groupId>com.aliyun.odps</groupId> <artifactId>odps-sdk-core</artifactId> <version>0.26.2-public</version> </dependency> MaxCompute 提供的 SDK 包整体信息,如下表所示: 包名 描述 odps-sdk-core MaxCompute 的基础功能,例如:对表,Project 的操作,以及 Tunnel 均在此包中 odps-sdk-commons 一些 Util 封装 odps-sdk-udf UDF 功能的主体接口 odps-sdk-mapred MapReduce 功能 odps-sdk-graph Graph Java SDK,搜索关键词“odps-sdk-graph” AliyunAccount 阿里云认证账号。输入参数为 accessId 及 accessKey,是阿里云用户的身份标识和认证密钥。此类用来初始化 MaxCompute。 MaxCompute MaxCompute SDK 的入口,您可通过此类来获取项目空间下的所有对象集合,包括:Projects,Tables,Resources,Functions,Instances。 说明 MaxCompute 原名 ODPS,因此在现有的 SDK 版本中,入口类仍命名为 ODPS。 您可以通过传入 AliyunAccount 实例来构造 MaxCompute 对象。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); odps.setDefaultProject("my_project"); for (Table t : odps.tables()) { .... } Projects Projects 是 MaxCompute 中所有项目空间的集合。集合中的元素为 Project。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); Project p = odps.projects().get("my_exists"); p.reload(); Map<String, String> properties = prj.getProperties(); ... Project Project 是对项目空间信息的描述,可以通过 Projects 获取相应的项目空间。 SQLTask SQLTask 是用于运行、处理 SQL 任务的接口。可以通过 run 接口直接运行 SQL。( 注意:每次只能提交运行一个SQL语句。) run 接口返回 Instance 实例,通过 Instance 获取 SQL 的运行状态及运行结果。程序示例如下: import java.util.List; import com.aliyun.odps.Instance; import com.aliyun.odps.Odps; import com.aliyun.odps.OdpsException; import com.aliyun.odps.account.Account; import com.aliyun.odps.account.AliyunAccount; import com.aliyun.odps.data.Record; import com.aliyun.odps.task.SQLTask; public class testSql { private static final String accessId = ""; private static final String accessKey = ""; private static final String endPoint = "http://service.odps.aliyun.com/api"; private static final String project = ""; private static final String sql = "select category from iris;"; public static void main(String[] args) { Account account = new AliyunAccount(accessId, accessKey); Odps odps = new Odps(account); odps.setEndpoint(endPoint); odps.setDefaultProject(project); Instance i; try { i = SQLTask.run(odps, sql); i.waitForSuccess(); List<Record> records = SQLTask.getResult(i); for(Record r:records){ System.out.println(r.get(0).toString()); } } catch (OdpsException e) { e.printStackTrace(); } } } 说明 如果您想创建表,需要通过 SQLTask 接口,而不是 Table 接口。您需要将表操作的语句传入SQLTask。 Instances Instances 是 MaxCompute 中所有实例(Instance)的集合,集合中的元素为 Instance。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); odps.setDefaultProject("my_project"); for (Instance i : odps.instances()) { .... } Instance Instance 是对实例信息的描述,可以通过 Instances 获取相应的实例。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); Instance ins = odps.instances().get("instance id"); Date startTime = instance.getStartTime(); Date endTime = instance.getEndTime(); ... Status instanceStatus = instance.getStatus(); String instanceStatusStr = null; if (instanceStatus == Status.TERMINATED) { instanceStatusStr = TaskStatus.Status.SUCCESS.toString(); Map<String, TaskStatus> taskStatus = instance.getTaskStatus(); for (Entry<String, TaskStatus> status : taskStatus.entrySet()) { if (status.getValue().getStatus() != TaskStatus.Status.SUCCESS) { instanceStatusStr = status.getValue().getStatus().toString(); break; } } } else { instanceStatusStr = instanceStatus.toString(); } ... TaskSummary summary = instance.getTaskSummary("instance name"); String s = summary.getSummaryText(); Tables Tables 是 MaxCompute 中所有表的集合,集合中的元素为 Table。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); odps.setDefaultProject("my_project"); for (Table t : odps.tables()) { .... } Table Table 是对表信息的描述,可以通过 Tables 获取相应的表。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); Table t = odps.tables().get("table name"); t.reload(); Partition part = t.getPartition(new PartitionSpec(tableSpec[1])); part.reload(); ... Resources Resources 是 MaxCompute 中所有资源的集合。集合中的元素为 Resource。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); odps.setDefaultProject("my_project"); for (Resource r : odps.resources()) { .... } Resource Resource 是对资源信息的描述,可以通过 Resources 获取相应的资源。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); Resource r = odps.resources().get("resource name"); r.reload(); if (r.getType() == Resource.Type.TABLE) { TableResource tr = new TableResource(r); String tableSource = tr.getSourceTable().getProject() + "." + tr.getSourceTable().getName(); if (tr.getSourceTablePartition() != null) { tableSource += " partition(" + tr.getSourceTablePartition().toString() + ")"; } .... } 创建文件资源的示例,如下所示: String projectName = "my_porject"; String source = "my_local_file.txt"; File file = new File(source); InputStream is = new FileInputStream(file); FileResource resource = new FileResource(); String name = file.getName(); resource.setName(name); odps.resources().create(projectName, resource, is); 创建表资源的示例,如下所示: TableResource resource = new TableResource(tableName, tablePrj, partitionSpec); //resource.setName(INVALID_USER_TABLE); resource.setName("table_resource_name"); odps.resources().update(projectName, resource); Functions Functions 是 MaxCompute 中所有函数的集合。集合中的元素为 Function。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); odps.setDefaultProject("my_project"); for (Function f : odps.functions()) { .... } Function Function 是对函数信息的描述,可以通过 Functions 获取相应的函数。程序示例如下: Account account = new AliyunAccount("my_access_id", "my_access_key"); Odps odps = new Odps(account); String odpsUrl = "<your odps endpoint>"; odps.setEndpoint(odpsUrl); Function f = odps.functions().get("function name"); List<Resource> resources = f.getResources(); 创建函数的示例,如下所示: String resources = "xxx:xxx"; String classType = "com.aliyun.odps.mapred.open.example.WordCount"; ArrayList<String> resourceList = new ArrayList<String>(); for (String r : resources.split(":")) { resourceList.add(r); } Function func = new Function(); func.setName(name); func.setClassType(classType); func.setResources(resourceList); odps.functions().create(projectName, func);
2019-12-01 23:15:34 0 浏览量 回答数 0

问题

MAPReducer Driver运行报错Exception in thread "main" java.lang.RuntimeException: com.aliyun.odps.OdpsException: java.lang.ClassCastException: com.aliyun.odps.io.DoubleWritable cannot be cast to com.aliyun.odps.io.LongWritable

我是照着海量电力设备监测数据存储分析里面的海量电力设备监测数据存储分析实验步骤来的,代码这些都是和教程里面是一样的,在用eclipse运行TJDriver时候报错。Exception in thread "main" java.lang.R...
hjkhjk 2019-12-01 19:32:09 1236 浏览量 回答数 1

问题

使用MaxCOmpute python SDK读取ODPS上一张表,做一些处理后,写入另外一张表,读取和写入都是多线程的。遇到问题1. 多线程处理时,每个线程每次循环(每次循环处理100条数据)均新建了一个odps连接,有没有可能是odps连接太多了?文档中没有发现如何关闭这个odps连接? 2. 在ODPS客户端,操作一些sql命令时,也是有超时的,客户端也有超时的话,是不是可以先排除程序的问题?如下: Aliyun ODPS Command Line Tool Version 0.21.1 @Copy

使用MaxCOmpute python SDK读取ODPS上一张表,做一些处理后,写入另外一张表,读取和写入都是多线程的。遇到问题1. 多线程处理时,每个线程每次循环(每次循环处理100条数据)均新建了一个odps连接,有没有可能是odps...
知与谁同 2019-12-01 20:12:57 3691 浏览量 回答数 1

万券齐发助力企业上云,爆款产品低至2.2折起!

限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

回答

Map设置set odps.sql.mapper.cpu=100作用:设定处理map task每个instance的cpu数目,默认为100。[50,,800]之间调整 set odps.sql.mapper.memory=1024作用:设定map task每个instance的memory大小,单位M,默认1024M。[256,12288]之间调整 set odps.sql.mapper.merge.limit.size=64作用:设定控制文件被合并的最大阈值,单位M,默认64M。用户可以通过控制这个变量,从而达到对map端输入的控制。[0,Integer.MAX_VALUE]之间调整 set odps.sql.mapper.split.size=256作用:设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。[1,Integer.MAX_VALUE]之间调整 Join设置set odps.sql.joiner.instances=-1作用: 设定Join task的instance数量,默认为-1。[0,2000]之间调整 set odps.sql.joiner.cpu=100作用: 设定Join task每个instance的cpu数目,默认为100。[50,800]之间调整 set odps.sql.joiner.memory=1024作用:设定Join task每个instance的memory大小,单位为M,默认为1024M。[256,12288]之间调整 Reduce设置set odps.sql.reducer.instances=-1作用: 设定reduce task的instance数量,默认为-1。[0,2000]之间调整 set odps.sql.reducer.cpu=100作用: 设定处理reduce task每个instance的cpu数目,默认为100。[50,800]之间调整 set odps.sql.reducer.memory=1024作用: 设定reduce task每个instance的memory大小,单位M,默认1024M。[256,12288]之间调整 Udf设置set odps.sql.udf.jvm.memory=1024作用: 设定UDF jvm heap使用的最大内存,单位M,默认1024M。[256,12288]之间调整 set odps.sql.udf.timeout=600作用:设置UDF超时时间,默认为600秒,单位秒。[0,3600]之间调整 set odps.sql.udf.python.memory=256作用:设定UDF python 使用的最大内存,单位M,默认256M。[64,3072]之间调整 set odps.pypy.enabled=true/false作用:python性能优化,设置true后,odps sql都会使用odps-pypy执行python udf/udtf。false 为回到老引擎 set odps.sql.udf.optimize.reuse=true/false作用:开启后,相同的UDF函数表达式,只计算一次,可以提高性能,默认为true。 set odps.sql.udf.strict.mode=false/true作用:true为金融模式和false为淘宝模式,控制有些函数在遇到脏数据时是返回NULL还是抛异常,true是抛出异常,false是返回null。 正则优化odps.sql.udf.regexp.optimize=true/false作用:基于google re2的正则表达式引擎,对正则表达式相关函数进行了优化,true为开启 Mapjoin设置set odps.sql.mapjoin.memory.max=512作用:设置mapjoin时小表的最大内存,默认512,单位M,[128,2048]之间调整 动态分区设置set odps.sql.reshuffle.dynamicpt=true/false作用:(1)false:不会产生倾斜(2)true:合并小文件。默认为true 数据倾斜设置set odps.sql.groupby.skewindata=true/false作用:开启group by优化 set odps.sql.skewjoin=true/false作用:开启join优化,必须设置odps.sql.skewinfo 才有效 set odps.sql.skewinfo作用:设置join优化具体信息,格式 set odps.sql.skewinfo=skewed_src:(skewed_key)[("skewed_value")]例子:针对单个字段单个倾斜数值set odps.sql.skewinfo=src_skewjoin1:(key)[("0")] explain select a.key c1, a.value c2, b.key c3, b.value c4 from src a join src_skewjoin1 b on a.key = b.key;针对单个字段多个倾斜数值set odps.sql.skewinfo=src_skewjoin1:(key)[("0")("1")] explain select a.key c1, a.value c2, b.key c3, b.value c4 from src a join src_skewjoin1 b on a.key = b.key; Map设置set odps.sql.mapper.cpu=100作用:设定处理map task每个instance的cpu数目,默认为100。[50,,800]之间调整 set odps.sql.mapper.memory=1024作用:设定map task每个instance的memory大小,单位M,默认1024M。[256,12288]之间调整 set odps.sql.mapper.merge.limit.size=64作用:设定控制文件被合并的最大阈值,单位M,默认64M。用户可以通过控制这个变量,从而达到对map端输入的控制。[0,Integer.MAX_VALUE]之间调整 set odps.sql.mapper.split.size=256作用:设定一个map的最大数据输入量,单位M,默认256M。用户可以通过控制这个变量,从而达到对map端输入的控制。[1,Integer.MAX_VALUE]之间调整 Join设置set odps.sql.joiner.instances=-1作用: 设定Join task的instance数量,默认为-1。[0,2000]之间调整 set odps.sql.joiner.cpu=100作用: 设定Join task每个instance的cpu数目,默认为100。[50,800]之间调整 set odps.sql.joiner.memory=1024作用:设定Join task每个instance的memory大小,单位为M,默认为1024M。[256,12288]之间调整 Reduce设置set odps.sql.reducer.instances=-1作用: 设定reduce task的instance数量,默认为-1。[0,2000]之间调整 set odps.sql.reducer.cpu=100作用: 设定处理reduce task每个instance的cpu数目,默认为100。[50,800]之间调整 set odps.sql.reducer.memory=1024作用: 设定reduce task每个instance的memory大小,单位M,默认1024M。[256,12288]之间调整 Udf设置set odps.sql.udf.jvm.memory=1024作用: 设定UDF jvm heap使用的最大内存,单位M,默认1024M。[256,12288]之间调整 set odps.sql.udf.timeout=600作用:设置UDF超时时间,默认为600秒,单位秒。[0,3600]之间调整 set odps.sql.udf.python.memory=256作用:设定UDF python 使用的最大内存,单位M,默认256M。[64,3072]之间调整 set odps.pypy.enabled=true/false作用:python性能优化,设置true后,odps sql都会使用odps-pypy执行python udf/udtf。false 为回到老引擎 set odps.sql.udf.optimize.reuse=true/false作用:开启后,相同的UDF函数表达式,只计算一次,可以提高性能,默认为true。 set odps.sql.udf.strict.mode=false/true作用:true为金融模式和false为淘宝模式,控制有些函数在遇到脏数据时是返回NULL还是抛异常,true是抛出异常,false是返回null。 正则优化odps.sql.udf.regexp.optimize=true/false作用:基于google re2的正则表达式引擎,对正则表达式相关函数进行了优化,true为开启 Mapjoin设置set odps.sql.mapjoin.memory.max=512作用:设置mapjoin时小表的最大内存,默认512,单位M,[128,2048]之间调整 动态分区设置set odps.sql.reshuffle.dynamicpt=true/false作用:(1)false:不会产生倾斜(2)true:合并小文件。默认为true 数据倾斜设置set odps.sql.groupby.skewindata=true/false作用:开启group by优化 set odps.sql.skewjoin=true/false作用:开启join优化,必须设置odps.sql.skewinfo 才有效 set odps.sql.skewinfo作用:设置join优化具体信息,格式 set odps.sql.skewinfo=skewed_src:(skewed_key)[("skewed_value")]例子:针对单个字段单个倾斜数值set odps.sql.skewinfo=src_skewjoin1:(key)[("0")] explain select a.key c1, a.value c2, b.key c3, b.value c4 from src a join src_skewjoin1 b on a.key = b.key;针对单个字段多个倾斜数值set odps.sql.skewinfo=src_skewjoin1:(key)[("0")("1")] explain select a.key c1, a.value c2, b.key c3, b.value c4 from src a join src_skewjoin1 b on a.key = b.key;
1608391764105511 2019-12-02 01:13:40 0 浏览量 回答数 0

问题

MaxCompute用户指南:SDK:Java SDK

本文将为您介绍较为常用的 MaxCompute 核心接口,更多详情请参见 SDK Java Doc。 您可以通过 Maven 管理配置新 SDK 的版本。Maven 的配置信息如下(最新版本可以随时到 sea...
行者武松 2019-12-01 22:05:10 1305 浏览量 回答数 0

问题

云主机环境说明4月28日中午更新

远程桌面连接 使用的是windows远程桌面。具体方法描述: 1、点击开始--运行 <div reader-word-s1-6"="">2、输入:mstsc࿰...
halcyon 2019-12-01 21:50:52 13457 浏览量 回答数 10

回答

MR 代码的运行分两部分,Main 函数运行在本地,用于向 ODPS 提交作业;Mapper/Reducer 运行在 ODPS 集群内。Job 上的这些接口是集群内的时候才有效。要在 Main 函数里访问 Resource,直接用 odps-sdk-core 里面的 api 就好了。大概是这样:Odps odps = SessionState.get().getOdps(); InputStream is = odps.resources().getResourceAsStream(resourceName);
艺卓 2019-12-02 01:33:07 0 浏览量 回答数 0

问题

使用PyODPS库运行SQL,在申请odps实例前, 通过代码设置了odps运行环境

使用PyODPS库运行SQL,在申请odps实例前,通过代码设置了odps运行环境:from odps import optionsoptions.sql.settings = {'odps.sql.mapper.split.size': ...
123ya 2019-12-01 20:11:53 2172 浏览量 回答数 1

问题

ODPS运行Mapreduce没有权限

Exception in thread "main" com.aliyun.odps.OdpsException: ODPS-0420095: Access Denied - The task is not in relea...
小威威 2019-12-01 21:24:19 6337 浏览量 回答数 3

问题

资源管理,上传资源:上传为ODPS资源本次上传,资源会同步上传至ODPS中,请问如果我上传的文件名字为abc.csv,那么保存到ODPS表里面对应的表名字是什么?是否可以通过SQL语句查询上传后的文件对应的表数据?

资源管理,上传资源:上传为ODPS资源本次上传,资源会同步上传至ODPS中,请问如果我上传的文件名字为abc.csv,那么保存到ODPS表里面对应的表名字是什么?是否可以通过SQL语句查询上传后的文件对应的表数据?...
祁同伟 2019-12-01 20:20:56 2154 浏览量 回答数 1

问题

odps是通过云化进行管理的吗,部署odps的机器能否跟其他服务共享硬件资源?

odps是通过云化进行管理的吗,目前了解到E-MapReduce是能够在云环境中运行的,这样就能够跟其他服务进行硬件资源的共享。但是,部署odps的机器能否跟其他服务共享硬件资源呢?odps和EMR在底层部署上有比较大的差别吗?...
startwjw 2019-12-01 19:44:58 1634 浏览量 回答数 1

回答

在开发套件中上传的资源不是直接上传到odps表中的,这是作为一个文件上传到odps的存储系统中。如果您希望将数据同步到odps表中。在大数据开发套件中可以通过-导入本地数据-导入到odps表中。您也可以通过odps的tunnel命令上传到odps表中,需要提前建好表https://help.aliyun.com/document_detail/27833.html?spm=5176.doc27989.6.588.fNRlro
祁同伟 2019-12-02 00:09:18 0 浏览量 回答数 0

问题

您好,我有一个MaxCompute(原ODPS) mr任务是在前端触发运行的,每次手动触发以后会服务器的odps cmd里执行mr任务,我需要在reduce 的setup中读取一个配置文件,我把这个配置文件作为资源上传到odps之后,是否需要在服务器也存一份该文件。

您好,我有一个MaxCompute(原ODPS) mr任务是在前端触发运行的,每次手动触发以后会服务器的odps cmd里执行mr任务,我需要在reduce 的setup中读取一个配置文件,我把这个配置文件作为资源上传到odps之后,是否需...
祁同伟 2019-12-01 20:21:35 1487 浏览量 回答数 1

回答

Re请问在配置MR环境时出现这个问题是为什么呢 [WARNING] The POM for com.aliyun.odps:odps-sdk-mapred:jar:0.20.7 is missing, no dependency information available [WARNING] The POM for com.aliyun.odps:odps-sdk-graph:jar:0.20.7 is missing, no dependency information available 而且在pom.xml里的这两个依赖也是报错的,Missing artifact com.aliyun.odps:odps-sdk-mapred:jar:0.20.7,是版本的问题吗,我的jdk是1.8.0的,maven3.2.5和3.3.9我都试了,都不行。望解答一下,谢谢
木子天一 2019-12-02 02:13:23 0 浏览量 回答数 0

问题

问题如下: 在本地利用ODPS客户端,无法查询MAXCOMPUTER上的任何一张表,提示如下: Warning: ODPS request failed:Connection reset, retryCount:2, will retry in 130 seconds.

问题如下:在本地利用ODPS客户端,无法查询MAXCOMPUTER上的任何一张表,提示如下:Warning: ODPS request failed:Connection reset, retryCount:2, will retry in...
123ya 2019-12-01 20:11:50 2365 浏览量 回答数 1

问题

关于 odps.stage.* 和odps.sql.* 的设置,最好是全面的一些的,我们学习下,感谢!

关于 odps.stage. 和odps.sql. 的设置,最好是全面的一些的,我们学习下,感谢!...
123ya 2019-12-01 20:11:53 1157 浏览量 回答数 1

回答

Re新人还是无法读取数据 萌新同问 select * from odps_tc_257100_f673506e024.tianchi_sqli_test_dataset_session_1; // 这个是可以的,而且完全没有问题,可以复制到我自己这儿来 select * from odps_tc_257100_f673506e024.tianchi_sqli_test_dataset_session_2; 但是这样就会报错 报的错误内容是: ODPS-0130013:Authorization exception - Authorization Failed [4002], You doesn't exist in project odps_tc_257100_f673506e024. Context ID:493db779-42b8-4969-9411-dc579641f432.  --->Tips: CurrentProject:prj_tc_61356_cb9c4805136e; Principal:p4_299665286365795641; No permission 'odps:Select' on resouce acs:odps:*:projects/odps_tc_257100_f673506e024/tables/tianchi_sqli_test_dataset_session_2
akiho酱 2019-12-02 00:19:51 0 浏览量 回答数 0

问题

ODPS大讲堂之概述篇

1. 什么是Tunnel?     tunnel是用来上传,下载数据用的。用户可以使用tunnel提供的java sdk接口将mysql,oracle的数据导入odps。也可以将odps的数据再导回mysql。通...
halcyon 2019-12-01 21:51:22 21648 浏览量 回答数 19

问题

关于mapreduce使用问题

做菜鸟分仓 在线上提交了mr,发现每天的购买数据都是一样的。于是线下又试了。 发现,map后,reduce public void reduce(Record key, Iterator<Re...
识嘚唔识嘚 2019-12-01 21:42:35 3405 浏览量 回答数 1

问题

在本地调用pyodps的sdk时,想将odps上的表转成dataframe,限制只能得到10000行的dataframe,若使用open_reader函数读取表,则需要关闭【项目空间数据保护】才能读到。意思是 调用sdk时将odps上的表转成dataframe需要把全部数据下载到本地吗?有没有办法不关闭【项目空间数据保护】而将odps上的表全部转成dataframe,在本地写脚本操作?

在本地调用pyodps的sdk时,想将odps上的表转成dataframe,限制只能得到10000行的dataframe,若使用open_reader函数读取表,则需要关闭【项目空间数据保护】才能读到。意思是 调用sdk时将odps上的表转...
琴瑟 2019-12-01 20:14:18 2334 浏览量 回答数 2

回答

详细解答可以参考官方帮助文档 Alias命令 Alias功能主要为了满足在不修改代码的前提下,在MapReduce或自定义函数(UDF) 代码中,通过某个固定的资源名读取不同资源(数据)的需求。 命令格式如下: alias <alias>=<real>; 行为说明如下: 为资源创建别名。 示例如下: ADD TABLE src_part PARTITION (ds='20121208') AS res_20121208; ADD TABLE src_part PARTITION (ds='20121209') AS res_20121209; ALIAS resName=res_20121208; jar -resources resName -libjars work.jar -classpath ./work.jar com.company.MainClass args ...; // 作业一 ALIAS resName=res_20121209; jar -resources resName -libjars work.jar -classpath ./work.jar com.company.MainClass args ...; // 作业二上面的资源别名 resName在两个作业里引用到不同的资源表,代码可以不做修改也能读取到不同的数据。 Set 命令格式如下: set <KEY>=<VALUE> 行为说明如下: 您可以使用set命令设置MaxCompute或用户自定义的系统变量影响MaxCompute的行为。 目前,MaxCompute支持的系统变量,如下所示: --MaxCompute SQL及新版本Mapreduce支持的Set命令 set odps.sql.allow.fullscan= --设置是否允许对分区表进行全表扫描,false不允许,true为允许。 set odps.stage.mapper.mem= --设置每个map worker的内存大小,单位是M,默认值1024M。 set odps.stage.reducer.mem= --设置每个reduce worker的内存大小,单位是M,默认值1024M。 set odps.stage.joiner.mem= --设置每个join worker的内存大小,单位是M,默认值1024M。 set odps.stage.mem = --设置MaxCompute 指定任务下所有worker的内存大小。优先级低于以上三个set key,单位M,无默认值。 set odps.stage.mapper.split.size= -- 修改每个map worker的输入数据量,即输入文件的分片大小,从而间接控制每个map阶段下worker的数量,单位M,默认值256M。 set odps.stage.reducer.num= --修改每个reduce阶段worker数量,无默认值。 set odps.stage.joiner.num= --修改每个join阶段worker数量,无默认值。 set odps.stage.num= --修改MaxCompute 指定任务的所有阶段的worker的并发度,优先级低于以上三者,无默认值。 set odps.sql.type.system.odps2= -- 默认为false,SQL(Create、select、insert等操作)中涉及到新数据类型(TINYINT、SMALLINT、 INT、 FLOAT、VARCHAR、TIMESTAMP BINARY)时需要设置为true。 Show Flags 命令格式如下: show flags; --显示Set设置的参数 行为说明如下: 运行Use Project命令会清除掉Set命令设置的配置。 SetProject 命令格式如下: setproject <KEY>=<VALUE>; 行为说明如下: 您可以使用setproject命令设置Project属性。 例如,以下示例是设置允许全表扫描的方法。 setproject odps.sql.allow.fullscan = true; 当不指定<KEY>=<VALUE>时,显示当前Project的属性配置。命令格式如下:setproject; --显示setproject设置的参数 Project属性的详细说明如下: 属性名称 设置权限 属性描述 取值范围 odps.sql.allow.fullscan ProjectOwner 项目是否允许全表扫描 true(允许)/false(禁止) odps.table.drop.ignorenonexistent 所有用户 当删除不存在的表时,是否报错。true时不报错 true(不报错)/false odps.security.ip.whitelist ProjectOwner 指定访问Project的IP白名单 ip列表,逗号分隔 odps.table.lifecycle ProjectOwner optional:创建表时,lifecycle子句为可选,如果用户不设置 生命周期,则此表永久有效。mandatory:lifecycle子句为必 选。inherit:如果用户不指定生命周期,该表的生命周期为 odps.table.lifecycle.value的值。 optional /mandatory/inherit odps.table.lifecycle.value ProjectOwner 默认的生命周期值 1 ~ 37231(默认) odps.instance.remain.days ProjectOwner Instance信息保留时间 3 ~ 30 READ_TABLE_MAX_ROW ProjectOwner Select语句返回给客户端的数据条数 1~10000 odps.security.ip.whitelist示例 MaxCompute支持Project级别的IP白名单。 说明 设置IP白名单后,只有白名单列表中的IP(console或者SDK所在的出口IP)能够访问这个Project。 设置IP白名单后,您需要等待五分钟后才会生效。 如果您误操作,将自己屏蔽,请通过提工单向阿里云技术支持寻求帮助。 白名单中IP列表的表示格式有三种。 单纯IP:例如101.132.236.134。 子网掩码:100.116.0.0/16。 网段:101.132.236.134-101.132.236.144。 这三种格式可以写在同一个命令中,用逗号分割。 例如,以下为命令行工具设置IP白名单的方法: setproject odps.security.ip.whitelist=101.132.236.134,100.116.0.0/16,101.132.236.134-101.132.236.144; IP白名单清空后,MaxCompute就认为Project关闭了白名单功能。 setproject odps.security.ip.whitelist=; 计量预估(Cost SQL命令) 命令格式如下: cost sql <SQL Sentence>; 行为说明如下: 预估出一条SQL的计量信息,包含输入数据的大小、UDF个数以及SQL复杂等级。 说明 该信息不能够作为实际计费标准,仅具有参考意义。 示例如下: odps@ $odps_project >cost sql select distinct project_name, user_name from meta.m_security_users distribute by project_name sort by project_name; ID = 20150715113033121gmsbjxl1 Input:65727592 Bytes UDF:0 Complexity:1.0
2019-12-01 23:10:57 0 浏览量 回答数 0

问题

mapreduce跑不了

Combiner会报错: Exception in thread "main" java.lang.RuntimeException: java.lang.ArithmeticException: / by...
perhapszzy 2019-12-01 21:23:52 4393 浏览量 回答数 3

问题

我的账号中,子账号odps是project_tmp这个项目的管理员,想做到该项目下所有的表其他项目不能访问,来做到权限管理。set ProjectProtection=true; 在客户端执行这个语句的时候,报错FAILED: ODPS-0420095: Access Denied - Authorization Failed [4003], You have NO privilege to do the PROJECT SECURITY OPERATION for {acs:odps:*:project

我的账号中,子账号odps是project_tmp这个项目的管理员,想做到该项目下所有的表其他项目不能访问,来做到权限管理。set ProjectProtection=true; 在客户端执行这个语句的时候,报错FAILED: ODPS-0...
琴瑟 2019-12-01 20:14:45 3926 浏览量 回答数 1

问题

odps查询数据,总是提示报错,FAILED: ODPS-0140181:Sql plan exception - Could not generate job json, <type 'exceptions.MemoryError'> : 麻烦帮查下是什么原因

odps查询数据,总是提示报错,FAILED: ODPS-0140181:Sql plan exception - Could not generate job json, :麻烦帮查下是什么原因...
琴瑟 2019-12-01 20:14:39 1924 浏览量 回答数 1

问题

ODPS抛出异常,线上数据没有更新,异常信息如下:

ODPS抛出异常,线上数据没有更新,异常信息如下:ODPS throw exception:ODPS-0110999: Critical! Internal error happened in commit operation and ro...
琴瑟 2019-12-01 20:14:55 1558 浏览量 回答数 2

问题

我想问下ODPS record 的最大限制是多少? UDTF 异常报错如下: FAILED: ODPS-0010000:System internal error - Java UDTF cn.shuzilm.udf.ArrayDupCount: record size is too large

我想问下ODPS record 的最大限制是多少? UDTF 异常报错如下:FAILED: ODPS-0010000:System internal error - Java UDTF cn.shuzilm.udf.ArrayDupCou...
琴瑟 2019-12-01 20:14:40 1441 浏览量 回答数 1

问题

如何使用DataX将表格存储内的Binary类型数据导入到ODPS?

表格存储内部分字段是binary类型,而ODPS不支持binary类型,只支持String。在将表格存储内binary类型数据导入到ODPS的String字段之后,再读出来,发现数据不对,有丢失。我应该怎么把binary类型数据导入到ODP...
木洛 2019-12-01 19:43:44 1520 浏览量 回答数 1

问题

PyODPS使用问题

上传数据,类似的进程A一直在用没有问题,今天另起一个进程B 上传到另一个表b,出现如下错误 File "./test_aliyun_mac7days.py", line 26, in UploadData writer.write(rec...
驰众信息 2019-12-01 20:18:03 1257 浏览量 回答数 1

回答

您这边是vpc的连接,您如果是在自己外网电脑上看的话,您把里面的连接http://odps-ext.aliyun-inc.com/api换成公网连接http://service.odps.aliyun.com/api如:http://webconsole.odps.aliyun-inc.com:8080/logview/?h=http://service.odps.aliyun.com/xxxxx
123ya 2019-12-01 23:57:21 0 浏览量 回答数 0

回答

RePOM问题 你好!  我修改pom文件时,也遇到这种问题,Missing artifact com.aliyun.odps:odps-sdk-mapred:jar:0.21.3 Missing artifact com.aliyun.odps:odps-sdk-graph:jar:0.21.3 请问你是怎么解决的?
gloriacccc 2019-12-02 02:28:05 0 浏览量 回答数 0

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务