pyodps 中怎么写表-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

pyodps 中怎么写表

sangaj 2019-04-22 11:17:51 1872

比如我在服务器上,有个df,我获取了df后 df=DataFrame(o.get_table('df')),其中有a,b,c三列,然后我新增了一列 a1 并存入了新的表 df1中,怎么把df1 再写入云服务器中? write_table,该怎么用?

分享到
取消 提交回答
全部回答(1)
 • 小六码奴
  2019-07-17 23:33:54

  当数据表存储到DataWorks之后,PyODPS就可以对表中的数据进行数据预处理了。这里以一份1993年Auto MPG Data Set开源数据集为例,做一个简单的Demo。(此数据集的下载地址为:http://archive.ics.uci.edu/ml/datasets/Auto+MPG)

  前提是我们已经将此数据集导入到DataWorks当中,之后操作PyODPS做数据处理和机器学习的具体姿势如下:

  3-1. 通过PyODPS,从DataWorks中读入数据表,并转换成DataFrame格式。如下图所示。从图中我们可以看到,使用的是最新版0.7.13版本的PyODPS,并且读入的数据表有398条记录。
  image
  3-2. 查看数据表。如下两图所示。从这两张图中,我们可以看到这张表共有9列字段,并且在“horsepower”字段中出现了以问号填充的脏数据。这是我们要首先去除掉的。
  image
  image
  3-3. 去除“horsepower”字段中的问号,并查看处理脏数据后DataFrame的各字段类型。如下图所示。这里,在查看字段类型时,发现由于问号脏数据的出现,导致“horsepower”字段的类型目前为“string”类型。不过也不用着急将这个字段变回整数类型,可以往下再做一些其他的数据处理工作,如果发现有其他字段也需要调整类型的时候,可以在训练模型之前,一并处理。
  image
  3-4. 分组、聚合、排序操作。如下图所示。这里是按照一辆汽车安装汽缸的数量进行分组;并按照不同汽缸个数,求汽车燃油效率(以耗费一加仑汽油行驶的英里数作为表征,即mpg字段)的最大值和最小值,以及对装有不同汽缸数量的汽车进行计数;最后按照单辆汽车汽缸的个数进行降序排列。从下图的输出结果中可以看到,并不是汽缸的数量越多,燃油效率就越高,装有4汽缸汽车的燃油效率要高于装有8汽缸的汽车。并且,此表中装有4汽缸和8汽缸的数据记录较多,其他3款的数据记录偏少。由此可知,我们可以将汽缸数量为3,5,6的数据记录去除,将此表构造成可用于二分类算法模型使用的数据表。
  image
  3-5. 依次去除汽缸数量为3,5,6的数据记录,并验证剩余数据记录条数。如下图所示。
  image
  3-6. 将“horsepower”字段类型装换为整数型,并去除字符串类型字段car_name。如下图所示。

  0 1
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

推荐文章