继盛_个人页

继盛

文章

问答

视频

个人介绍

程序猿一枚，把梦想揣进口袋的挨踢工作者。主要工作是分布式数据分析（DataFrame并行化框架），以及大规模分布式多维数组计算框架等。

擅长的技术

Python

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

ACP
- 阿里云大数据ACP专业认证考试
  获得于2021-04-27 23:12:05

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2020年12月

12.18 15:39:22

发表了文章 2020-12-18 15:39:22

「直播回顾」Mars应用与最佳实践

本文首先对Mars的概念、功能、优势进行了介绍，随后，对Mars几个典型的应用场景进行介绍，并通过两个Demo展示了在使用Mars后数据科学性能的提升，最后总结了Mars的最佳实践，让使用Mars更高效便捷。
12.18 15:19:00

发表了文章 2020-12-18 15:19:00

「直播回顾」Mars：加速数据科学的新方式

本文从数据科学概念、背景和现状切入，引出加速数据科学的新方式Mars，并介绍了Mars具体能解决的一些问题和背后的逻辑、哲学，同时对Mars整体数据处理流程进行了介绍。

2020年10月

10.26 11:46:04

发表了文章 2020-10-26 11:46:04

用 Mars Remote API 轻松分布式执行 Python 函数

Mars 是一个并行和分布式 Python 框架，能轻松把单机大家耳熟能详的的 numpy、pandas、scikit-learn 等库，以及 Python 函数利用多核或者多机加速。这其中，并行和分布式 Python 函数主要利用 Mars Remote API。

2019年06月

06.12 15:03:28

发表了文章 2019-06-12 15:03:28

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理，本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。笛卡尔积最常出现的场景是两两之间需要比较或者运算。
06.06 11:18:08

发表了文章 2019-06-06 11:18:08

PyODPS DataFrame 的代码在哪里跑

在使用 PyODPS DataFrame 编写数据应用时，尽管编写的是同一个脚本文件，但其中的代码会在不同位置执行，这可能导致一些无法预期的问题，本文介绍当出现相关问题时，如何确定代码在何处执行，以及提供部分场景下解决问题的方法。

发表了文章 2020-12-18

「直播回顾」Mars应用与最佳实践
发表了文章 2020-12-18

「直播回顾」Mars：加速数据科学的新方式
发表了文章 2020-10-26

用 Mars Remote API 轻松分布式执行 Python 函数
发表了文章 2020-05-08

MaxCompute Mars 完全指南
发表了文章 2020-04-26

Spark DataFrame 不是真正的 DataFrame
发表了文章 2020-04-13

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学
发表了文章 2020-04-13

Mars 开源月报（2020.3）
发表了文章 2020-04-13

并行正则采样排序算法及在 Mars 中的应用
发表了文章 2020-04-13

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学
发表了文章 2019-06-12

PyODPS DataFrame 处理笛卡尔积的几种方式
发表了文章 2019-06-06

PyODPS DataFrame 的代码在哪里跑
发表了文章 2019-02-28

如何制作可以在 MaxCompute 上使用的 crcmod
发表了文章 2019-01-08

Mars 算法实践——人脸识别
发表了文章 2019-01-08

Mars 如何分布式地执行
发表了文章 2019-01-08

Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享
发表了文章 2019-01-08

Mars——基于张量的统一分布式计算框架
发表了文章 2018-05-10

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn
发表了文章 2018-05-10

在 MaxCompute UDF 中运行 Scipy
发表了文章 2017-12-22

PyODPS 中使用 Python UDF
发表了文章 2017-11-30

PyODPS 安装常见问题解决

正在加载, 请稍后...

滑动查看更多

提交了问题 2017-11-21

对 MaxCompute 有 Python UDF 有使用意向的同学，在回答里写上你们的 project 名称，并简单描述场景
回答了问题 2019-07-17
PyODPS使用问题
from odps import __version__ print(__version__)
看下pyodps版本？
赞0 踩0 评论0
回答了问题 2019-07-17

怎么用pyOdps实现RSS上的数据导入ODPS

RSS可以自行解析，然后用我们的表上传接口来上传数据。
文档：http://pyodps.readthedocs.io/zh_CN/latest/base-tables-zh.html#id7
另外，可以加PyODPS答疑群（钉钉）

赞0 踩0 评论0

回答了问题 2019-07-17

maxcompute 数据导出到本地Mysql

用PyODPS可以写成这样，mysql那边使用sqlalchemy

import itertools
from sqlalchemy import create_engine, MetaData, Table
from odps.df import DataFrame

DB_CONNECT_STR = 'mysql+mysqldb://root:@localhost/mydb?charset=utf8'
engine = create_engine(DB_CONNECT_STR, echo=True)
conn = engine.connect()
metadata = MetaData(engine)
table = Table('mysql_table', metadata, autoload=True)

df = DataFrame(odps.get_table('my_demo_table', project='my_project'))
selected = df.filter(df.pdate == '')['imei', 'time_in', 'ntotalvote', 'ntotalcurr']

records = []
for i, record in zip(itertools.count(1), selected.execute()):
    if i % 100:
        conn.execute(conn.insert(), [dict(r) for r in records])
        records = []
    records.append(record)
if records:
    conn.execute(conn.insert(), [dict(r) for r in records])

赞0 踩0 评论0

回答了问题 2019-07-17
关于pyodps在IDE及终端下显示结果不一样的疑问
是因为交互式情况下，print或者repr的时候会执行立即执行的方法。在非交互式环境下需要显式调用立即执行的方法。
所以你可以在IDE里：
print(users.count().execute())
或者可以打开interactive选项，这样在print或者repr的时候也执行计算。
from odps jmport options options.interactive = True print(users.count())
赞1 踩0 评论0
回答了问题 2019-07-17
pyODPS执行 open_reader 操作如何获取表中大于1万条的数据
有两个方法
1、 SQL写成create table as select *，这样再使用tunnel下载
odps.execute_sql('create table my_tmp_table as select ***') t = odps.get_table('my_tmp_table') with t.open_reader() as reader: for record in reader:
2、使用instance tunnel，可以用tunnel读取instance执行结果。这个会在0.6版本完成，预计在下周末或者下下周初发布。
赞1 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

继盛_个人页

个人介绍

擅长的技术

「直播回顾」Mars应用与最佳实践

「直播回顾」Mars：加速数据科学的新方式

用 Mars Remote API 轻松分布式执行 Python 函数

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS DataFrame 的代码在哪里跑

「直播回顾」Mars应用与最佳实践

「直播回顾」Mars：加速数据科学的新方式

用 Mars Remote API 轻松分布式执行 Python 函数

MaxCompute Mars 完全指南

Spark DataFrame 不是真正的 DataFrame

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

Mars 开源月报（2020.3）

并行正则采样排序算法及在 Mars 中的应用

当 Mars 遇上 RAPIDS：用 GPU 以并行的方式加速数据科学

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS DataFrame 的代码在哪里跑

如何制作可以在 MaxCompute 上使用的 crcmod

Mars 算法实践——人脸识别

Mars 如何分布式地执行

Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

Mars——基于张量的统一分布式计算框架

在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

在 MaxCompute UDF 中运行 Scipy

PyODPS 中使用 Python UDF

PyODPS 安装常见问题解决

对 MaxCompute 有 Python UDF 有使用意向的同学，在回答里写上你们的 project 名称，并简单描述场景

PyODPS使用问题

怎么用pyOdps实现RSS上的数据导入ODPS

maxcompute 数据导出到本地Mysql

关于pyodps在IDE及终端下显示结果不一样的疑问

pyODPS执行 open_reader 操作如何获取表中大于1万条的数据