继盛_个人页

个人头像照片 继盛
个人头像照片 个人头像照片
28
6
0

个人介绍

程序猿一枚,把梦想揣进口袋的挨踢工作者。主要工作是分布式数据分析(DataFrame并行化框架),以及大规模分布式多维数组计算框架等。

擅长的技术

  • Python
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

阿里云技能认证

详细说明
暂无更多信息
  • 发表了文章 2020-12-18

    「直播回顾」Mars应用与最佳实践

  • 发表了文章 2020-12-18

    「直播回顾」Mars:加速数据科学的新方式

  • 发表了文章 2020-10-26

    用 Mars Remote API 轻松分布式执行 Python 函数

  • 发表了文章 2020-05-08

    MaxCompute Mars 完全指南

  • 发表了文章 2020-04-26

    Spark DataFrame 不是真正的 DataFrame

  • 发表了文章 2020-04-13

    当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学

  • 发表了文章 2020-04-13

    Mars 开源月报(2020.3)

  • 发表了文章 2020-04-13

    并行正则采样排序算法及在 Mars 中的应用

  • 发表了文章 2020-04-13

    当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学

  • 发表了文章 2019-06-12

    PyODPS DataFrame 处理笛卡尔积的几种方式

  • 发表了文章 2019-06-06

    PyODPS DataFrame 的代码在哪里跑

  • 发表了文章 2019-02-28

    如何制作可以在 MaxCompute 上使用的 crcmod

  • 发表了文章 2019-01-08

    Mars 算法实践——人脸识别

  • 发表了文章 2019-01-08

    Mars 如何分布式地执行

  • 发表了文章 2019-01-08

    Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

  • 发表了文章 2019-01-08

    Mars——基于张量的统一分布式计算框架

  • 发表了文章 2018-05-10

    在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

  • 发表了文章 2018-05-10

    在 MaxCompute UDF 中运行 Scipy

  • 发表了文章 2017-12-22

    PyODPS 中使用 Python UDF

  • 发表了文章 2017-11-30

    PyODPS 安装常见问题解决

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2017-11-21

    对 MaxCompute 有 Python UDF 有使用意向的同学,在回答里写上你们的 project 名称,并简单描述场景

  • 回答了问题 2019-07-17

    PyODPS使用问题

    from odps import __version__
    
    print(__version__) 

    看下pyodps版本?

    踩0 评论0
  • 回答了问题 2019-07-17

    怎么用pyOdps实现RSS上的数据导入ODPS

    RSS可以自行解析,然后用我们的表上传接口来上传数据。

    文档:http://pyodps.readthedocs.io/zh_CN/latest/base-tables-zh.html#id7

    另外,可以加PyODPS答疑群(钉钉)

    IMG_3110

    踩0 评论0
  • 回答了问题 2019-07-17

    maxcompute 数据导出到本地Mysql

    用PyODPS可以写成这样,mysql那边使用sqlalchemy

    import itertools
    from sqlalchemy import create_engine, MetaData, Table
    from odps.df import DataFrame
    
    DB_CONNECT_STR = 'mysql+mysqldb://root:@localhost/mydb?charset=utf8'
    engine = create_engine(DB_CONNECT_STR, echo=True)
    conn = engine.connect()
    metadata = MetaData(engine)
    table = Table('mysql_table', metadata, autoload=True)
    
    df = DataFrame(odps.get_table('my_demo_table', project='my_project'))
    selected = df.filter(df.pdate == '')['imei', 'time_in', 'ntotalvote', 'ntotalcurr']
    
    records = []
    for i, record in zip(itertools.count(1), selected.execute()):
        if i % 100:
            conn.execute(conn.insert(), [dict(r) for r in records])
            records = []
        records.append(record)
    if records:
        conn.execute(conn.insert(), [dict(r) for r in records])
    踩0 评论0
  • 回答了问题 2019-07-17

    关于pyodps在IDE及终端下显示结果不一样的疑问

    是因为交互式情况下,print或者repr的时候会执行立即执行的方法。在非交互式环境下需要显式调用立即执行的方法

    所以你可以在IDE里:

    print(users.count().execute())

    或者可以打开interactive选项,这样在print或者repr的时候也执行计算。

    from odps jmport options
    
    options.interactive = True
    
    print(users.count())
    踩0 评论0
  • 回答了问题 2019-07-17

    pyODPS执行 open_reader 操作如何获取表中大于1万条的数据

    有两个方法

    1、 SQL写成create table as select *,这样再使用tunnel下载

    odps.execute_sql('create table my_tmp_table as select ***')
    t = odps.get_table('my_tmp_table')
    with t.open_reader() as reader:
        for record in reader:

    2、 使用instance tunnel,可以用tunnel读取instance执行结果。这个会在0.6版本完成,预计在下周末或者下下周初发布。

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息