继盛_个人页

个人头像照片 继盛
个人头像照片 个人头像照片
28
6
0

个人介绍

程序猿一枚,把梦想揣进口袋的挨踢工作者。主要工作是分布式数据分析(DataFrame并行化框架),以及大规模分布式多维数组计算框架等。

擅长的技术

  • Python
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

阿里云技能认证

详细说明
暂无更多信息

2020年12月

  • 12.18 15:39:22
    发表了文章 2020-12-18 15:39:22

    「直播回顾」Mars应用与最佳实践

    本文首先对Mars的概念、功能、优势进行了介绍,随后,对Mars几个典型的应用场景进行介绍,并通过两个Demo展示了在使用Mars后数据科学性能的提升,最后总结了Mars的最佳实践,让使用Mars更高效便捷。
  • 12.18 15:19:00
    发表了文章 2020-12-18 15:19:00

    「直播回顾」Mars:加速数据科学的新方式

    本文从数据科学概念、背景和现状切入,引出加速数据科学的新方式Mars,并介绍了Mars具体能解决的一些问题和背后的逻辑、哲学,同时对Mars整体数据处理流程进行了介绍。

2020年10月

  • 10.26 11:46:04
    发表了文章 2020-10-26 11:46:04

    用 Mars Remote API 轻松分布式执行 Python 函数

    Mars 是一个并行和分布式 Python 框架,能轻松把单机大家耳熟能详的的 numpy、pandas、scikit-learn 等库,以及 Python 函数利用多核或者多机加速。这其中,并行和分布式 Python 函数主要利用 Mars Remote API。

2019年06月

  • 06.12 15:03:28
    发表了文章 2019-06-12 15:03:28

    PyODPS DataFrame 处理笛卡尔积的几种方式

    PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。
  • 06.06 11:18:08
    发表了文章 2019-06-06 11:18:08

    PyODPS DataFrame 的代码在哪里跑

    在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。
  • 发表了文章 2020-12-18

    「直播回顾」Mars应用与最佳实践

  • 发表了文章 2020-12-18

    「直播回顾」Mars:加速数据科学的新方式

  • 发表了文章 2020-10-26

    用 Mars Remote API 轻松分布式执行 Python 函数

  • 发表了文章 2020-05-08

    MaxCompute Mars 完全指南

  • 发表了文章 2020-04-26

    Spark DataFrame 不是真正的 DataFrame

  • 发表了文章 2020-04-13

    当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学

  • 发表了文章 2020-04-13

    Mars 开源月报(2020.3)

  • 发表了文章 2020-04-13

    并行正则采样排序算法及在 Mars 中的应用

  • 发表了文章 2020-04-13

    当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学

  • 发表了文章 2019-06-12

    PyODPS DataFrame 处理笛卡尔积的几种方式

  • 发表了文章 2019-06-06

    PyODPS DataFrame 的代码在哪里跑

  • 发表了文章 2019-02-28

    如何制作可以在 MaxCompute 上使用的 crcmod

  • 发表了文章 2019-01-08

    Mars 算法实践——人脸识别

  • 发表了文章 2019-01-08

    Mars 如何分布式地执行

  • 发表了文章 2019-01-08

    Mars 是什么、能做什么、如何做的——记 Mars 在 PyCon China 2018 上的分享

  • 发表了文章 2019-01-08

    Mars——基于张量的统一分布式计算框架

  • 发表了文章 2018-05-10

    在PyODPS DataFrame自定义函数中使用pandas、scipy和scikit-learn

  • 发表了文章 2018-05-10

    在 MaxCompute UDF 中运行 Scipy

  • 发表了文章 2017-12-22

    PyODPS 中使用 Python UDF

  • 发表了文章 2017-11-30

    PyODPS 安装常见问题解决

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2017-11-21

    对 MaxCompute 有 Python UDF 有使用意向的同学,在回答里写上你们的 project 名称,并简单描述场景

  • 回答了问题 2019-07-17

    PyODPS使用问题

    from odps import __version__
    
    print(__version__) 

    看下pyodps版本?

    踩0 评论0
  • 回答了问题 2019-07-17

    怎么用pyOdps实现RSS上的数据导入ODPS

    RSS可以自行解析,然后用我们的表上传接口来上传数据。

    文档:http://pyodps.readthedocs.io/zh_CN/latest/base-tables-zh.html#id7

    另外,可以加PyODPS答疑群(钉钉)

    IMG_3110

    踩0 评论0
  • 回答了问题 2019-07-17

    maxcompute 数据导出到本地Mysql

    用PyODPS可以写成这样,mysql那边使用sqlalchemy

    import itertools
    from sqlalchemy import create_engine, MetaData, Table
    from odps.df import DataFrame
    
    DB_CONNECT_STR = 'mysql+mysqldb://root:@localhost/mydb?charset=utf8'
    engine = create_engine(DB_CONNECT_STR, echo=True)
    conn = engine.connect()
    metadata = MetaData(engine)
    table = Table('mysql_table', metadata, autoload=True)
    
    df = DataFrame(odps.get_table('my_demo_table', project='my_project'))
    selected = df.filter(df.pdate == '')['imei', 'time_in', 'ntotalvote', 'ntotalcurr']
    
    records = []
    for i, record in zip(itertools.count(1), selected.execute()):
        if i % 100:
            conn.execute(conn.insert(), [dict(r) for r in records])
            records = []
        records.append(record)
    if records:
        conn.execute(conn.insert(), [dict(r) for r in records])
    踩0 评论0
  • 回答了问题 2019-07-17

    关于pyodps在IDE及终端下显示结果不一样的疑问

    是因为交互式情况下,print或者repr的时候会执行立即执行的方法。在非交互式环境下需要显式调用立即执行的方法

    所以你可以在IDE里:

    print(users.count().execute())

    或者可以打开interactive选项,这样在print或者repr的时候也执行计算。

    from odps jmport options
    
    options.interactive = True
    
    print(users.count())
    踩0 评论0
  • 回答了问题 2019-07-17

    pyODPS执行 open_reader 操作如何获取表中大于1万条的数据

    有两个方法

    1、 SQL写成create table as select *,这样再使用tunnel下载

    odps.execute_sql('create table my_tmp_table as select ***')
    t = odps.get_table('my_tmp_table')
    with t.open_reader() as reader:
        for record in reader:

    2、 使用instance tunnel,可以用tunnel读取instance执行结果。这个会在0.6版本完成,预计在下周末或者下下周初发布。

    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息