隐林_个人页

隐林

文章

262

问答

视频

个人介绍

阿里云大数据产品专家，擅长MaxCompute、机器学习、分布式、可视化、人工智能等大数据领域；

擅长的技术

Java
Python
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

ACP
- 阿里云大数据ACP专业认证考试
  获得于2021-04-29 22:03:38

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

发表了文章 2016-11-09

标签分类理论

最近在做DMP，负责设计一套标签管理系统。在对现有标签进行整理的过程中，整理出了这套东西。 0. 标签的定义：标签分类学(Taxonomy) 对于标签(tag)，很难列出一个公认的定义，指明这个概念的种差与属概念。所以为了把握这个概念，就需要采取定义另一种办法：分类与枚举。我们要解决的第一个
发表了文章 2016-11-09

Fuxi ServiceModeJob 多租户（Quota Group）功能介绍

概述 ServiceModeJob（又名：OnlineJob）是fuxi提供的一套准实时计算框架，通过毫秒级的调度开销和网络Shuffle模式为小Job提供更高的性能。目前ODPS对内生产集群约1/3的Job通过ServiceModeJob进行处理，对其中小Job比较多的集群，这个占比会提高到70
发表了文章 2016-11-07

MaxCompute（原ODPS）脑图－常用知识总结

MaxCompute常用知识整理
发表了文章 2016-10-31

2016Qcon上海之旅

转载wangshen主要是大数据应用方向早上第一个听了IBM 企业海量数据以及全面云数据服务实践，主要介绍了IBM 云计算的应用场景，主要是介绍IBM 在云数据服务方面的应用，主要是分享了几个客户案例.
发表了文章 2016-10-26

MaxCompute（原ODPS）任务优化之列裁剪

最近因为几个ODPS任务节点扣分严重，计算健康度一度堕落至85分的红线以下，上了一次黑榜，立马开始了艰苦的优化之旅。刚刚前几天搞定了两个OpenMR的列裁剪优化，略作记录。
发表了文章 2016-10-19

RODPS介绍

这篇文章主要是给外部用户介绍如何使用RODPS的（一）概念介绍 RODPS能够提供一个桥接的方式，使得可以在R语言环境中无缝的使用MaxCompute(原ODPS)里面的数据、计算资源，类似于开源社区的RHive和Rhadoop的功能。（二）安装R基础环境 2.1 Linux serve
发表了文章 2016-10-18

Vectorized Execution Engine in MaxCompute 2.0简介

前言在《数据库系统中的Code Generation技术介绍》一文中，我们阐述了代码的CPU执行效率对于大规模分布式OLAP系统的重要性。现在简单总结如下： OLAP系统中查询往往比较复杂，比如多表Join, 各种聚合函数以及窗口函数，其中涉及大量的Hash计算（比如采用Hash
发表了文章 2016-10-18

MaxComputeSql性能调优

转载自xiaorui 部分用户(尤其对外输出)使用MaxCompute(原Odps)时，由于对产品的使用层面和执行层面了解程度不同，导致提交的任务执行时间过长、占用了较多集群资源；严重的会导致失败、不仅需要投入支持同学精力协助解决、也影响了用户正常业务。合并整理部分性能提升方法方
发表了文章 2016-10-13

MaxCompute Optimizer之表达式约化

MaxCompute Optimizer之表达式约化文章转载自jiehongOptimizer是MaxCompute处理SQL任务的优化器，它的主旨于在根据关系代数的等价描述将中间的执行计划进一步地等价变换，以生成代价更优的执行计划。Optimizer内部有很多优化器，此
发表了文章 2016-10-13

MaxCompute 中的Code Generation技术简介

前言在《数据库系统中的Code Generation技术介绍》中，我们简单介绍了一下Code Generation技术及其在大规模OLAP系统，特别是大规模分布式OLAP系统中的重要性。MaxCompute采用了Code Generation技术来提高计算效率。在MaxCompute
发表了文章 2016-10-11

MaxCompute 存储优化技巧

文章转自duzhuan本文主要介绍一些ODPS表操作的优化技巧，通过这些技巧，可以有效节省ODPS存储空间和计算量。合理设置分区表 ODPS支持分区表的概念，分区表指的是在创建表时指定的partition的分区空间，即指定表内的某几个字段作为分区列。在大多数情况下，用户可以将分区类比为文件系统
发表了文章 2016-10-11

MaxCompute MapReduce的7个性能优化策略

本文收录了一些MaxCompute MapReduce优化策略。
发表了文章 2016-10-11

MaxCompute数据安全机制

文章转自dongkai和传统的计算平台类似，MaxCompute使用多租户隔离租户间的数据。租户内利用访问控制保护用户数据。但是作为一个云计算、大数据平台，MaxCompute在实现时做了一系列的创新。这些创新主要体现在三个方面：1、访问可追溯；2、更细粒度的访问控制；3、跨租户访问控制。访问可追溯
发表了文章 2016-10-11

MaxCompute 2.0 生态开放之路及最新发展

MaxCompute（原ODPS）是阿里云自主研发的分布式大数据处理系统。
发表了文章 2016-10-11

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

转自haixiaElasticsearch on MaxCompute Elasticsearch 是目前最流行的开源分布式搜索系统之一，它有着优秀的近实时搜索性能和丰富的周边配套工具。以 Elasticsearch 为核心的 Elastic Stack (Elasticsearch + Log
发表了文章 2016-10-11

基于 MaxCompute 的极速的基因测序分析

转载自yizhuo 基因、测序、分析基因，生命的基本因素，是人类和其他生物的基础遗传物质。人有 23 对染色体，总共记录了大约 3Gb 个碱基（这里的 b 是 base，即碱基，可不是 bit，参考这里），每个位置上的碱基可能是 ATCG 中的一个。简单理解起来，就是有了这 3Gb 长的字
发表了文章 2016-09-22

MaxCompute5个窗口函数限制

MaxCompute使用技巧
发表了文章 2016-09-22

R语言和大数据

分布式的R
发表了文章 2016-09-22

低版本mvel在MaxCompute jdk8环境中报java.lang.VerifyError

MaxCompute使用技巧
发表了文章 2016-09-21

【MaxCompute学习】隐式转化的问题

MaxCompute使用小技巧
提交了问题 2016-09-07

在哪里可以看到ADS文档
提交了问题 2016-06-02

MaxCompute文档交流

...

暂无更多信息

发表了文章 2019-09-24

【转载】时隔一年多，我又用起了 Superset
发表了文章 2019-09-09

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？
发表了文章 2019-09-09

阿里巴巴飞天大数据架构体系与Hadoop生态系统
发表了文章 2019-07-30

交易数据清算从8小时缩至1.5小时，飞天大数据平台MaxCompute解决余额宝算力难题
发表了文章 2019-07-27

【转载】为什么只有好超市，才敢卖熟牛油果？
发表了文章 2019-07-27

【转载】DT时代，阿里不再藏住“技术公司”标签
发表了文章 2019-07-27

【转载】刚刚又传来好消息，硬核!新一代大国重器！MaxCompute
发表了文章 2019-06-11

优酷背后的大数据秘密
发表了文章 2019-04-28

基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系
发表了文章 2019-03-30

阿里小二的日常工作要被TA们“接管”了！
发表了文章 2019-03-30

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化
发表了文章 2019-03-23

阿里云大数据平台MaxCompute用户指南官方电子版下载
发表了文章 2019-02-21

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案
发表了文章 2019-02-21

解决MaxCompute SQL count distinct多个字段的方法
发表了文章 2019-02-19

MaxCompute SQL随机抽取N行数据
发表了文章 2019-01-15

中小企业如何借力工业互联网抵抗死亡潮?
发表了文章 2018-11-29

国内云数仓排行独占一档，揭秘阿里云EB级大数据计算引擎MaxCompute
发表了文章 2018-11-24

阿里如何做到百万量级硬件故障自愈？
发表了文章 2018-11-24

阿里工业互联网平台“思考”：一场从0到1的蜕变
发表了文章 2018-11-03

离线数据同步神器：DataX，支持几乎所有异构数据源的离线同步到MaxCompute

正在加载, 请稍后...

滑动查看更多

回答了问题 2019-07-17

MaxCompute Studio 填写 MaxCompute Console 下的配置文件 odps_config.ini出现ODPS-0420095: Access Denied - Authorization Failed

找到主账号给Project做授权。

赞0 踩0 评论1
提交了问题 2018-03-27

UDTF调用失败，FAILED: ODPS-0130071:[1,8] Semantic analysis exception - expect 2 aliases but have 0
回答了问题 2019-07-17

UDTF调用失败，FAILED: ODPS-0130071:[1,8] Semantic analysis exception - expect 2 aliases but have 0

改成这样就可以了select query2attention(50012346, '女童大码运动凉鞋') as (att_id, cnt) from crm_ods.dual

赞1 踩0 评论0
提交了问题 2017-11-22

MaxCompute如何使用最省钱？
回答了问题 2019-07-17

MaxCompute如何使用最省钱？

可以参考：https://yq.aliyun.com/articles/257512

赞0 踩0 评论0
回答了问题 2019-07-17

MaxComputer如何访问较大文件

可以单独作为资源文件上传，最好是能拆成多个小文件。add file datasrc.txt

赞0 踩0 评论0
提交了问题 2017-10-26

MaxCompute现在支持hive自带udf吗?
回答了问题 2019-07-17

MaxCompute现在支持hive自带udf吗?

percentile函数这个版本还不支持，不过快了。hive常用的自定义udf，可以试一下开启2.0的hive兼容设置

赞0 踩0 评论0
提交了问题 2017-10-11

MaxCompute有哪些常用语句？
回答了问题 2019-07-17

MaxCompute如何自动续费？

费用->续费管理->MaxCompute->手动续费->修改为自动续费->选择自动续费周期->完成

赞0 踩0 评论0
回答了问题 2019-07-17

MaxCompute有哪些常用语句？

https://yq.aliyun.com/articles/222955欢迎补充

赞0 踩0 评论0
回答了问题 2019-07-17

MaxCompute2.0读取oss报错

字段数不同导致的

赞0 踩0 评论0
回答了问题 2019-07-17

MaxCompute2.0 java udf 要返回STRUCT, evaluate 方法返回的类型是?

2.0已支持，https://help.aliyun.com/document_detail/27867.html

赞0 踩0 评论0
提交了问题 2017-09-15

tunnel分隔符有没有好的处理特殊字符策略
回答了问题 2019-07-17

tunnel分隔符有没有好的处理特殊字符策略

两种方法可以参考，1、opencsv(处理特殊字符)+tunnel sdk；2、自定义离线数据中分隔符，这样可以不冲突，比如$#@$@ 或者)$*#@$@$；

赞0 踩0 评论0
提交了问题 2017-09-08

MaxCompute（原ODPS）常见错误码有哪些？
回答了问题 2019-07-17

MaxCompute 2.0外表查询报错

创建了8个字段，但导入了4个字段数据，其他字段为空，所以查询报错。

赞0 踩0 评论0
提交了问题 2017-08-14

MaxCompute MapReduce（MR）如何收费？
提交了问题 2017-06-30

MaxCompute百问集锦（持续更新20171011）
回答了问题 2019-07-17

MaxCompute （原odps）项目默认的分区最大值设置为60000，请问怎么更改这个默认值呢？

建议做两张表

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

隐林_个人页

个人介绍

擅长的技术

标签分类理论

Fuxi ServiceModeJob 多租户（Quota Group） 功能介绍

MaxCompute（原ODPS） 脑图 － 常用知识总结

2016Qcon上海之旅

MaxCompute（原ODPS）任务优化之列裁剪

RODPS介绍

Vectorized Execution Engine in MaxCompute 2.0简介

MaxComputeSql性能调优

MaxCompute Optimizer之表达式约化

MaxCompute 中的Code Generation技术简介

MaxCompute 存储优化技巧

MaxCompute MapReduce的7个性能优化策略

MaxCompute数据安全机制

MaxCompute 2.0 生态开放之路及最新发展

当 Elasticsearch 遇上 MaxCompute —— 「Elasticsearch on MaxCompute 」简介

基于 MaxCompute 的极速的基因测序分析

MaxCompute5个窗口函数限制

R语言和大数据

低版本mvel在MaxCompute jdk8环境中报java.lang.VerifyError

【MaxCompute学习】隐式转化的问题

在哪里可以看到ADS文档

MaxCompute文档交流

【转载】时隔一年多，我又用起了 Superset

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？

阿里巴巴飞天大数据架构体系与Hadoop生态系统

交易数据清算从8小时缩至1.5小时，飞天大数据平台MaxCompute解决余额宝算力难题

【转载】为什么只有好超市，才敢卖熟牛油果？

【转载】DT时代，阿里不再藏住“技术公司”标签

【转载】刚刚又传来好消息，硬核!新一代大国重器！MaxCompute

优酷背后的大数据秘密

基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系

阿里小二的日常工作要被TA们“接管”了！

【阿里云峰会出海论坛】MaxCompute助力小影短视频走向全球化

阿里云大数据平台MaxCompute用户指南官方电子版下载

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

解决MaxCompute SQL count distinct多个字段的方法

MaxCompute SQL随机抽取N行数据

中小企业如何借力工业互联网抵抗死亡潮?

国内云数仓排行独占一档，揭秘阿里云EB级大数据计算引擎MaxCompute

阿里如何做到百万量级硬件故障自愈？

阿里工业互联网平台“思考”：一场从0到1的蜕变

离线数据同步神器：DataX，支持几乎所有异构数据源的离线同步到MaxCompute

MaxCompute Studio 填写 MaxCompute Console 下的配置文件 odps_config.ini出现ODPS-0420095: Access Denied - Authorization Failed

UDTF调用失败，FAILED: ODPS-0130071:[1,8] Semantic analysis exception - expect 2 aliases but have 0

UDTF调用失败，FAILED: ODPS-0130071:[1,8] Semantic analysis exception - expect 2 aliases but have 0

MaxCompute如何使用最省钱？

MaxCompute如何使用最省钱？

MaxComputer如何访问较大文件

MaxCompute现在支持hive自带udf吗?

MaxCompute现在支持hive自带udf吗?

MaxCompute有哪些常用语句？

MaxCompute如何自动续费？

MaxCompute有哪些常用语句？

MaxCompute2.0读取oss报错

MaxCompute2.0 java udf 要返回STRUCT, evaluate 方法返回的类型是?

tunnel分隔符有没有好的处理特殊字符策略

tunnel分隔符有没有好的处理特殊字符策略

MaxCompute（原ODPS）常见错误码有哪些？

MaxCompute 2.0外表查询报错

MaxCompute MapReduce（MR）如何收费？

MaxCompute百问集锦（持续更新20171011）

Fuxi ServiceModeJob 多租户（Quota Group）功能介绍

MaxCompute（原ODPS）脑图－常用知识总结