Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南
              DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到ODPS、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为DataX准备执行集群。
              
             
            
              
              MaxCompute SQL-列转行和行转列
              1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:
user_basic_info:
id
  
name
 
1
  
a
 
2
  
b
 
3
  
c
              
             
            
            
              
              PyODPS开发中的最佳实践
              PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。
              
             
            
            
              
              数据保护伞—为MaxCompute平台数据安全保驾护航
              数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。
              
             
            
            
              
              DII—算法服务利器
              随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.
              
             
            
              
              从分析性数据库ADS中导出数据
              ADS是阿里云提供的分析性数据库,实现百亿数据毫秒级计算。
将ADS中的数据导出,有2种思路,通过select或dump实现。这两种方法各有优缺点。