SQL优化器原理 - Auto Hash Join
在MaxCompute中,Join操作符的实现算法之一名为"Hash Join",其实现原理是,把小表的数据全部读入内存中,并拷贝多份分发到大表数据所在机器,在 map 阶段直接扫描大表数据与内存中的小表数据进行匹配。
Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南
DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到ODPS、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为DataX准备执行集群。
开源大数据技术社区召集令
Hadoop生态技术已经俨然成为大数据事实标准,为了给广大同学、朋友提供一些交流学习的环境,沉淀大数据技术相关的资料,特别发起此次关注活动。
用数据洞察用户:TOB场景化营销
4月27日2016云栖大会南京峰会拉开帷幕,此次会议的主题定义为计算无边界。阿里云此次借助这个主题希望将更多的技术能力赋能给各行各业,让数据和计算产生更大的价值。本文来自《大数据专场:阿里云数加平台》,朗新科技产品总监黄永凯题为“基于数加技术的TOB场景化营销”的精彩演讲。
人工智能八大行业创新应用,开启智慧之路
ET背后采用的是大数据Ai技术,基于阿里云强大的计算能力,正在多个领域不断进化,目前已具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。强大的人工智能ET的技术具体会应用到哪些业务场景?
深度解析阿里云存储
分析师认为,阿里云目前的存储产品系列展示了阿里云的潜力。随着时间的推移,已经成为全球超大规模云服务提供商的有力竞争者和替代者。阿里云云存储不仅拥有一系列不同的产品和功能,而且现在已经具备了相当的能力,在全球范围内提供广泛的服务。
MaxCompute SQL-列转行和行转列
1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:
user_basic_info:
id
name
1
a
2
b
3
c
吉利汽车借助阿里云进行汽车行业新零售模式探索
吉利汽车互联营销服务平台,是为吉利集团营销域新一代互联网化核心业务系统。整套系统完全构建在阿里公共云平台上,按照企业级互联网架构的理念去构建,使用了包括IaaS服务、Aliware中间件服务、云盾服务和大数据服务在内的全系列阿里公共云服务。
2015首届云栖奖评选,寻找云上创新先锋
云栖联盟联合ITValue、钛媒体发起了2015首届云栖奖评选,旨在寻找那些善用云计算技术和资源,引领企业迈向DT时代的最佳CIO、CTO;也寻找那些帮助云上创业创新项目迅速成长,在这个行业中具有榜样效应的孵化机构和伯乐。
Mars——基于张量的统一分布式计算框架
很高兴在这里宣布我们的新项目:Mars,一个基于张量的统一分布式计算框架。我们已经在 Github 开源:https://github.com/mars-project/mars 。
背景
Python
Python 是一门相当古老的语言了,如今,在数据科学计算、机器学习、以及深度学习领域,Python 越来越受欢迎。