MaxCompute Optimizer之表达式约化
MaxCompute Optimizer之表达式约化 文章转载自jiehongOptimizer是MaxCompute处理SQL任务的优化器,它的主旨于在根据关系代数的等价描述将中间的执行计划进一步地等价变换,以生成代价更优的执行计划。Optimizer内部有很多优化器,此
阿里靠什么支撑 EB 级计算力?
MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概览,以及每条技术线路未来展望等几个方面做一个概述。
[大数据行业应用发展前景分析] 阿里潘永花报告:大数据产业将成为新的煤和石油介绍
过去的2016年,政府、行业以及大众对大数据的认知有了更进一步提升,但是大数据的应用落地及价值体现还是处在初级阶段,大数据如何促进创新创业,带来新的经济增量,如何推动传统行业转型升级,如何实现商业价值在2017年将会受到更多关注,尤其是以大数据为基石的人工智能应用将会驱动着“AI+”的发展。

Apache Flink 零基础入门(一):基础概念解析
本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。
持续创新和改进,为用户创造最大价值,阿里云数加MaxCompute获得C-Tech Awards 2016年度“最具技术创新奖”
“C-Tech Awards 2016最具价值大奖评选”活动已经正式结束。从2016年12月22日线上征集至今,活动获得各大技术行业企业的高度关注,现已有来自国内外的近400家企业参与到了本次评选活动中,并提交了全面的产品简介和创新点解析。
机器在俯视人类,是我们的希望还是恐惧?
免费开通大数据服务:https://www.aliyun.com/product/odps 你看过“I,Robot”这部电影吗?如果你看过,是不是还记得这样一个场景:当警探史普纳进入庄严威武的USR公司时,公司大厅那个巨大的俯身凝视人类的机器人塑像?谈到 “I,Robot”观感时,有人使用了“不寒而栗”这个词,“感觉到发自脊背的寒意”。
王坚十年前的坚持,才有了今天世界顶级大数据计算平台MaxCompute
十年前,阿里云拉开国内云计算发展的序幕,而作为阿里云的创始人,王坚不仅仅为企业带来了一朵全球前三的云,还打造了一个全球顶级的EB级大数据计算平台MaxCompute。
DataWorks调度配置最佳实战
DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。通过DataWorks,可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统。
探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup(杭州站)干货集锦
什么是大数据?什么是计算?什么是超大规模的大数据计算? 答案是MaxCompute,具备单日600PB计算力的企业级大数据计算平台。MaxCompute一天的信息处理量相当于全球最大图书馆-美国国会图书馆藏书储存信息量的2250倍,可以为全球70亿人每人存储30张高清照片。
实时欺诈检测(风控)
基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。 系统架构: 实时欺诈检测(风控)系统流程如下: 用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。
MaxCompute Studio使用心得系列2——编译SQL脚本
Console客户端、大数据开发套件的SQL编辑器目前都没有脚本编译功能,每次需要执行SQL脚本,只能提交执行后若有语法错误,执行结果失败返回失败信息才发现,影响开发效率又浪费资源。今天我就来分享在MaxCompute SQL提交运行前就可以进行脚本编译的方法。
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
MaxCompute UDF系列之全角转半角
我们在做文本挖掘处理的时候,需要经常把全角字符转成半角处理,今天为大家提供一个全角转半角的MaxCompute UDF,下载地址见附件。 效果如下: MaxCompute UDF代码如下: package com.
阿里云携大数据计算平台MaxCompute欧洲开服
参考消息网6月19日报道 英媒称,阿里巴巴旗下的云计算部门阿里云将于2017年下半年将其“MaxCompute”大数据服务带入欧洲。 据英国科技经济类网站硅谷网6月15日报道,当地时间6月15日,阿里云在巴黎VivaTech国际科技创新大会上宣布大数据计算产品“MaxCompute”将于年内在欧洲市场开服,该技术涵盖处理分析、机器学习等一系列完善的数据智能服务。
天猫精灵业务如何使用机器学习PAI进行模型推理优化
作者:如切,悟双,楚哲,晓祥,旭林 引言 天猫精灵(TmallGenie)是阿里巴巴人工智能实验室(Alibaba A.I.Labs)于2017年7月5日发布的AI智能语音终端设备。天猫精灵目前是全球销量第三、中国销量第一的智能音箱品牌。
开源大数据周刊-第77期
资讯 锤炼视频大数据时代的“火眼金睛” 我们身处一个大数据的时代,视频数据的爆炸性增长是这个时代的重要特征之一。如何让计算机看懂视频的内容,实现对海量视频数据的检索和分析是有效管理和利用视频大数据的关键。
大规模深度学习预测场景下 codegen 的思考与应用
RTP 系统是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程,解决系统的抽象和性能问题,并提供 schedule 的优化能力。

【客户案例】用户点击率提升57%?| 智能推荐&开放搜索的实践分享
上海的联蔚科技是一家所属阿里生态的服务商,基于对大量客户的真实分析,从客户IT背景出发基于案例分析,来给大家分享为什么我们选择智能推荐和开放搜索作为企业技术服务架构的核心层,且在集成过程中,这两个服务的定位。
友盟+联合EB级云数据仓库 MaxCompute 实现友盟域和企业私域数据全面融合
国内领先的第三方全域数据智能服务商友盟+,联合阿里云EB级云数据仓库 MaxCompute 为企业提供面向分析的,实现友盟域数据与企业私域数据全面融合的自助分析服务“U-DOP数据开放”。
深度预测平台RTP介绍
前言 RTP平台是阿里内部一个通用的在线预测平台,不仅支持淘系搜索、推荐、聚划算、淘金币等业务,也支持国际化相关icbu、lazada等搜索推荐业务,同时还支持着淘客,优酷、飞猪等大文娱的搜索推荐场景。

专访 Elasticsearch 创始人 Shay Banon:让数据自己说话
11 月 13 日,在 2017 杭州云栖大会上,Elasticsearch 与阿里云宣布达成战略合作,共同研发及发布阿里云上提供托管的 Elasticsearch,为中国市场提供崭新的用户体验。Elasticsearch 挺进中国市场面临的机遇和挑战如何?阿里云 Elasticsearch 为中国用户提供了哪些新服务?为此,InfoQ 采访了 Elasticsearch 的创始人兼首席执行官 Shay Banon。
Hadoop 这样业界顶级的大规模数据处理平台,均发现满足不了类似双十一这样全世界的剁手党蜂拥而至的热情
写这篇文之前想起一个段子:“你在干嘛?”“我在王健林这儿跟马云谈生意。”“说人话!”“我在万达广场逛无聊了坐着拿手机淘宝……” 所以,本来开篇想说上周到马云那里聊了会最新的云计算技术,想想还是不那么得瑟,老实交代吧,上周五到杭州阿里巴巴总部以开小规模研讨会的名义实质上主要是去参观学习了一圈。
图(关系网络)数据分析及阿里应用
2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。
【阿里内部应用】基于Blink构建亲听项目以及全链路debug项目实时响应能力
本文全面总结了大数据项目组在亲听项目以及全链路debug项目上进行的实时流处理需求梳理,架构选型,以及达成效果 一、背景介绍 1.1亲听项目 亲听项目专注于帮助用户收集、展示、监控和处理用户体验问题,是保证产品的主观评价质量的利器,关于其具体功能可参考在ata搜索"亲听"查看系列文章。
阿里云Elasticsearch 智能化运维实践
背景 Elasticsearch作为一个开箱即用的搜索引擎,其丰富的功能和极低的使用门槛吸引着越来越多的公司和用户选择它作为搜索和数据分析的工具。用户在运维Elasticsearch集群时往往会遇到很多难题,具体来说有下面列举的几点: 使用方式往往比较粗糙,默认的设置并不适合每一个集群和业务,非精细化的设计将会极大的增加集群隐患; 集群出现问题,无法及时定位原因、寻找解决方案,低效的沟通或者解决问题的方式可能会使得问题变得愈发严重; ES提供的监控指标繁杂,指标多,意义不明确,需要一定的专业知识才可以理解,缺乏全局视角; 此外,集群潜在的异常无法发现,更不能及时规避风险。

MaxCompute计费命令详解
最近有一些海外企业,在做MaxCompute技术选型,海外客户非常关心收费细节,小编会经常被问到哪些命令是收费的。比如删除命令收不收费,更新数据收不收费。
基于MaxCompute的图计算实践分享-Resolver简介
Resolver简介 在学习使用MaxCompute-Graph计算模型时,resolver是一个不容易理解的概念。在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.
MaxCompute如何对SQL查询结果实现分页获取
由于MaxCompute SQL本身不提供类似数据库的select * from table limit x offset y的分页查询逻辑。但是有很多用户希望在一定场景下能够使用获取类似数据库分页的逻辑,对查询结果进行分页/分批获取结果,本文将介绍几种方法,来实现上述场景。

如何在 Apache Flink 中使用 Python API?
为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展;Apache Flink Python API 架构及开发环境搭建;Apache Flink Python API 核心算子介绍及应用。
【直播沉淀】基于阿里云数加MaxCompute的企业大数据仓库架构建设思路
数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉宾是来自阿里云大数据的技术专家祎休! 演讲1:背景与总体思路 演讲2:架构及模型设计

Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
本文主要面向于初次接触 Flink、或者对 Flink 有了解但是没有实际操作过的同学。希望帮助大家更顺利地上手使用 Flink,并着手相关开发调试工作。
【南京Meetup】苏宁Elastic平台化实践中踩过哪些坑,又是如何解决的?
在南京 Elastic Meetup 南京交流会专场中,苏宁大数据平台搜索平台组的韩宝君为我们带来如何在大量的数据中发现数据的价值。从大数据平台的架构出发,详细解读了平台的概况和服务化平台的模块等方面的知识。最后,具体举出了在实践中出现的一些问题及对应的处理方案。
开源大数据周刊-第22期
本周关注:大数据部门、数据科学家、机器学习发展与机遇、spark2.0 Structured Streaming、Hbase运维、Sqoop、Flink的第一本书籍。
DCA公布第七批大数据产品能力评测结果,阿里云MaxCompute超大规模集群引关注
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
E-MapReduce集群使用Oozie工作流简单示例
本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。
阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。
全新一代人工智能计算引擎MaxCompute杭州开服,强化阿里云大数据能力,比肩谷歌微软
3月22日,阿里云将正式开服售卖华东1(杭州)节点的大数据计算服务MaxCompute,以进一步提升对华东区域客户服务的响应速度,推动杭州大数据、人工智能产业的加速发展。
MaxCompute帮助创业公司中减轻MySQL存储压力
从0到1 在我们公司初创的时候,组齐了三人的团队就开始做产品研发。当时整条业务线的东西都需要我们自己写,要在短时间内把东西做出来,效率是非常关键的。 我们的产品模式本身其实是需要验证的。创业有很多不确定性,在上线之前没人能知道,我们的一个项目究竟能达到多大的规模,能做到什么样。
解决MaxCompute SQL count distinct多个字段的方法
按照惯性思维,统计一个字段去重后的条数我们的sql写起来如下: Distinct的作用是用于从指定集合中消除重复的元组,经常和count搭档工作,语法如下 COUNT( { [ DISTINCT ] expression ] | * } ) 这时,可能会碰到如下情况,你想统计同时有多列字段重复的数目,你可能会立马想到如下方法: select count( distinct col1 , col2 , col3 , .......) from table 但是,这样是有问题的,如果值包含空,那么我们的结果是什么呢?如果你实验过,正如你实验的一样,结果会比实际少。
开源大数据周刊-第56期
阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计 资讯 全球因Hadoop服务器配置不当导致的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。
如何在E-MapReduce上提交Storm作业处理Kafka数据
本文演示如何在E-MapReduce上部署Storm集群和Kafka集群,并运行Storm作业消费Kafka数据。
Mars 如何分布式地执行
先前,我们已经介绍过 Mars 是什么。如今 Mars 已在 Github 开源并对内上线试用,本文将介绍 Mars 已实现的分布式执行架构,欢迎大家提出意见。 架构 Mars 提供了一套分布式执行 Tensor 的库。

Apache Flink 零基础入门(五):流处理核心组件 Time&Window 深度解析
为什么要有 Window; Window 中的三个核心组件:WindowAssigner、Trigger 和 Evictor;Window 中怎么处理乱序数据,乱序数据是否允许延迟,以及怎么处理迟到的数据;最后我们梳理了整个 Window 的数据流程,以及 Window 中怎么保证 Exactly
操作系统顶级会议SOSP 阿里云MaxCompute开启NewSQL时代
近日,第26届操作系统原理大会(SOSP)在上海举行,来自亚洲、欧洲、北美等地区的高校、学术机构和众多科技企业研究人员齐聚一堂。阿里巴巴受邀参加此次会议,除在展区展示系统软件技术的同时,阿里集团副总裁周靖人在BOF环节向参会人员介绍了阿里在数据库、计算、机器学习、网络等领域的多项重点技术。

大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。