大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
MaxCompute UDF系列之拼音转换
汉字转换拼音在日常开发中是个很常见的问题。例如我们伟大的12306,在地名中输入“WH”,就会出现“武汉”“芜湖”“威海”等地名,输入“WUHU”就会出现“芜湖”。 我们在MaxCompute开发中也会遇到此类问题,今天为大家提供一个转换的UDF,下载地址见附件。
MaxCompute帮助创业公司中减轻MySQL存储压力
从0到1 在我们公司初创的时候,组齐了三人的团队就开始做产品研发。当时整条业务线的东西都需要我们自己写,要在短时间内把东西做出来,效率是非常关键的。 我们的产品模式本身其实是需要验证的。创业有很多不确定性,在上线之前没人能知道,我们的一个项目究竟能达到多大的规模,能做到什么样。
【直播沉淀】基于阿里云数加MaxCompute的企业大数据仓库架构建设思路
数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉宾是来自阿里云大数据的技术专家祎休! 演讲1:背景与总体思路 演讲2:架构及模型设计
MaxCompute SQL引用第三方Base64JAR实现编解码
我们通过阿里云MaxCompute 和大数据开发套件,引用第三方的Base64 JAR,来实现字符串的编码、解码;
人工智能居然会模仿人类品酒
《机器学习实践应用》作者傲海,手把手带领大家在机器学习PAI上,体验各种酒的口感,完成整个机器“品酒”的过程,内容包含:如何上传数据、如何做数据预处理、如何分类、如何评估四个部分,全程在线实操,并产出结果。
阿里巴巴大数据实践之数据建模
随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
阿里云大数据实验室:MaxCompute使用体验
阿里云大数据实验室时阿里云开发的一站式大数据教学实践和科研创新平台,提供创业创新大赛平台,为各行业用户提供简单易用的大数据真实环境,让数据价值触手可及。在阿里云大数据实验室中集成了MaxCompute。
MaxCompute数仓维护心得-五叶草
在维护客户基于MaxCompute搭建的数据仓库时,我们遇到过一些问题,踩过一些坑,同时积累了一些经验,也初步形成了一套操作流程规范,在这里与大家以Tip的形式与大家分享一下。 Tip1.避免同步视图 同步的源数据要避免使用视图,在客户的生产环境上曾经出现过这样的情况:由于生成视图的存储过程优化不好,同步视图在同步任务发起请求后很久没有生成出来,导致同步任务及后续的ETL挂起达数小时之久,所以后续和数据提供方接洽,将数据源从视图换为表,保证在同步之前同步表里的内容已经更新。
依托MaxCompute构建零售快消品行业数据仓库
利用MaxCompute,五叶草为某世界500强快消品零售巨头搭建了企业级数据仓库。由于部分子系统未打通、业务逻辑繁杂,客户的业务分析工作主要在线下人工完成,分析时间长、统计口径不一、数据质量参差不齐。
MaxCompute(原ODPS) Studio 2.7.0 版本发布,让代码效率更高
新功能: 作业管理: 显示作业排队队列 作业管理: 显示正在执行作业的历史状态转换序列 SQL编辑器: 跳转到 UDF 和 Table 的声明 SQL编辑器: 代码折叠和括号匹配支持 SQL编辑器: 常用语句模板支持 UDF: UDF 项目模块的 Maven 支持 UDF: UDF 一
阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务(归档Maxcompute)
实时业务处理的需求越来越多,也有各种处理方案,比如storm,spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。
MaxCompute模板与样例
代码模板和示例是用户熟悉新产品和提高开发效率的有效方式,studio提供了一系列的开发模板和代码实例。用户可以通过这些功能,快速熟悉MaxCompute,玩转大数据下的程序开发。
用 MaxCompute Studio 查看作业排队详情
本文首先对MaxCompute作业执行的各个阶段进行说明,然后以MaxCompute Studio为例,说明如何查看作业排队位置,查看队列详情以及作业状态转换历史信息。
ComputeColStats UDF中 近似算法的介绍
一,前面的话 表和列的统计信息对CBO的结果有着极大地影响,能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的,更准确的统计信息往往需要更多的计算,我们能做的是在高效和准确之间找到更好的平衡。
大数据平台的发展会降低程序员的价值吗?
针对本题,粗略地把研发人员的能力分为以下3类: 业务逻辑研发的能力:将业务逻辑转化为代码实现的能力。 系统架构的能力:高并发高负荷系统的设计实现能力,系统底层服务的研发能力。 特殊领域: 机器学习,自然语言,搜索推荐,语言与框架的开发等特殊的小众领域,暂不做讨论。
阿里云数加合作伙伴-袋鼠云获A轮融资,成立一年半获三轮投资超亿元
创投市场再次风起。2017年7月,袋鼠云宣布,获得来自戈壁创投主投、元璟资本跟投的A轮融资,相对于当前冷淡的投资市场,此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平(花名:拖雷)介绍,获得的资金将投入到三个方面:数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。
PyODPS开发中的最佳实践
PyODPS支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法。
从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL
SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。
大数据环境下该如何优雅地设计数据分层
发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。
每个人都应该知道的25个大数据术语
如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。 让我们开始吧: 1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。
大数据分析平台产品对比之MaxCompute 篇
之前尝试使用过一些国内外的云产品,特别是大数据分析型产品,例如:亚马逊的EMR、Redshift,Google的Bigquery以及阿里云的MaxCompute。相信大多数人对亚马逊的EMR、Redshift,Google的Bigquery都比较了解。
一场变美盛宴后面的大数据故事
小红唇和阿里云大数据平台的牵手要从2016年5月份说起。随着小红唇业务的发展,用户量和内容量不断增加,迫切需要推出个性化功能,增加用户的使用时长和用户粘度。对于一个没有大数据/机器学习经验和技术储备,并且开发人员有限的年轻团队,在业务快速发展的情况下,如何在非常有限的开发资源和不影响正常业务开发的前提下,快速建立起自己的推荐系统,成为摆在小红唇技术团队面前一个不小的挑战。
MaxCompute助力北斗大数据,千寻位置3秒实现厘米级定位
无人机、无人车……随着智能无人技术的兴起,背后的核心技术越加受到业界的关注。近日,全球最大地基增强系统运营商千寻位置成功研发出全球首个支持A-北斗的辅助定位平台FindNow, 大大缩短定位时间;结合使用阿里云大计算力量的千寻云踪-位置数据接入服务,为全国智能产业提供厘米级乃至毫米级高精度位置定位,快速+精准定位,为汽车导航、精准农业、防灾减灾等行业正迎来新的机遇。
巴黎科技展:“中国技术太厉害了,我们得赶紧学学!”
猜猜我在哪儿? 没错,这里是巴黎VivaTech科技展现场!阿里云携众多黑科技亮相,并宣布年内在欧洲节点部署MaxCompute服务,为同类技术出海之最! ET城市大脑、ET工业大脑、ET医疗大脑和ET环境大脑这些人工智能领域的新案例,老外问的问题差点答不完! 远在时尚之都的国际友人,纷纷忍不住纷纷点赞,请看大屏幕: (小编外语不好,如下字幕如有雷同,纯属巧合。
采云间DPC迁移方案实施计划
迁移计划概述: 第一阶段:前期沟通&准备 1、 请先熟悉Dataworks的相关操作,比如节点的新增、执行、调度运维等相关操作; 2、 本次迁移只把用户在采云间里面的任务迁移到DataWorks里面,需要用户提前确认采云间用到的odps项目在DataWorks中是否已经创建且可用;如果用户
MaxCompute分区表和非分区表使用对比
本文我们将通过对有同样数据量、表结构除分区列其他都一模一样的表,从查询计算、写入、删除数据几个简单操作进行对比,了解MaxCompute分区表和非分区表在使用上有什么差异。 在介绍之前,需要大家先了解MaxCompute分区的概念。
MaxCompute( 原ODPS)下的表分区解释
大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
MaxCompute百问集锦(持续更新)
大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
大数据上云那些事儿:(一)上云工具之爬虫(Scrapy)数据
在如今互联网环境下,网络上的各种业务数据,如新闻,社交网站,交易类数据等各种各样的数据越来越多被应用到企业的数据运营中,这些数据一般都数据量巨大,是最适合用MaxCompute来进行分析和加工的一类数据,尤其可以利用MaxCompute的机器学习能力来完成一些数据挖掘的业务场景,本文就介绍如何利用开源的Scrapy爬虫框架来爬取新闻网站的数据到MaxCompute中。
30秒在线卖出3000套房,对于云系统来说只是小意思!
数字经济时代,互联网改变着我们生活的方方面面,同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展,以及传统行业转型升级的日益深化,二者之间的关系变得愈发紧密。
阿里云大数据利器Maxcompute学习之--窗口函数实现分组TopN
看到很多用户经常会问如何对分组内进行排序。官方文档:https://help.aliyun.com/document_detail/34994.html?spm=5176.doc27891.6.611.
MaxCompute SQL-列转行和行转列
1. 假设我们在MaxCompute中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下: user_basic_info: id name 1 a 2 b 3 c
MaxCompute大数据实践,电商数据仓库选择雪花还是星型模型?
作者:王永伟 规范化和反规范化 当属性层次被实例化为一系列维度,而不是单一的维度时,此模式被称为雪花模式。大多数联机事务处理系统(OLTP)的底层数据结构在设计时采用此种规范化技术,通过规范化处理将重复属性移至其自身所属的表中,删除冗余数据。
MaxCompute大数据实践,电商数据仓库的星型模型和传统星型的区别
作者:王永伟 在Kimball所著的《数据仓库工具箱》一书中,对于维度模型设计采用的4步设计方法:1.选择业务过程 2.声明粒度 3.确定维度 4.确定事实。 在当前的互联网大数据环境下,面对复杂的业务场景,为了更有效准确地进行维度模型建设,基于Kimball的4步维度建模方法,我们进行了更进一步的改进。
阿里云大学精品课程:深入理解阿里云数加大数据开发套件Data IDE-基本知识
基于阿里云数加·MaxCompute构建大数据仓库的开发工具利器Data IDE《MaxCompute(原ODPS)开发入门指南——数据开发工具篇》,那么基于Data IDE进行数据开发想必也遇到一些不少的困惑,就自己在培训过程中的一些经验或者说阿里集团内的踩坑之路与大家在此分享,也欢迎拍砖。
MaxCompute SQL中的更新和删除如何实现
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 由于 MaxCompute是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。
阿里怎么发工资?自研薪酬管理系统首次曝光
作者:墨逐 人力资源管理系统是用集中的数据将几乎所有的人力资源相关的信息(组织、招聘、薪资、绩效、审批等)统一管理起来,是企业运行必不可少的管理软件。国际上知名的有Oracle PeopleSoft、SAP 和Workday HCM,世界500强公司有超过一半都在使用。
阿里云携大数据计算平台MaxCompute欧洲开服
参考消息网6月19日报道 英媒称,阿里巴巴旗下的云计算部门阿里云将于2017年下半年将其“MaxCompute”大数据服务带入欧洲。 据英国科技经济类网站硅谷网6月15日报道,当地时间6月15日,阿里云在巴黎VivaTech国际科技创新大会上宣布大数据计算产品“MaxCompute”将于年内在欧洲市场开服,该技术涵盖处理分析、机器学习等一系列完善的数据智能服务。
【大数据新手上路】“零基础”系列课程--MySQL 数据整库迁移到 MaxCompute
本实验通过大数据开发套件的整库迁移功能,快速将 MySQL 数据整库迁移到 MaxCompute,从而提升工作效率、降低用户使用成本。
Gartner公布2017年全球云计算魔力象限:阿里云进入前四
据媒体报道,6月16日,国际知名调研机构Gartner公布了2017年全球云计算IaaS魔力象限,阿里云强势崛起成为这一核心领域的前四名。这也是中国云计算厂商首次进入Gartner的IaaS魔力象限。
大数据开发套件-数据集成-云mongo跨区域如何同步到Maxcompute
在大数据开发套件中是可以实现mongo同步到Maxcompute。 数据集成文档:https://help.aliyun.com/document_detail/47677.html?spm=5176.7750354.6.599.jGn50I 后端是通过华东1区的调度资源进行数据的调度传输。
【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态
数加·大数据开发套件目前支持任务调度周期有五种:天、周、月、分钟、小时。本文将介绍这五种周期的配置和调度形态。 调度规则——调度任务是否能运行起来要满足的条件: 上游任务实例是否都运行成功。若所有上游任务实例都运行成功则触发任务进入等待时间状态。