大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
机器在俯视人类,是我们的希望还是恐惧?
免费开通大数据服务:https://www.aliyun.com/product/odps 你看过“I,Robot”这部电影吗?如果你看过,是不是还记得这样一个场景:当警探史普纳进入庄严威武的USR公司时,公司大厅那个巨大的俯身凝视人类的机器人塑像?谈到 “I,Robot”观感时,有人使用了“不寒而栗”这个词,“感觉到发自脊背的寒意”。
Docker时代——如何实现日志数据一键上云
1 准备工作 1.1 开通MaxCompute服务 参考使用MaxCompute的准备工作 1.2 开通Datahub服务 进入Datahub Web控制台,创建project(注意:首次使用的用户需要申请开通) 1.3 安装Docker环境 Docker官方说明了在不同操作系统下安装Docker的方法,您可以点击此处查看。
你了解的技术宅是这样吗?
闷骚!邋遢! 黑白灰!加班是唯一爱好?他们不用睡觉的吧?请不要再给我们加这些标签了!!! 我们也主动撩妹子!我们也天天洗澡的!我们也有洋气的衣服!谁tm爱加班!你才不用睡觉!我们一摸键盘就开挂,我们钱多事儿少活儿还好。
小硅片与大数据的结合 ——协鑫光伏的新制造之路
协鑫光伏坐落在环境优美的苏州工业园区,是全球领先的光伏材料制造商,硅片产品占国内流通硅片的70%,处于国内同行业龙头地位。本文将向读者介绍大数据是如何助力晶片制造,以减少成本,提高效率。
MaxCompute访问TableStore(OTS) 数据(20170601更新)
MaxCompute作为阿里云大数据平台的核心计算组件,承担了集团内外大部分的分布式计算需求。
基于MaxCompute的图计算实践分享-图加载过程
一、前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在;
【阿里云大数据产品MaxCompute(原名ODPS)】DT时代企业数据资产的护卫舰
MaxCompute设计之初就是面向多租户,确保租户的数据安全是MaxCompute的必备功能之一。在MaxCompute系统的安全设计和实现上,MaxCompute的工程师们会遵循一些经过实践检验的安全设计原则(如Saltzer-Schroeder原则)。
基于MaxCompute的图计算实践分享-解析图加载过程
一、前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在; 计算,遍历内
基于MaxCompute的图计算实践分享-Aggregator机制介绍
Aggregator是MaxCompute-GRAPH作业中常用的feature之一,特别是解决机器学习问题时。MaxCompute-GRAPH中Aggregator用于汇总并处理全局信息。本文将详细介绍的Aggregator的执行机制、相关API,并以Kmeans Clustering为例子说明Aggregator的具体用法。
基于MaxCompute的图计算实践分享-Resolver简介
Resolver简介 在学习使用MaxCompute-Graph计算模型时,resolver是一个不容易理解的概念。在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.
完成数据的打通-豌豆荚被阿里巴巴收购后的168天
曾经表示“要做伟大的公司”的豌豆荚在今年7月被阿里收购了。这家公司巅峰时期,估值曾高达10亿美元。然而,最后被收购时金额大跳水。据传当时的收购价为2亿美元,不过这一数额并未得到阿里巴巴和豌豆荚的确认。
[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云
本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。
618粉丝狂欢节来了,你的小邮局爆仓没有?
618大促马上来了,快递企业包裹量又要剧增了。数据显示,2017年全行业快件量会接近400亿件。 虽然各大快递公司都事先增加了人员、设备、仓库,提升了运能,但面临的压力仍旧空前。
微信“小程序" 未完, 数据的"小程序" 又来了
微信小程序是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或者搜一下即可打开应用。也体现了“用完即走”的理念,用户不用关心是否安装太多应用的问题。应用将无处不在,随时可用,但又无需安装卸载,非常方便。 在DT时代,数据人的小程序在哪里,今天我们介绍阿里云数加的数
数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。
网聚宝基于阿里云数加及基础云服务等产品,向客户提供全域大数据SaaS应用,向二次开发者、集成商及合作伙伴提供PaaS API以及DaaS API,从而为客户、合作伙伴、集成商、二次开发者进行全面的大数据赋能。
Serverless理念的弄潮儿—— 阿里云数加平台助力大数据普惠
阿里云坚持将计算能力变成像水电煤一样的公共服务,提供给大众,而非卖服务器,这跟Serverless 架构理念一致。在本文中,班输从数据平台简介、大数据应用特点、数加平台Serverless架构解析和典型案例四部分讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,实现数据普惠。
基于自定义日志打印的UDAF调试
看到最近有一些用户,代码在本地IDE环境里调试成功了后,到线上调试出现结果不符合预期的情况。因为IDE里无法模拟多个worker进行分布式调试UDAF的场景,所以有一些BUG可能需要到线上用一些简单的测试数据进行调试。这里用最简单的手工打印日志的方法,针对代码调试中最麻烦的UDAF的例子做一次调试。
【大数据技巧】MaxCompute中实现IP地址归属地转换
大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。
细数阿里云服务器的十二种典型应用场景
文章转载:小白杨1990 如今,阿里云的产品可谓是多种多样,纷繁复杂。面对各种各样的技术和产品,ECS、RDS、OSS…等等一系列的东西,很容易让人找不到头绪,尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料,针对建站相关的内容为大家整理一些阿里云典型的应用场景
阿里云工程师用机器学习破解雾霾成因
日前,一位署名为“傲海”的阿里云工程师在云栖社区发布了一篇分析北京雾霾成因的文章。作者通过机器学习算法分析发现,北京重度雾霾天的出现同大气中二氧化氮的含量存在强相关性。 人们很早就知道硫酸盐是雾霾形成的重要原因。住宅及发电厂的燃煤释放大量二氧化硫,随后转化为硫酸颗粒造成污染。但困扰科学家的是,二氧
MaxCompute(原ODPS) MapReduce常见问题解答
#### 1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败? A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指
【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。
“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提
高可用的大数据计算平台如何持续发布和演进
阿里巴巴大数据计算平台需要每天不间断的跑在上万台机器集群上,上面承担阿里核心分析计算任务,有着很高的可靠性和SLA的要求,但是我们同时需要持续不断提高系统的性能,降低成本,提供更多功能来满足日益增长的业务需求,这样就要求持续不断的升级正在服务的系统。
【大数据干货】阿里云数加让企业更专注于业务,助力东润环能高效利用大数据资源
最重要的是采用阿里云数加,东润环能将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,“相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。”东润环能技术研发部总监王云如是说。
SLS:海量日志数据管理利器
日志是大规模集群管理系统中非常关键的部分,服务器上的各种日志数据可以帮助我们回答如运维、开发、运营、客服、安全等问题。SLS提供一个从日志采集、过滤、处理、聚合到在线查询的日志处理平台,满足各种日志处理分析需求。本文以用户选用SLS搭建一个端对端的日志服务为例进行详解,并解析其功能背后的技术架构。
OpenSearch:轻松构建大数据搜索服务
如何从海量的历史、实时数据中快速获取有用信息,令搜索变得越来越具挑战性。OpenSearch是阿里云推出的一款云搜索服务,本文将介绍OpenSearch的发展历程、基本功能、以及实现原理和架构,以实际应用场景为例讲述应用实践过程。
云上游戏数据分析实践
数据分析和游戏的生命周期与盈利息息相关,同时数据分析对游戏的运维也起到了至关重要的作用,精确的数据分析可以延长游戏的生命和帮助其盈利。本文针对游戏行业的数据特点,结合游戏数据分析的现状,对数据分析上云的技术选型、结合数加大数据计算服务MaxCompute(原ODPS)、SLS、RDS、DPC等产品和
小团队拥有大能量 三十个年轻人的创业故事
随着云时代的到来,企业软件运维难与高成本的两大难题有了解决的可能性,同时,这也给很多中小软件团队带来发展的良机。你能否想象一个人均年龄只有26岁的三十人软件团队就可以支撑上千家商家每天产生数十亿的销售额?其中不乏Esprit、佐丹奴、意尔康、御泥坊、宝尊等重量级商家。
天律的云端大数据分析挖掘之旅
随着数据爆炸式的增长,我们正被各种数据包围着。从海量的历史、实时数据中寻找规律,从而为决策者提供科学的依据,是大部分企业面临的问题。大数据分析给企业带来的不仅是数据的实时分析和可视化展现,更重要的是,通过对已有数据以及实时所产生数据的海量信息进行分析,它将引领企业进入预测性的商业时代。
企业大数据平台下数仓建设思路
介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的
干货:解码OneData,阿里的数仓之路。
据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织
【阿里云网站日志分析实践】通过Log Service日志服务导入MaxCompute分析
日志服务收集的日志除了可以被实时查询外,还可以把日志数据投递到大数据计算服务MaxCompute(原ODPS),进一步进行个性化BI分析及数据挖掘。通过日志服务投递日志数据到MaxCompute具有如下优势: 使用非常简单。用户只需要完成2步配置即可以把日志服务Logstore的日志数
云享团——基于大数据开发套件的增量同步策略
转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。
如何用SQL对MaxCompute数据进行修改和删除
MaxCompute SQL不支持对数据的Update和Delete操作,但是实际工作中可能确实有一些场景需要这样处理,怎么办呢?本文就各种场景下的的解决方法做一个说明。 特别提醒大家,在工作中为避免误操作,尽量避免直接对数据进行直接的修改和删除,建议是创建一张新的表,把结果表进过加工后写入新的表
从IaaS到AI,马云为何让阿里云去扛人工智能大旗?
绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商。不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变。 布局AI领域,阿里云扛起阿里人工智能大旗 虽然阿里不是BAT三座山头中在人工智能领域的声势最旺的那个(百度躺枪),但事实上阿里从2015年也已经开始了人工智能领域的布局。
飞天5K实战经验:大规模分布式系统运维实践
传统的运维人员通常只面对几十或者上百台的服务器,但在大规模分布式集群中,运维人员面临工作任务明显不同。本文分别阐述服务器数量激增,要求提升全局掌控能力,如何实现系统的自我保护和自动化恢复,大规模与精细化平衡,以及需要开发和运维更加紧密合作等方面,通过对真实数据进行分析和预测,将判断失误概率降到最低。
走近伏羲,谈5000节点集群调度与性能优化
阿里巴巴分布式调度系统被命名为“伏羲”,主要负责管理集群的机器资源和调度并发的计算任务,为上层分布式应用提供稳定、高效、安全的资源管理和任务调度服务。本文将向读者展示阿里是如何使用伏羲来对5000节点集群进行调度与性能优化的。
走近华佗,解析自动化故障处理系统背后的秘密
集群医生华佗是集群自动化故障监测和处理系统,是平台和运维对接的关键系统,它承担了飞天平台自动化故障处理系统的任务。如何能又快又好地发现和解决线上故障呢?本文为您解析自动化故障处理系统背后的秘密。一起来了解华佗是如何提升集群的故障发现、处理的效率和准确性,解放运维人员,提高飞天稳定性和可靠性的 。
【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute
概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的
【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据
老板每天都要出这些业务数据(销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...),我得想个一劳永逸的方法了…
基于OGG Datahub插件将Oracle数据同步上云
一、背景介绍 随着数据规模的不断扩大,传统的RDBMS难以满足OLAP的需求,本文将介绍如何将Oracle的数据实时同步到阿里云的大数据处理平台当中,并利用大数据工具对数据进行分析。 OGG(Oracle GoldenGate)是一个基于日志的结构化数据备份工具,一般用于Oracle数据
阿里云数加助力东润环能开启新能源大数据时代
北京东润环能科技股份有限公司(以下简称“东润环能”)是一家从事新能源电力领域的数据信息服务公司,该司开创之初,提供了新能源发电功率预测系统、电网调度管理与支持系统、新能源城市规划与咨询服务等基础性产品,并逐步打造三大新能源互联网智慧服务生态圈平台,包括新能源投资开发生态圈第一平台、绿色电力交易与智.
[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute
想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办? 别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅~Let’s Go!
【大数据技巧】数据导入到MaxCompute的技巧汇总
用Fluent实现MySQL到ODPS数据集成 ---可以通过Fluentd将其它系统数据利用DHS导入到ODPS中 海量数据计算应该如何选择数据库 ---MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问
MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南
MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block。这种设计对于服务端来讲十分简洁,但是也把记录状态做 fa.
【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(一) 多租户(QuotaGroup)管理
转载自xingbao 各位好,这是介绍阿里云伏羲(fuxi)调度器系列文章的第一篇,今天主要介绍多租户(QuotaGroup)管理的实现 一、FuxiMaster简介 FuxiMaster和Yarn非常相似,定位于分布式系统中资源管理与分配的角色:一个典型的资源分配流程图如下所