基于MaxCompute InformationSchema进行冷门表热门表访问分析
在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型。
【大数据技巧】MaxCompute优化去重计算的性能
转载自dachuan源代码是最好的文档 随着双十一数据量的暴增,之前用distinct去重可以简单处理的场景,现在消耗的时间成倍增长。如果用了multiple distinct,那就更要警惕,因为多重去重本身会带来数据量的成倍增长,很可能10分钟的任务,在双十一期间会跑上几个小时都没有结果。 这
一图胜千言,阿里云视觉大数据智能计算实践
在2016云栖大会杭州峰会人工智能专场上,阿里云研究员、资深总监华先胜为大家带来了阿里云眼视觉大数据智能计算的实践经验。所谓“一图胜千言”,图像所包含的数据量非常之大,如何充分利用人工智能和大数据以及云计算的平台从海量的视频与图像信息中挖掘数据的价值呢?本文就为大家分享。
基于MaxCompute的媒体大数据开放平台建设
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。
MaxCompute百问集锦(持续更新)
大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
BasicEngine — 基于DII平台的推荐召回引擎
BasicEngine是阿里巴巴搜索事业部自研的推荐在线召回引擎,依托强大的搜索底层技术支持,可以在线实现复杂的关联排序运算,支持灵活的推荐策略组合,为推荐系统的升级发展拓展了无限想象空间。
Gartner公布2017年全球云计算魔力象限:阿里云进入前四
据媒体报道,6月16日,国际知名调研机构Gartner公布了2017年全球云计算IaaS魔力象限,阿里云强势崛起成为这一核心领域的前四名。这也是中国云计算厂商首次进入Gartner的IaaS魔力象限。
佰腾科技的专利大数据的云上裂变之路
在票选最美云上大数据暨大数据技术峰会上,来自江苏佰腾科技有限公司的许鹏通过介绍佰腾专利大数据平台的演化、上云前后的平台结构和任务处理流程,为大家分享了专利大数据的云上裂变之路,解释了非专业人士也能进行专利信息的检索与统计,即专利信息的大众化。
MaxCompute中使用OSS外部表读取JSON数据
本文介绍了MaxCompute中使用OSS外部表读取JSON文件的数据,以及需要设立的flag。
机器学习系列直播--使用对抗神经网络(GANs)生成猫【8月30日 20点不见不散】
对抗神经网络模型(GANs)作为当下最火的神经网络模型 使用GANs我们可以还原图像原始颜色 可以还原马赛克: 可以把漫画变成真实图像 可以把文字变成图像 还可以进行视频下一帧预测.
Apache Flink 漫谈系列(05) - Fault Tolerance
实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。那么在计算过程中如果网络、机器等原因导致Task运行失败了,Apache Flink会如何处理呢?在 《Apache Flink 漫谈系列 - State》一篇中我们介绍了 Apache Flink 会利用State记录计算的状态,在Failover时候Task会根据State进行恢复。
盘点全球最热门十家大数据公司中国占据三席
近两年来,大数据发展浪潮席卷全球。研究机构IDC预测,全球大数据与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达到1870亿美元的规模。
开源大数据周刊-第12期
本周包括 全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。
从IaaS到AI,马云为何让阿里云去扛人工智能大旗?
绝大多数人对阿里云的定位仍是国内市场最大的IaaS提供商。不过,随着国内人工智能市场在2016年迎来爆发,阿里开始在人工智能领域发力,阿里云的这一角色正在悄然转变。 布局AI领域,阿里云扛起阿里人工智能大旗 虽然阿里不是BAT三座山头中在人工智能领域的声势最旺的那个(百度躺枪),但事实上阿里从2015年也已经开始了人工智能领域的布局。
阿里云MaxCompute加速全球化布局 11月1日北京、马来西亚两地开服
11月1日,阿里云宣布大数据计算服务MaxCompute在北京和马来西亚同日开服。这是阿里云首次将其大数据计算服务在国内和海外双节点同时开服,特别是在马来西亚数据中心全球开放2天后,MaxCompute即开服马来西亚,意味着大数据计算产品正在市场和业务的呼唤下加速全球化拓展步伐。
专访360医药大数据负责人侯晓锋:谈未来智能医疗的挑战及实践
随着业务的发展壮大,数据量持续增加。集群变大,实时计算硬件资源消耗也变大。集群的维护成本不断增加,。大数据计算服务MaxCompute帮我们省去了这些维护成本。让我们更加专注于业务,专注让数据产生价值。
Jarvis-拍立淘里面的深度学习引擎
深度学习的原理?局部响应归一化的作用?兄弟今天不是来讨论这个的,那都是科学家和算法同学的事儿。作为一个深度学习引擎,使命只有一个——就是快速和准确的计算。那怎么才能快呢?。。。借助于GPU(OpenCL),可以让运算飞起。。。
E-MapReduce解决hive comment中文乱码问题
在最新版本的EMR-1.3.0已经解决了hive comment中文乱码问题。如果已经申请了包年包月的集群,用的是老版本,那么可以过下面介绍的步骤解决这个问题。
阿里云MaxCompute 2018-10月刊
阿里云 MaxCompute 2018-10月 新功能发布汇总,更有技术干货、最佳实践等精彩博文推荐,欢迎阅读。
变而不变:我看分布式系统发展和阿里实践
本文PPT来自阿里云大数据计算平台资深架构师林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。
列式存储系列(二): Vertica
本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。
从 Storm 到 Flink,汽车之家基于 Flink 的实时 SQL 平台设计思路与实践
汽车之家的实时 SQL 平台设计思路与实践,主要从架构及设计思路、基于 Flink SQL 平台的实时数仓的实践及使用案例、后续规划。
袋鼠云助力光伏产业 | 基于阿里云数加平台做算法预测
随着大数据技术的蓬勃发展,现在关于大数据技术在各行各业的实践也如火如荼。 那么当大数据技术遇到光伏行业会产生何样的化学反应呢? 下面就和大家一起分享一下袋鼠云是如何使用阿里云数加平台和机器学习平台助力光伏行业的。
Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
【大数据新手上路】“零基础”系列课程--日志服务(Log Service)采集 ECS 日志数据到 MaxCompute
本实验通过日志服务采集ECS日志数据并离线同步到MaxCompute,帮助用户按照不同的场景和需求、以不同的方式复用数据,充分发挥日志数据的价值 。
MaxCompute JDBC 2.2 发布说明
相比于v.1.9.1,MaxCompute JDBC v.2.2在易用性、性能以及兼容性方面都有了更好的提升,本文将对其改进与差别做一下简要的说明。
【技术分享】《深入理解Elasticsearch》读书笔记
Elasticsearch广泛应用于全文检索和实时日志分析场景。为了帮助开发者更好的理解和应用Elasticsearch和ELK相关技术,小编将甄选一系列技术干货分享给大家。本文作者在Elastisearch系统搭建和应用领域有深入的实践经验,现转载作者《深入理解Elasticsearch》读书笔记,梳理Elasticsearch使用过程中的一些技术难点。
年度回顾 | 2019 年的 Apache Flink(文末有福利)
2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink 迎来了快速的发展。
使用E-MapReduce服务处理阿里云文件存储(NAS)的数据
给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力
服务企业上云,实现业务转型
2017年是以数字经济为核心的新经济在助推政府、企业快速向数字化转型,也推动了产业互联网、智慧互联网的快速发展。企业上云不仅仅只是一个口号,是以运营商、政府、云企业共同推动,正在一步步落实,并且给企业带来“普惠”价值。
数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。
网聚宝基于阿里云数加及基础云服务等产品,向客户提供全域大数据SaaS应用,向二次开发者、集成商及合作伙伴提供PaaS API以及DaaS API,从而为客户、合作伙伴、集成商、二次开发者进行全面的大数据赋能。
在MaxCompute中利用bitmap进行数据处理
很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。
杭州治堵有“智慧” 阿里云数加激活城市大脑
城市车辆逐年增长,道路通行关系市民生活,也考验城市管理者智慧。除了加大基础设施投入,杭州对大数据的分析和应用成为治堵新发力点。在路网规划、精确治堵、科学调配资源等方面,都能看到“城市大脑”和大数据发挥的“智慧”作用。
Flink入坑指南 第四章:SQL中的经典操作Group By+Agg
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
阿里云与国家天文台成立天文大数据联合研究中心
免费开通大数据服务:https://www.aliyun.com/product/odps 2017 年 1 月 22 日,中国科学院国家天文台与阿里云正式成立“天文大数据联合研究中心”。 中国科学院国家天文台与阿里云在京举办了合作协议签字暨研究中心揭牌活动。
端到端GPU性能优化在深度学习场景下的应用实践
摘要在2017杭州云栖大会机器学习平台PAI专场上阿里巴巴高级算法专家杨军结合具体案例分享了端到端GPU性能优化在深度学习场景下的应用实践。 本文内容根据嘉宾演讲视频以及PPT整理而成。 目前深度学习和GPU已经成为了人工智能的基础一软一硬的结合能够帮助我们实现图像识别、语音识别以及视频的处理那么如何优化深度学习框架与GPU资源也是机器学习平台的一个研究方向。
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践
在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。
理财农场大数据初探之路
概述 不以需求为目的的技术研究都是耍流氓 由于公司业务的快速发展,以及运营部门的需求,需要实现投资用户的月账单功能。 数据背景 目前平台投资用户57万多,投资流水数据已超过千万级,另外还需要统计用户的充值、提现、回款本金、利息、奖励、红包、区分各种产品的分类统计(定期、活期)、历史投资分布、收益趋势、打败多少用户、月度理财之星等等指标。
21分钟教会你分析MaxCompute账单
阿里云大计算服务MaxCompute是一款商业化的大数据分析平台,其计算资源有预付费和后付费两种计费方式。并且产品每天按照project为维度进行计量计费(账单基本情况下会第二天6点前产出)。本文使用的为云上客户真实数据,故在下文中的截图都mask掉了。
十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题
2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。
PyODPS DataFrame 的代码在哪里跑
在使用 PyODPS DataFrame 编写数据应用时,尽管编写的是同一个脚本文件,但其中的代码会在不同位置执行,这可能导致一些无法预期的问题,本文介绍当出现相关问题时,如何确定代码在何处执行,以及提供部分场景下解决问题的方法。
阿里靠什么支撑 EB 级计算力?
MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概览,以及每条技术线路未来展望等几个方面做一个概述。
SparkSQL Catalyst解析
Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。
1.58元/小时起快速体验 Hadoop & Spark ,为你助力大数据计算
随着全球双11狂欢节的到来,阿里云优惠措施惠及中小企业。除充值返现外,E-MapReduce 同步限时打折。1.58元/小时起,快速体验 Hadoop & Spark 等,阿里云为你助力大数据计算。E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统...
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。