机器学习PAI全新功效——实时新闻热点Online Learning实践
(本实验会用到流式机器学习算法,正处于邀测状态,需要申请开通)PAI地址:https://data.aliyun.com/product/learn流式机器学习算法申请:https://data.aliyun.com/paionlinelearning打开新闻客户端,往往会收到热点新闻推送相关的内容。
高可用大数据计算服务如何持续发布和演进
票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为“高可用大数据计算服务如何持续发布和演进”的演讲。本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具、Flighting工具和灰度上线、细粒度回滚等。
倒计时1天!相约杭州云栖,相遇数据智能
2016杭州云栖大会盛大开启,与阿里云大数据一起相约杭州云栖,相遇数据智能!我们精心准备了四大智能看点,等你用一颗大数据的心,鞠一捧智能的“水”。
SQL优化器原理 - Join重排
这是MaxCompute有关SQL优化器原理的系列文章之一。我们会陆续推出SQL优化器有关优化规则和框架的其他文章。添加钉钉群“关系代数优化技术”(群号11719083)可以获取最新文章发布动态。 本文的目标是解释Join重排这个特性的基础概念和算法,如果想快速了解并在MaxCompute上使用这个特性,请直接跳到“总结”。
解决大数据难题 阿里云MaxCompute获科技大奖
据介绍,MaxCompute(大规模分布式的数据计算平台)是国内最早自研的大数据计算平台之一,主要应用于大规模数据处理场景。目前,这项源自浙江、解决世界级难题的成果已拥有EB(百京)级别的数据存储能力、百PB(千兆)级的单日计算能力。
阿里云大数据计算平台的自动化、精细化运维之路
作者简介: 范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人。团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute、AnalyticDB、StreamComput
首次揭秘|为6.4亿人次出行提供无线网络的技术架构
借助“互联网+大数据+机场”三轮驱动,掌慧纵盈每年为6.4亿人次出行提供无线网络连接服务。 随着业务的拓展,随之后来的挑战是数据量的暴增。 2016年,掌慧纵盈(股票代码:835736)通过阿里云产品,率先构建了业界领先的大数据平台。 本文阐述了一家物联网企业的业务架构和数据架构,以及技术选型
JindoFS概述:云原生的大数据计算存储分离方案
JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。
5W1H(六何分析法)全景洞察大数据
我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。
海量数据实时计算利器Tec
引子 在刚刚过去的2015年双11大促中,搜索事业部的实时计算和在线学习系统Pora经受住了前所未有的双11巨量用户行为消息的冲击,在流入实时消息量持续超过300w/s,甚至峰值飙升至501w/s的压力下始终保持了端到端秒级实时效果,助力相关的搜索和推荐实时业务取得了很好的效果。 Pora如何能
MaxCompute上你从未体验过的数据分析和机器学习过程
PyODPS,拥有对于Python用户传统的数据分析和机器学习愉快的体验,包括了DataFrame框架和机器学习模块,它们类似于pandas+scikit-learn,能用它们进行数据分析、绘图、机器学习等等。
重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来
为了了解Elasticsearch 中国开发者群体,结合1186位开发者的调研数据和18位社区专家的深度访谈,Elastic 技术社区、阿里巴巴 Elasticsearch 技术团队和阿里云开发者社区联合发布了《Elasticsearch 中国开发者调查报告》。免费下载,抢先一步读懂这个“族群”吧。
3天撸完一个团队半年的项目,单客户数据动辄几百万的行业也玩云?
自97年成立至今已接近20年,在前十六七年 明源云主要跑在传统ERP软件轨道上,4年前世界变了,云计算&移动互联网来了,两个最大的行业变量,如果不做出改变就可能被颠覆。因此,明源云决定开辟新战场,用互联网的方式来做地产行业。
【转载文章】记录一次MySQL两千万数据的大表优化解决过程,提供三种解决方案
问题概述 使用阿里云rds for MySQL数据库(就是MySQL5.6版本),有个用户上网记录表6个月的数据量近2000万,保留最近一年的数据量达到4000万,查询速度极慢,日常卡死。严重影响业务。
【玩转数据系列七】有娃的注意了,机器学习教您如何提高孩子学习成绩
母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些。
标签分类理论
最近在做DMP,负责设计一套标签管理系统。在对现有标签进行整理的过程中,整理出了这套东西。 0. 标签的定义:标签分类学(Taxonomy) 对于标签(tag),很难列出一个公认的定义,指明这个概念的种差与属概念。所以为了把握这个概念,就需要采取定义另一种办法:分类与枚举。 我们要解决的第一个
数据库工程师快速上手MaxCompute进行ETL
案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析。 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础。 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别。
日交易笔百万级,Ping++的大数据平台架构
当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。
ComputeColStats UDF中 近似算法的介绍
一,前面的话 表和列的统计信息对CBO的结果有着极大地影响,能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的,更准确的统计信息往往需要更多的计算,我们能做的是在高效和准确之间找到更好的平衡。
基于DNN+GBDT的Query类目预测融合模型
用户搜索意图的理解在搜索排序体系下有着重要的作用。在搜索引擎中,分析用户的搜索Query和哪些文档类目的意图更相关,被称为Query的类目预测。本文通过集合Query的语义和行为等特征,计算得到与Query最相关的类目,并在线上得到了相关性的体验的提升。
拍立淘---试妆魔镜 OpenGL ES 2.0 框架及性能优化
手机淘宝(搜索框->摄像头->试妆魔镜): 最初的设计原型及性能问题: 单线程模型,优先级过低:从Camera获取到CMSampleBufferRef YUV图像帧,拷贝像素数据到内存(多了一次拷贝内存的开销)进行美妆渲染以及一些其他的检测计算,导致的render线程性能消耗过多,CPU负
深入阿里云大数据IDE–MaxCompute Studio
在云栖社区主办的云栖计算之旅第5期–大数据与人工智能分享中,阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio,并对于其特性和背后的技术思想进行了讲解。
Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU 和 FPGA 了。
钉钉群直播【Spark Relational Cache 原理和实践】
主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。
MaxCompute问答整理之9月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。
Apache Flink 的迁移之路,2 年处理效果提升 5 倍
在 2017 年上半年以前,TalkingData 的 App Analytics 和 Game Analytics 两个产品,流式框架使用的是自研的 td-etl-framework。该框架降低了开发流式任务的复杂度,对于不同的任务只需要实现一个 changer 链即可,并且支持水平扩展,性能尚可,曾经可以满足业务需求。
从声学模型算法角度总结 2016 年语音识别的重大进步
免费开通大数据服务:https://www.aliyun.com/product/odps 在过去的一年中,语音识别再次取得非常大的突破。IBM、微软等多家机构相继推出了自己的 Deep CNN 模型,提升了语音识别的准确率;Residual/Highway 网络的提出使我们可以把神经网络训练的更加深。
丰富、连接、待集成—MaxCompute 生态再出发
2019杭州云栖大会大数据生态专场,由阿里云高级技术专家李睿博带来以 “丰富、连接、待集成— MaxCompute 生态再出发” 为题的演讲。本文围绕 MaxCompute 生态进行讲述,主要包括 “更好的工具和接口”、“连接云上各种数据”、“开放自定义引擎” 三部分。主要内容包括 MaxCompute 获得了 Tableau 官方支持,更好的搬站工具和命令行工具体验,大数据+AI 在 Python 生态部分的工作进展,以及开放自定义引擎的能力。
MaxCompute模板与样例
代码模板和示例是用户熟悉新产品和提高开发效率的有效方式,studio提供了一系列的开发模板和代码实例。用户可以通过这些功能,快速熟悉MaxCompute,玩转大数据下的程序开发。
阿里云 MaxCompute 2020-4 月刊
4月MaxCompute审计日志发布,可通过历史事件及明细查询、实时行为事件分析,满足您实时审计、问题回溯分析等需求。同时,MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制,帮您更好的监控消费。更多4月的新功能与新解决方案,欢迎阅读4月刊。
双11数据大屏直播 / 双11作战大屏
双11大屏直播地址:https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359
DCN(Deep & Cross Network)模型在手淘分类地图CTR预估上的应用
一:背景 分类地图业务是指手淘首页首屏的"分类"入口,目前整个产品已经有300万左右日活跃用户和6000多万pv, 目前产品业务点较多,本文重点介绍点击品类词后的商品二跳页模块,具体如下图所示:当用户点击相应的品类词图片后,则会进入该类目下的商品集合。
阿里云 MaxCompute 2020-1 月刊
您好,MaxCompute 2020.1月刊如期而至,在疫情肆虐的日子里,祝福每一位开发者,平安健康,一切顺利。
MaxCompute(原ODPS)开发入门指南——数据上云篇
根据《MaxCompute(原ODPS)开发入门指南——计量计费篇》的了解,大家清楚了MaxCompute可以做什么,计费模式如何,想必大家也开通了MaxCompute想进行一次POC,但是大家遇到第一个问题一定是我的数据如何上云?
MaxCompute 项目子账号做权限管理
场景: 一个企业使用多款阿里云产品,MaxCompute是其中一个产品,用的是同个主账号,主账号不是由使用MaxCompute的大数据同学管理, 大数据同学使用的是子账号。大数据同学日常需要给MaxCompute项目 操作新增子账号(add user),新的子账号授权(grant xx on project/table)等操作,即日常权限管理。
细数阿里云服务器的十二种典型应用场景
文章转载:小白杨1990 如今,阿里云的产品可谓是多种多样,纷繁复杂。面对各种各样的技术和产品,ECS、RDS、OSS…等等一系列的东西,很容易让人找不到头绪,尤其是刚刚开始接触网站建设的朋友。阿里云湖北授权服务中心武汉捷讯结合阿里云官网的资料,针对建站相关的内容为大家整理一些阿里云典型的应用场景
关于 Chrome (谷歌浏览器)升级到 80 后可能产生的影响以及解决方案
### 背景 Google 将在2020年**2月4号**发布的 Chrome 80 版本(schedule:[https://www.chromestatus.com/features/schedule](https://www.
“阿里巴巴大数据系统体系”学习笔记-纲领篇
‘你是做什么的?’ ‘数据产品经理’看到对方一脸懵逼之后,再补充一句‘大数据相关的工作’ ‘哦~,高大上,不懂’ 过去5年,‘大数据’是最火的一个概念,被纷繁解读。在我看来,数据跟石油、煤炭一样是一种资源。
【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解
阿里云Elasticsearch集成了Elastic Stack商业版的X-Pack组件包,包括安全、告警、监控、报表生成、图分析、机器学习等组件,用户可以开箱即用。接下来小编将在【X-Pack解读】系列里解读各个Elasticsearch X-Pack 组件功能。
阿里云数加产品家族图首次亮相
数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意!
史上超强阵容!大数据及人工智能领域顶级盛会,Flink Forward Asia 2019 不容错过!
Flink Forward 大数据、人工智能领域的顶级大会,旨在汇集一流人才共同探讨大数据、云计算、人工智能、机器学习等领先技术,2019 Flink Forward Asia 重磅开启,征集议题中!
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。