持续定义Saas模式云数据仓库+实时分析
从实时分析的价值、场景和数据流程,以及用户对平台能力要求展开,讲述云数据仓库MaxCompute的产品能力优势 ,面对实时分析场景的能力演进要求。进而以实时分析典型场景的全数据流程处理、建模和分析的最佳实践,讲解MaxCopute+Hologres的解决方案,展现强强组合应的能力优势。
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。
在kubernetes上运行apache spark:最佳实践和陷阱
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
初次使用 Elasticsearch 遇多种分词难题?那是你没掌握这些原理
命名有包含搜索关键词的文档,但结果却没有?存进去的文档被分成哪些词(term)了?自定义分词规则,但感觉好麻烦呢,无从下手?
深入分析 Flink SQL 工作机制
本文首先会介绍推动这些优化背后的思考,展示统一的架构如何更好地处理流式和批式查询,其次将深入剖析 Flink SQL 的编译及优化过程。
免费下载 | 阿里云实时计算整体解决方案白皮书重磅发布!
为更好的助力各行各业实现企业数字化转型,为企业的创新、重构核心竞争力提供坚实支撑;阿里云实时计算重磅推出金融、物流、IoT、广告等行业整体解决方案白皮书。
推荐系统线上服务编排及架构说明
阿里巴巴技术专家傲海为大家带来推荐系统线上服务编排及架构说明的介绍。内容包括在线推理服务的架构说明和线上多目标问题两部分。
推荐系统召回算法及架构说明
阿里巴巴技术专家傲海为大家带来推荐系统召回算法及架构说明的介绍。内容包括召回模块在推荐系统中的位置,召回算法的介绍,什么是协同过滤,以及向量召回架构的说明。
【科学脱口秀】EB级计算平台调度系统 “愚公” : 实现跨地域的数据和计算调度
大数据平台的数据与计算分布在多个数据中心的不同集群,每个集群的存储和计算能力有限,受地域影响,集群间的网络带宽和延迟也各有差异。如何平衡各集群的存储和计算利用率,降低带宽成本,是亟待解决的一大难题。
基于MaxCompute搭建社交好友推荐系统
本次由阿里云驻云科技资深架构师翟永东带来了“基于 MaxCompute 搭建社交好友推荐系统”为主题的分享,主要对大数据在好友推荐系统中的应用、好友推荐系统的分析模型、好友推荐系统在阿里云上的实现方式和 MaxCompute 技术进行了精彩的介绍。
Apache Flink 进阶(六):Flink 作业执行深度解析
主要分享内容为 Flink Job 执行作业的流程,文章将从两个方面进行分享:一是如何从 Program 到物理执行计划,二是生成物理执行计划后该如何调度和执行。
Flink 如何支持特征工程、在线学习、在线预测等 AI 场景?
人工智能应用场景中,Flink 在包括特征工程,在线学习,在线预测等方面都有一些独特优势,为了更好的支持人工智能的使用场景,Flink 社区以及各个生态都在努力。
Demo:基于 Flink SQL 构建流式应用
本文所有的实战演练都将在 Flink SQL CLI 上执行,全程只涉及 SQL 纯文本,无需一行 Java/Scala 代码,无需安装 IDE。
Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)
Flink 作为一个统一的计算引擎,旨在提供统一的流批体验以及技术栈。Flink 在 1.9 合并了 Blink 的代码,并在 1.10 中完善了大量的功能以及性能,可以运行所有 TPC-DS 的查询,性能方面也很有竞争力,Flink 1.10 是一个生产可用的、批流统一的 SQL 引擎版本。
【最佳实践】Logstash高效的数据索引迁移能力—如何实现从腾讯云Elasticsearch迁移至阿里云
本文为您介绍通过Logstash,将Elasticsearch(简称ES)索引从腾讯云ES迁移至阿里云ES中的方法。
MaxCompute创建仅有查询权限的自定义角色
MaxCompute原有的权限模型提供的ACL授权方式,需要明确指定授权对象才能授权,ACL方式不支持通配符方式对新增表做授权。本文通过一个自定义角色的场景,介绍使用MaxCompute新升级的权限模型,利用ACL实现对特定规则的表进行授权。
MaxCompute - ODPS重装上阵 第七弹 - Grouping Set, Cube and Rollup
MaxCompute中的GROUPING SETS功能是SELECT语句中GROUP BY子句的扩展。允许采用多种方式对结果分组,而不必使用多个SELECT语句来实现这一目的。这样能够使MaxCompute的引擎给出更有的执行计划,从而提高执行性能。
Fuxi2.0—飞天大数据平台调度系统全面升级,首次亮相2019双十一
随着 Fuxi 2.0 首次亮相双十一,今年飞天大数据平台在混部侧支持和基线保障2个方面均顺利完成了目标。其中,混部支持了双十一 60%在线交易洪峰的流量,超大规模混部调度符合预期。在基线保障方面,单日数据处理 970PB,较去年增长超过60%。
首席技术官大数据专享会线上首播 | 2019飞天大数据平台技术公开课第六季
2019年11月29日阿里云智能飞天大数据平台在北京国家会议中心召开 “首席技术官大数据专享会”,超过70位企业首席技术官和大数据平台负责人与会。会上由来自阿里云智能,阿里巴巴搜索推荐事业部,阿里巴巴CRO技术部,友盟+的四位分享嘉宾进行了精彩演讲。
JindoFS概述:云原生的大数据计算存储分离方案
JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前,云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统,10 年来,HDFS 已经成为大数据生态的存储标准,但是我们也可以看到 HDFS 虽然不断优化,但是 JVM 的瓶颈也始终无法突破。
玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。
使用Spark Streaming SQL基于时间窗口进行数据统计
流式计算一个很常见的场景是基于事件时间进行处理,常用于检测、监控、根据时间进行统计等系统中。使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理,本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例,介绍如何使用Spark Streaming SQL对事件时间进行操作。
本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛
本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责人关涛进行了专访。
Spark SQL 性能优化再进一步:CBO 基于代价的优化
本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。
探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup(杭州站)干货集锦
什么是大数据?什么是计算?什么是超大规模的大数据计算? 答案是MaxCompute,具备单日600PB计算力的企业级大数据计算平台。MaxCompute一天的信息处理量相当于全球最大图书馆-美国国会图书馆藏书储存信息量的2250倍,可以为全球70亿人每人存储30张高清照片。
阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化
MaxCompute是ET大脑供血系统极其重要的组成部分,如果没有MaxCompute,今天我们将没办法给大家讲述任何一个成功的故事。
istio网络转发分析
通过demo分析istio的网络转发流程,从而对istio实现原理有更为直观的认识。本文先介绍了涉及到的相关概念和背景知识,然后对具体应用进行分析。背景知识概念分散,参考文章较多,敬请谅解。
【入门指南】操作阿里云Kibana
Elastic公司的“ELK”是目前最火的日志分析三剑客,其中ElasticSearch负责日志的索引,Logstash负责日志的收集,Kibana负责日志的展示和分析。Elastic与阿里云达成了合作伙伴关系,推出“阿里云 Elasticsearch”服务,提供了开箱即用的Elasticsearch和Kibana环境。
MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发
2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发。
北京云栖大会MaxCompute又出大招,Python UDF抢先体验!
2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF。 小编第一时间申请到了公测资格,下面就为大家做个简单演示,通过DataWorks注册MaxCompute Python UDF(字符串大小写转换),完成数据处理。
Kibana:数据分析的可视化利器
阿里云Elastisearch集成了可视化工具Kibana,用户可以使用Kibana的开发工具便捷的查询和分析存储在Elastisearch中的数据。除了柱状图、线状图、饼图、环形图等经典可视化功能外,还拥有地理位置分析、数据图谱分析、时序数据分析等高级功能。
MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告
MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
阿里云大数据利器之-使用flume+sql实现流计算做实时展现业务(归档Maxcompute)
实时业务处理的需求越来越多,也有各种处理方案,比如storm,spark等都可以。那以数据流的方向可以总结成数据源-数据搜集-缓存队列-实时处理计算-数据展现。本文就用阿里云产品简单实现了一个实时处理的方案。
阿里大航杯AI电力大赛比赛分享及数加平台,机器学习pai使用经验
本文主要以阿里云大航杯“智造扬中”电力AI大赛 数据为背景,讲述博主自己的比赛经历以及数加平台和机器学习pai的使用经验
【大数据开发套件调度配置实践】——调度任务各种周期配置和调度形态
数加·大数据开发套件目前支持任务调度周期有五种:天、周、月、分钟、小时。本文将介绍这五种周期的配置和调度形态。 调度规则——调度任务是否能运行起来要满足的条件: 上游任务实例是否都运行成功。若所有上游任务实例都运行成功则触发任务进入等待时间状态。
分布式存储系统
本次分享内容主要包括三部分:(一)分布式存储系统应该具备的能力;(二)阿里云分布式存储系统盘古的介绍;(三)分布式系统技术展望。
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制
本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
基于数加分析政府工作报告
摘要:3月5日,第十二届全国人民代表大会第五次会议在北京人民大会堂开幕,两会期间的“部长通道”是每年两会的一个亮点,李克强总理多次强调要让部长们当“第一新闻发言人”,积极回应舆论关切,给社会各界一个稳定预期。
网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。
“令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的。
MaxCompute访问TableStore(OTS) 数据(20170601更新)
MaxCompute作为阿里云大数据平台的核心计算组件,承担了集团内外大部分的分布式计算需求。
【玩转数据系列九】机器学习为您解密雾霾形成原因
如果要人们评选当今最受关注话题的top10榜单,雾霾一定能够入选。如今走在北京街头,随处可见带着厚厚口罩的人在埋头前行,雾霾天气不光影响了人们的出行和娱乐,对于人们的健康也有很大危害。本文通过爬取并分析北京一年来的真实天气数据,挖掘出二氧化氮是跟雾霾天气(这里指的是PM2.5)相关性最强的污染物,从
【玩转数据系列二】机器学习应用没那么难,这次教你玩心脏病预测
心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案
一分钟了解阿里云产品:大数据计算服务MaxCompute概述
阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧。 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台。提供针对TB/PB级数据、实时性要
使用代理ip产品需要实名认证这是为什么?
使用代理IP需实名认证原因:便于服务商提供服务和管理用户,保护网络资源免于非法活动,防止资源滥用,确保产品安全及双方信任。不同地区和服务商政策可能不同,购买时应注意阅读条款并合法使用。
机器学习:逻辑回归
逻辑回归是一种广泛使用的分类算法,它属于线性分类器。 在逻辑回归中,目标是找到最佳的权重参数θ,使得预测结果尽可能接近实际的类别标签。 广义线性回归是逻辑回归的理论基础,它考虑了不同类型的因变量分布,包括伯努利分布(对应二分类问题)。指数族分布是这类模型的一个共同特征,而逻辑回归就是其中的特定情况。在梯度下降过程中,我们沿着损失函数的梯度方向更新权重,以找到损失最小的解。通过这种方式,逻辑回归可以学习到数据集的最佳分类超平面。 在代码实现中,我们可以使用Python的scikit-learn库来实现逻辑回归,并观察损失函数在权重空间中的形状。
实时计算 Flink版产品使用合集之在物化视图上进行聚合操作如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
大数据与机器学习
大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。