|
SQL 分布式计算 监控
|

Structured Streaming VS Flink

Flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。

5663 0
|
专有云 数据安全/隐私保护
|

服务企业上云,实现业务转型

2017年是以数字经济为核心的新经济在助推政府、企业快速向数字化转型,也推动了产业互联网、智慧互联网的快速发展。企业上云不仅仅只是一个口号,是以运营商、政府、云企业共同推动,正在一步步落实,并且给企业带来“普惠”价值。

4146 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 数据挖掘
|

数据让生意更简单,网聚宝创业团队利用数加快速打造核心业务竞争力,在激烈的市场竞争中弯道超车。

网聚宝基于阿里云数加及基础云服务等产品,向客户提供全域大数据SaaS应用,向二次开发者、集成商及合作伙伴提供PaaS API以及DaaS API,从而为客户、合作伙伴、集成商、二次开发者进行全面的大数据赋能。

4177 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute
|

在MaxCompute中利用bitmap进行数据处理

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。

4415 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 城市大脑 大数据
|

杭州治堵有“智慧” 阿里云数加激活城市大脑

城市车辆逐年增长,道路通行关系市民生活,也考验城市管理者智慧。除了加大基础设施投入,杭州对大数据的分析和应用成为治堵新发力点。在路网规划、精确治堵、科学调配资源等方面,都能看到“城市大脑”和大数据发挥的“智慧”作用。

4437 0
来自: 大数据计算 MaxCompute  版块
|
SQL 流计算 大数据
|

Flink入坑指南 第四章:SQL中的经典操作Group By+Agg

Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。

10481 1
来自: 实时计算 Flink  版块
|
分布式计算 大数据 测试技术
|

云享团——基于大数据开发套件的增量同步策略

转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。

3933 0
来自: 大数据计算 MaxCompute  版块
|
监控 网络安全 流计算
|

如何在E-MapReduce上使用storm

Storm 使用指南 集群创建 目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点

3827 0
|
分布式计算 MaxCompute 开发工具
|

离线批量数据通道Tunnel的最佳实践及常见问题

基本介绍及应用场景 Tunnel是Odps提供的离线批量数据通道服务,主要提供大批量离线数据上传和下载,仅提供每次批量大于等于64MB数据的场景,小批量流式数据场景请使用DataHub实时数据通道以获得更好的性能和体验。

4588 0
来自: 大数据计算 MaxCompute  版块
|
消息中间件 安全 Kafka
|

E-MapReduce Kafka Kerberos集群授权

3967 0
|
人工智能 分布式计算 大数据
|

开源大数据周刊-第55期

云HBase新增支持深圳、上海区域、支持超过2个节点及高配节点。

3583 0
|
分布式计算 NoSQL Shell
|

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

4476 0
|
关系型数据库 RDS 分布式计算
|

MySQL/RDS数据如何同步到MaxCompute之实践讲解

大数据计算服务(MaxCompute,原名ODPS)是阿里云提供的一种快速、完全托管的EB级数据仓库解决方案。本文章中阿里云MaxCompute公有云技术支持人员刘力夺通过一个实验向大家介绍了阿里云关系型数据库产品RDS中的MySQL数据如何同步到MaxCompute,帮助用户大体了解MaxCompute产品以及其数据同步过程。

5412 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 大数据
|

阿里云MaxCompute 2019-3月刊

欢迎阅读 MaxCompute 2019.3月刊,开发者专属版本发布,新增金融、视频行业的案例视频,最新官方文档和技术文章等内容尽在本文。

3737 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 大数据
|

阿里云数加案例-美柚

美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人、读懂女人、服务女人的最重要利器。大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期,遇到了不少的困难和挑战

4161 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 大数据
|

阿里云双11访谈之MaxCompute

在阿里云双11访谈MaxCompute专场中,MaxCompute资深运营专家祎休为大家简单介绍了阿里云的MaxCompute平台的基本情况,并且为大家分享了MaxCompute如何帮助用户快速架构大数据仓库的。

3969 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 分布式计算 关系型数据库
|

【你离完成一次MaxCompute计算任务仅剩三步】Step1 通过DataWorks控制台创建MaxCompute项目空间

开通MaxCompute后,请通过DataWorks控制台创建MaxCompute项目空间

4054 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 安全
|

MaxCompute产品最新进展 -- 从马力到计算力

摘要本文从马力作为功率衡量标准为切入点介绍了大数据领域的计算力衡量标准TPCBB以及MaxCompute2.0在Big Bench上的卓越表现。同时详细地分享了取得优异成绩背后的产品在最新有哪些进展帮助大家全面的了解MaxCumpute2.0。

3803 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 人工智能
|

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。

3385 0
|
分布式计算 安全 关系型数据库
|

十年磨一剑,王坚自研的MaxCompute如何解决世界级算力难题

2009年这项关于大数据的技术长征开始。王坚带队,目标是自研大数据计算平台MaxCompute统一阿里巴巴内部的数据和大数据计算体系。

3881 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 Java Android开发
|

Jarvis-拍立淘里面的深度学习引擎-之持续优化

介绍 Jarvis是一款专门为手机端而设计研发的深度学习引擎,它比我们目前已知的所有开源产品都要快。在使用高通芯片的安卓手机上,其他产品在性能上甚至还没有接近于我们的。小小骄傲一下。在最开始的时候,Jarvis was heavily influenced by Caffe2 and borrowed quite a bit of code from it. 但是随着时间的推移以及业务的演进,Jarvis离Caffe2也越来越远,所以,我们最终决定发布独立的产品。

3870 0
来自: 智能搜索推荐  版块
|
流计算 API Apache
|

Apache Flink 零基础入门(一):基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。

12712 1
来自: 实时计算 Flink  版块
|
消息中间件 大数据 关系型数据库
|

实时计算在「阿里影业实时报表业务」技术解读

阿里影业实时报表开始做法也是按照传统型报表做法一样,直接从阿里云rds写sql查询,随着数据量越来越大,这种做法已经没有办法满足业务扩张,带来的问题响应时间变慢,吞吐量低,我们急需要一种技术方案能满足未来2-3年随着影院增加,数据增长,而报表功能还能很好的满足客户需求技术方案。

5094 0
来自: 实时计算 Flink  版块
|
供应链 大数据 测试技术
|

菜鸟双11在「仓储配送数据实时化」的台前幕后

2017年双11,虽然仓配系统做了非常多业务端的优化,使得峰值不会达到如交易系统那般恐怖的程度,但仓配业务链路长、节点多、分析维度复杂的业务特点,也使我们在开发仓配实时数据的过程中,面临了不少挑战。而正好基于双11的业务背景,我们也开始着手建立起带有"仓配特色"的实时数据版图。

5089 1
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

MaxCompute2.0索引优化实践

摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,阿里云高级专家戴谢宁带来MaxCompute的索引与优化实践分享。本文主要从MaxCompute数据模型开始谈起,接着分享了哈希分片和区域分片,着重分析了索引优化和join优化,并且列出了应用实例,最好作出了简要总结。

4373 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 分布式计算 大数据
|

阿里云在美推出MaxCompute大数据计算平台

2017年11月16日,阿里巴巴集团旗下云计算平台阿里云,宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3613 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 物联网 新能源
|

数据新能源驱动智慧新世界:数据新能源时代来临

免费开通大数据服务:https://www.aliyun.com/product/odps 阿 里巴巴集团董事局主席马云,在2016年10月云栖大会上首次提到“五新”的趋势,分别是新零售、新金融、新制造、新技术和新能源。

3743 0
来自: 大数据计算 MaxCompute  版块
|
自然语言处理 大数据 API
|

OpenSearch在线干预服务

5077 0
来自: 智能搜索推荐  版块
|
算法 搜索推荐 安全
|

推荐系统之业务架构总览

4318 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute DataWorks
|

MaxCompute问答整理之7月

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。

3590 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 分布式计算
|

MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大

现象:同样的SQL,每天处理的数据行数差不多,但是费用突然暴涨甚至会翻数倍。 分析: 我们先明确MaxCompute SQL后付费的计费公式:一条SQL执行的费用=扫描输入量 ️ SQL复杂度 ️ 0.3(¥/GB)。

3789 0
来自: 大数据计算 MaxCompute  版块
|
新零售 分布式计算 安全
|

探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup(杭州站)干货集锦

什么是大数据?什么是计算?什么是超大规模的大数据计算? 答案是MaxCompute,具备单日600PB计算力的企业级大数据计算平台。MaxCompute一天的信息处理量相当于全球最大图书馆-美国国会图书馆藏书储存信息量的2250倍,可以为全球70亿人每人存储30张高清照片。

3560 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

【MaxCompute学习】隐式转化的问题

MaxCompute使用小技巧

4184 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 监控 流计算
|

实时欺诈检测(风控)

基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。 系统架构:   实时欺诈检测(风控)系统流程如下: 用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。

5584 0
来自: 实时计算 Flink  版块
|
分布式计算 监控 大数据
|

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网、云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长。收集大量数据,并在数据中发现趋势,能使企业能够更快、更平稳、更有效地发展。然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?“天德π客”众创空间特举办本期论坛——“基于阿里云的大数据实践——海量日志分析”,邀请华北电力大学电力系统及其自动化博士,阿里云大数据高级认证讲师宋亚奇主讲。

3268 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化 内容简介: SparkSQL介绍 基本原理 支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化 直播时间: 2018.

3410 0
|
分布式计算 供应链 安全
|

30秒在线卖出3000套房,对于云系统来说只是小意思!

数字经济时代,互联网改变着我们生活的方方面面,同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展,以及传统行业转型升级的日益深化,二者之间的关系变得愈发紧密。

3373 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 监控
|

MaxCompute表设计最佳实践

MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作。 使用MaxCompute Tunnel SDK上传数据,上传过程中,每commit一次就会产生一个文件。

4041 0
来自: 大数据计算 MaxCompute  版块
|
关系型数据库 数据挖掘 双11
|

小团队拥有大能量 三十个年轻人的创业故事

随着云时代的到来,企业软件运维难与高成本的两大难题有了解决的可能性,同时,这也给很多中小软件团队带来发展的良机。你能否想象一个人均年龄只有26岁的三十人软件团队就可以支撑上千家商家每天产生数十亿的销售额?其中不乏Esprit、佐丹奴、意尔康、御泥坊、宝尊等重量级商家。

3680 0
来自: 大数据计算 MaxCompute  版块
|
开发工具 人工智能 机器学习/深度学习
|

天猫精灵业务如何使用机器学习PAI进行模型推理优化

作者:如切,悟双,楚哲,晓祥,旭林 引言 天猫精灵(TmallGenie)是阿里巴巴人工智能实验室(Alibaba A.I.Labs)于2017年7月5日发布的AI智能语音终端设备。天猫精灵目前是全球销量第三、中国销量第一的智能音箱品牌。

5111 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 流计算
|

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台,不仅支持淘系搜索、推荐、聚划算、淘金币等业务,也支持国际化相关icbu、lazada等搜索推荐业务,同时还支持着淘客,优酷、飞猪等大文娱的搜索推荐场景。

9634 0
来自: 智能搜索推荐  版块
|
分布式计算 运维 DataWorks
|

MaxCompute安全管理指南-基础篇

背景及目的 方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维,保障数据安全。 MaxCompute有安全模型,DataWorks也有安全模型,当通过DataWorks使用MaxCompute,而DataWorks的安全模型不满足业务安全需求时,合理的将两个安全模型结合使用就尤其重要。

4523 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 Java
|

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程,解决系统的抽象和性能问题,并提供 schedule 的优化能力。

6193 0
来自: 智能搜索推荐  版块
|
消息中间件 大数据 测试技术
|

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能,文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考,不代表官方性能指标承诺。

3126 0
|
机器学习/深度学习 算法 数据挖掘
|

图(关系网络)数据分析及阿里应用

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

4229 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在锦囊位置调控上的探索和实践

1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

3307 0
来自: 智能搜索推荐  版块
|
分布式计算 资源调度 Hadoop
|

都是default惹的祸-yarn调度(一)-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。

4271 0
|
SQL 监控 算法
|

【阿里内部应用】基于Blink构建亲听项目以及全链路debug项目实时响应能力

本文全面总结了大数据项目组在亲听项目以及全链路debug项目上进行的实时流处理需求梳理,架构选型,以及达成效果 一、背景介绍 1.1亲听项目 亲听项目专注于帮助用户收集、展示、监控和处理用户体验问题,是保证产品的主观评价质量的利器,关于其具体功能可参考在ata搜索"亲听"查看系列文章。

3916 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
67373
内容
127
活动
439362
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版