|
分布式计算 MaxCompute
|

在MaxCompute中利用bitmap进行数据处理

很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。

4415 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 城市大脑 大数据
|

杭州治堵有“智慧” 阿里云数加激活城市大脑

城市车辆逐年增长,道路通行关系市民生活,也考验城市管理者智慧。除了加大基础设施投入,杭州对大数据的分析和应用成为治堵新发力点。在路网规划、精确治堵、科学调配资源等方面,都能看到“城市大脑”和大数据发挥的“智慧”作用。

4437 0
来自: 大数据计算 MaxCompute  版块
|
SQL 流计算 大数据
|

Flink入坑指南 第四章:SQL中的经典操作Group By+Agg

Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。

10480 1
来自: 实时计算 Flink  版块
|
分布式计算 大数据 测试技术
|

云享团——基于大数据开发套件的增量同步策略

转载自云享团 因为近期遇到用户在做ETL操作导入数据到MaxCompute的时候,对如何设置数据同步策略有疑惑,所以今天第一波我们来聊一下数据的同步策略,根据数据的特性,看看哪些数据适合增量同步,哪些适合全量同步,又是如何实现的?请认真看完下面的介绍,这些问题都不是事儿。

3933 0
来自: 大数据计算 MaxCompute  版块
|
监控 网络安全 流计算
|

如何在E-MapReduce上使用storm

Storm 使用指南 集群创建 目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点

3826 0
|
分布式计算 NoSQL Shell
|

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

4476 0
|
人工智能 分布式计算 关系型数据库
|

【你离完成一次MaxCompute计算任务仅剩三步】Step1 通过DataWorks控制台创建MaxCompute项目空间

开通MaxCompute后,请通过DataWorks控制台创建MaxCompute项目空间

4054 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 SQL 人工智能
|

开源大数据周刊-第80期

奇虎360正式开源其高性能KV存储平台Zeppelin,Zeppelin 是奇虎 360 开源的一个高性能,高可用的分布式 Key-Value 存储平台,它以高性能、大集群为目标,并希望能在 Zeppelin 的基础上,不仅能够提供 KV 的访问,还可以通过简单的一层转换满足更复杂的协议需求。

3384 0
|
机器学习/深度学习 Java Android开发
|

Jarvis-拍立淘里面的深度学习引擎-之持续优化

介绍 Jarvis是一款专门为手机端而设计研发的深度学习引擎,它比我们目前已知的所有开源产品都要快。在使用高通芯片的安卓手机上,其他产品在性能上甚至还没有接近于我们的。小小骄傲一下。在最开始的时候,Jarvis was heavily influenced by Caffe2 and borrowed quite a bit of code from it. 但是随着时间的推移以及业务的演进,Jarvis离Caffe2也越来越远,所以,我们最终决定发布独立的产品。

3870 0
来自: 智能搜索推荐  版块
|
流计算 API Apache
|

Apache Flink 零基础入门(一):基础概念解析

本文是根据 Apache Flink 基础篇系列直播整理而成,由 Apache Flink PMC 戴资力与阿里巴巴高级产品专家陈守元共同分享。Apache Flink 系列入门教程每周更新一期,持续推送。

12711 1
来自: 实时计算 Flink  版块
|
消息中间件 大数据 关系型数据库
|

实时计算在「阿里影业实时报表业务」技术解读

阿里影业实时报表开始做法也是按照传统型报表做法一样,直接从阿里云rds写sql查询,随着数据量越来越大,这种做法已经没有办法满足业务扩张,带来的问题响应时间变慢,吞吐量低,我们急需要一种技术方案能满足未来2-3年随着影院增加,数据增长,而报表功能还能很好的满足客户需求技术方案。

5094 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

MaxCompute2.0索引优化实践

摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,阿里云高级专家戴谢宁带来MaxCompute的索引与优化实践分享。本文主要从MaxCompute数据模型开始谈起,接着分享了哈希分片和区域分片,着重分析了索引优化和join优化,并且列出了应用实例,最好作出了简要总结。

4373 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 分布式计算 大数据
|

阿里云在美推出MaxCompute大数据计算平台

2017年11月16日,阿里巴巴集团旗下云计算平台阿里云,宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3613 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 物联网 新能源
|

数据新能源驱动智慧新世界:数据新能源时代来临

免费开通大数据服务:https://www.aliyun.com/product/odps 阿 里巴巴集团董事局主席马云,在2016年10月云栖大会上首次提到“五新”的趋势,分别是新零售、新金融、新制造、新技术和新能源。

3743 0
来自: 大数据计算 MaxCompute  版块
|
算法 搜索推荐 安全
|

推荐系统之业务架构总览

4318 0
来自: 人工智能平台PAI  版块
|
分布式计算 MaxCompute DataWorks
|

MaxCompute问答整理之7月

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助。 问题一、DataWorks V2.0简单模式和标准模式的区别? 公司数仓的数据上云后,在使用MaxCompute计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么DataWorks就派上了用场。

3590 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 分布式计算
|

MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大

现象:同样的SQL,每天处理的数据行数差不多,但是费用突然暴涨甚至会翻数倍。 分析: 我们先明确MaxCompute SQL后付费的计费公式:一条SQL执行的费用=扫描输入量 ️ SQL复杂度 ️ 0.3(¥/GB)。

3789 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 MaxCompute
|

【MaxCompute学习】隐式转化的问题

MaxCompute使用小技巧

4184 0
来自: 大数据计算 MaxCompute  版块
|
Web App开发 监控 流计算
|

实时欺诈检测(风控)

基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。 系统架构:   实时欺诈检测(风控)系统流程如下: 用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。

5584 0
来自: 实时计算 Flink  版块
|
分布式计算 监控 大数据
|

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网、云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长。收集大量数据,并在数据中发现趋势,能使企业能够更快、更平稳、更有效地发展。然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?“天德π客”众创空间特举办本期论坛——“基于阿里云的大数据实践——海量日志分析”,邀请华北电力大学电力系统及其自动化博士,阿里云大数据高级认证讲师宋亚奇主讲。

3268 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Apache
|

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化 内容简介: SparkSQL介绍 基本原理 支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化 直播时间: 2018.

3410 0
|
分布式计算 供应链 安全
|

30秒在线卖出3000套房,对于云系统来说只是小意思!

数字经济时代,互联网改变着我们生活的方方面面,同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展,以及传统行业转型升级的日益深化,二者之间的关系变得愈发紧密。

3373 0
来自: 大数据计算 MaxCompute  版块
|
存储 分布式计算 监控
|

MaxCompute表设计最佳实践

MaxCompute表设计最佳实践 产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能,因此我们先介绍下什么样的操作会产生大量小文件,从 而在做表设计的时候考虑避开此类操作。 使用MaxCompute Tunnel SDK上传数据,上传过程中,每commit一次就会产生一个文件。

4041 0
来自: 大数据计算 MaxCompute  版块
|
关系型数据库 数据挖掘 双11
|

小团队拥有大能量 三十个年轻人的创业故事

随着云时代的到来,企业软件运维难与高成本的两大难题有了解决的可能性,同时,这也给很多中小软件团队带来发展的良机。你能否想象一个人均年龄只有26岁的三十人软件团队就可以支撑上千家商家每天产生数十亿的销售额?其中不乏Esprit、佐丹奴、意尔康、御泥坊、宝尊等重量级商家。

3680 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 流计算
|

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台,不仅支持淘系搜索、推荐、聚划算、淘金币等业务,也支持国际化相关icbu、lazada等搜索推荐业务,同时还支持着淘客,优酷、飞猪等大文娱的搜索推荐场景。

9634 0
来自: 智能搜索推荐  版块
|
分布式计算 运维 DataWorks
|

MaxCompute安全管理指南-基础篇

背景及目的 方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维,保障数据安全。 MaxCompute有安全模型,DataWorks也有安全模型,当通过DataWorks使用MaxCompute,而DataWorks的安全模型不满足业务安全需求时,合理的将两个安全模型结合使用就尤其重要。

4523 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 Java
|

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求,支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程,解决系统的抽象和性能问题,并提供 schedule 的优化能力。

6193 0
来自: 智能搜索推荐  版块
|
消息中间件 大数据 测试技术
|

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能,文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考,不代表官方性能指标承诺。

3126 0
|
机器学习/深度学习 算法 数据挖掘
|

图(关系网络)数据分析及阿里应用

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴资深技术专家钱正平为大家分享了大数据技术背景下图数据的应用前景,以及阿里巴巴在图数据的建模、查询和系统优化等方面做出的初步探索。

4229 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 算法 搜索推荐
|

强化学习在锦囊位置调控上的探索和实践

1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

3306 0
来自: 智能搜索推荐  版块
|
分布式计算 资源调度 Hadoop
|

都是default惹的祸-yarn调度(一)-fair调度器drf调度策略作业不执行问题的调查和源码分析

问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。

4270 0
|
分布式计算 MaxCompute
|

MaxCompute Next

本文PPT来自阿里云大数据计算平台资深架构师林伟于10月15日在2016年杭州云栖大会上发表的《MaxCompute Next》。

3132 0
来自: 大数据计算 MaxCompute  版块
|
人工智能 搜索推荐 异构计算
|

从HA3到AI·OS -- 全图化引擎破茧之路

8326 0
来自: 智能搜索推荐  版块
|
分布式计算 Spark 机器学习/深度学习
|

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

3508 0
|
消息中间件 大数据 测试技术
|

如何在E-MapReduce上提交Storm作业处理Kafka数据

本文演示如何在E-MapReduce上部署Storm集群和Kafka集群,并运行Storm作业消费Kafka数据。

2914 0

心脏病预测案例

心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的影响,对于预测和预防心脏病将起到至关重要的作用。本文将会通过真实的数据,通过阿里云机器学习平台搭建心脏病预测案例。<br />数据源:UCI<br />数据大小:7.49 KB<br />字段数量:15<br />使用组件:归一化,拆分,过滤式特征选择,SQL脚本,读数据表,类型转换<br />

2994 1
来自: 人工智能平台PAI  版块
|
存储 大数据 分布式数据库
|

开源大数据周刊-第85期

资讯 美国公布长达35页的《2016-2045年新兴科技趋势报告》, Hadoop社区最新动态

2477 0
|
分布式计算 druid 对象存储
|

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

2873 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第7期

运行于云端的Hadoop——数据即服务的论证,预先知晓Hadoop3.0新特性。

3156 0
|
分布式计算 资源调度 Hadoop
|

来!PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。

5238 0
来自: 实时计算 Flink  版块
|
分布式计算 Java DataX
|

MaxCompute读取分析OSS非结构化数据的实践经验总结

1. 本文背景 很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。

3244 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 算法
|

追求极致的AI·OS——AI·OS引擎平台

6429 0
来自: 智能搜索推荐  版块
|
SQL 网络协议 Java
|

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。

2952 0
|
流计算 数据库 存储
|

Flink State 有可能代替数据库吗?

State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直接用 State 存储结果数据,这让业界不禁思考: State 和 Database 是何种关系?有没有可能用 State 来代替数据库呢?

3580 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4568 0
|
流计算 SQL HIVE
|

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

9353 0
来自: 实时计算 Flink  版块
|
SQL 分布式计算 Java
|

使用应用程序(Java/Python)访问MaxCompute Lightning进行数据开发

很多开发者希望利用Lightning的特性开发数据应用,本文将结合示例介绍Java和Python如何连接访问Lightning进行应用开发。内容包括通过Java的JDBC、druid方式连接访问Lightning,Python通过pyscopg2、pyodbc访问Lightning。

3155 0
来自: 大数据计算 MaxCompute  版块
|
城市大脑 监控 算法
|

阿里云双11访谈之数据智能

在阿里云双11访谈之数据智能专场中,阿里云交互设计师梓铭、阿里云人工智能资深产品运营席嘉和阿里云DataV资深产品运营苇如为大家简单分享了数据智能的应用,介绍了阿里云新近发布的产品ET城市大脑以及它所用到的技术支撑和在其他领域的应用,最后还介绍了双11的具体优惠活动。

2619 0
来自: 大数据计算 MaxCompute  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67370
内容
127
活动
439361
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版