大数据与机器学习-博文-第5页-阿里云开发者社区

若有-若无

|

消息中间件大数据关系型数据库

|

博文

实时计算在「阿里影业实时报表业务」技术解读

阿里影业实时报表开始做法也是按照传统型报表做法一样，直接从阿里云rds写sql查询，随着数据量越来越大，这种做法已经没有办法满足业务扩张，带来的问题响应时间变慢，吞吐量低，我们急需要一种技术方案能满足未来2-3年随着影院增加，数据增长，而报表功能还能很好的满足客户需求技术方案。

5094 0 2

来自：实时计算 Flink 版块

隐林

|

存储分布式计算大数据

|

博文

MaxCompute2.0索引优化实践

摘要：2017云栖大会阿里云大数据计算服务（MaxCompute）专场，阿里云高级专家戴谢宁带来MaxCompute的索引与优化实践分享。本文主要从MaxCompute数据模型开始谈起，接着分享了哈希分片和区域分片，着重分析了索引优化和join优化，并且列出了应用实例，最好作出了简要总结。

4373 0 1

来自：大数据计算 MaxCompute 版块

晋恒

|

人工智能分布式计算大数据

|

博文

阿里云在美推出MaxCompute大数据计算平台

2017年11月16日，阿里巴巴集团旗下云计算平台阿里云，宣布在美推出MaxCompute大数据计算平台。正式向美国企业提供大数据计算服务。

3613 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算物联网新能源

|

博文

数据新能源驱动智慧新世界：数据新能源时代来临

免费开通大数据服务：https://www.aliyun.com/product/odps 阿里巴巴集团董事局主席马云，在2016年10月云栖大会上首次提到“五新”的趋势，分别是新零售、新金融、新制造、新技术和新能源。

3743 0 0

来自：大数据计算 MaxCompute 版块

小扑

|

自然语言处理大数据 API

|

博文

MaxCompute问答整理之7月

本文是基于本人对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。问题一、DataWorks V2.0简单模式和标准模式的区别？公司数仓的数据上云后，在使用MaxCompute计算引擎时，需要一个稳定、可靠的调度系统，将自身数据生产任务（代码）按照所需依赖关系、运行时间来调度运行，那么DataWorks就派上了用场。

3590 0 0

来自：大数据计算 MaxCompute 版块

海清

|

存储 SQL 分布式计算

|

博文

MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大

现象：同样的SQL，每天处理的数据行数差不多，但是费用突然暴涨甚至会翻数倍。分析：我们先明确MaxCompute SQL后付费的计费公式：一条SQL执行的费用=扫描输入量 ️ SQL复杂度 ️ 0.3(￥/GB)。

3789 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

新零售分布式计算安全

|

博文

探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup（杭州站）干货集锦

什么是大数据？什么是计算？什么是超大规模的大数据计算？答案是MaxCompute，具备单日600PB计算力的企业级大数据计算平台。MaxCompute一天的信息处理量相当于全球最大图书馆-美国国会图书馆藏书储存信息量的2250倍，可以为全球70亿人每人存储30张高清照片。

3560 0 2

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【MaxCompute学习】隐式转化的问题

MaxCompute使用小技巧

4184 0 0

来自：大数据计算 MaxCompute 版块

付空

|

Web App开发监控流计算

|

博文

实时欺诈检测（风控）

基于实时计算，您可以轻松完成实时欺诈检测系统。实时欺诈检测系统能够及时发现用户高危行为并采取措施，降低损失。系统架构：实时欺诈检测（风控）系统流程如下：用户的行为经由App上报或Web日志记录下来，发送到一个消息队列里去。

5584 0 1

来自：实时计算 Flink 版块

隐林

|

分布式计算监控大数据

|

博文

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网、云计算、物联网、社交网络等技术的兴起和普及，全球数据的增长快于任何一个时期，可以称作是爆炸性增长。收集大量数据，并在数据中发现趋势，能使企业能够更快、更平稳、更有效地发展。然而，大数据对许多企业和数据专业人员来说，它仍然很难理解，那么，什么是大数据分析?如何利用阿里云数加平台进行海量数据分析，帮助企业更好地利用数据资源?“天德π客”众创空间特举办本期论坛——“基于阿里云的大数据实践——海量日志分析”，邀请华北电力大学电力系统及其自动化博士，阿里云大数据高级认证讲师宋亚奇主讲。

3268 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

SQL 分布式计算 Apache

|

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3410 0 0

来自：开源大数据平台 E-MapReduce 版块

隐林

|

分布式计算供应链安全

|

博文

30秒在线卖出3000套房，对于云系统来说只是小意思！

数字经济时代，互联网改变着我们生活的方方面面，同时也在改变着商业世界的运营法则。而随着云计算、移动互联网、人工智能、大数据新一代技术的应用和发展，以及传统行业转型升级的日益深化，二者之间的关系变得愈发紧密。

3373 0 0

来自：大数据计算 MaxCompute 版块

云花

|

存储分布式计算监控

|

博文

MaxCompute表设计最佳实践

MaxCompute表设计最佳实践产生大量小文件的操作 MaxCompute表的小文件会影响存储和计算性能，因此我们先介绍下什么样的操作会产生大量小文件，从而在做表设计的时候考虑避开此类操作。使用MaxCompute Tunnel SDK上传数据，上传过程中，每commit一次就会产生一个文件。

4041 0 3

来自：大数据计算 MaxCompute 版块

yq传送门

|

关系型数据库数据挖掘双11

|

博文

小团队拥有大能量三十个年轻人的创业故事

随着云时代的到来，企业软件运维难与高成本的两大难题有了解决的可能性，同时，这也给很多中小软件团队带来发展的良机。你能否想象一个人均年龄只有26岁的三十人软件团队就可以支撑上千家商家每天产生数十亿的销售额?其中不乏Esprit、佐丹奴、意尔康、御泥坊、宝尊等重量级商家。

3680 0 0

来自：大数据计算 MaxCompute 版块

lantao

|

机器学习/深度学习算法流计算

|

博文

深度预测平台RTP介绍

前言 RTP平台是阿里内部一个通用的在线预测平台，不仅支持淘系搜索、推荐、聚划算、淘金币等业务，也支持国际化相关icbu、lazada等搜索推荐业务，同时还支持着淘客，优酷、飞猪等大文娱的搜索推荐场景。

9634 0 1

来自：智能搜索推荐版块

海清

|

分布式计算运维 DataWorks

|

博文

MaxCompute安全管理指南-基础篇

背景及目的方便和辅助MaxCompute的project owner或安全管理员进行project的日常安全运维，保障数据安全。 MaxCompute有安全模型，DataWorks也有安全模型，当通过DataWorks使用MaxCompute，而DataWorks的安全模型不满足业务安全需求时，合理的将两个安全模型结合使用就尤其重要。

4523 0 0

来自：大数据计算 MaxCompute 版块

风夏lk

|

机器学习/深度学习存储 Java

|

博文

大规模深度学习预测场景下 codegen 的思考与应用

RTP 系统是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务。本文主要讨论了在 RTP 的存储读取和特征生成场景中 codegen 的应用。利用 IR 和 C++ 混合编程，解决系统的抽象和性能问题，并提供 schedule 的优化能力。

6193 0 0

来自：智能搜索推荐版块

隐林

|

SQL 分布式计算 MaxCompute

|

博文

8330 0 0

来自：智能搜索推荐版块

阿里云E-MapReduce团队

|

分布式计算 Spark 机器学习/深度学习

|

博文

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析，为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展，同时预测了Spark 3.0即将重磅发布的新功能。

3508 0 0

来自：开源大数据平台 E-MapReduce 版块

鱼跟猫

|

消息中间件大数据测试技术

|

一个ElasticSearchDemo，讲解如何使用Jsoup爬取歌词数据写入阿里云Elasticsearch，并搭建Web框架实现歌词的全文检索。

4202 0 0

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

流计算存储调度

|

博文

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

本次的分享包括以下三个部分： 1. 介绍 Flink 在快手的应用场景以及目前规模； 2. 介绍 Flink 在落地过程的技术演进过程； 3. 讨论 Flink 在快手的未来计划。

4984 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

存储大数据分布式数据库

|

博文

开源大数据周刊-第85期

资讯美国公布长达35页的《2016-2045年新兴科技趋势报告》， Hadoop社区最新动态

2477 0 0

来自：开源大数据平台 E-MapReduce 版块

午夜漫步者

|

SQL 分布式计算资源调度

|

博文

带你玩转Logview: MaxCompute Logview参数详解和问题排查

对于Logview上的诸多参数信息，究竟应该怎么“拨开云雾”，发现问题所在呢？又如何通过Logview了解每个instance、task运行状态及资源占用情况，如何分析执行计划，分析query存在问题，找到Long-Tails task，让数据分析业务高效又省钱呢？本文中，阿里巴巴计算平台产品专家云花将为大家揭晓答案。

4646 0 2

来自：大数据计算 MaxCompute 版块

xy_xind

|

分布式计算 druid 对象存储

|

博文

EMR Druid 探索（二）

EMR Druid 探索（二） EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid，并专门推出了一种新的集群类型：Druid 集群。在具体使用时，Druid 集群可以与 Hadoop 集群结合，以 HDFS 集群作为 deep storage 的存储，以 YARN 作为批量索引的计算引擎。

2873 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

分布式计算大数据 Hadoop

|

博文

开源大数据周刊-第7期

运行于云端的Hadoop——数据即服务的论证，预先知晓Hadoop3.0新特性。

3156 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

分布式计算资源调度 Hadoop

|

博文

来！PyFlink 作业的多种部署模式

关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发，比如，如何使用各种算子(Join/Window/AGG etc.)，如何使用各种 Connector(Kafka, CSV, Socket etc.)，还有一些实际的案例。

5238 0 3

来自：实时计算 Flink 版块

liukaitj

|

分布式计算 Java DataX

|

博文

MaxCompute读取分析OSS非结构化数据的实践经验总结

1. 本文背景很多行业的信息系统中，例如金融行业的信息系统，相当多的数据交互工作是通过传统的文本文件进行交互的。此外，很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统，也是以文本文件的形式存在的。

3244 0 0

来自：大数据计算 MaxCompute 版块

喜德

|

机器学习/深度学习存储算法

|

博文

追求极致的AI·OS——AI·OS引擎平台

6430 0 1

来自：智能搜索推荐版块

鸿初

|

Web App开发大数据

|

博文

用集群脚本功能安装大象医生优化你的大数据作业

2786 0 0

来自：开源大数据平台 E-MapReduce 版块

知瑕

|

SQL 网络协议 Java

|

博文

通过Gateway访问Presto

本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件，如Impala等。

2952 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算数据库存储

|

博文

Flink State 有可能代替数据库吗？

State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据，部分情况下甚至可以直接用 State 存储结果数据，这让业界不禁思考: State 和 Database 是何种关系？有没有可能用 State 来代替数据库呢？

3580 0 0

来自：实时计算 Flink 版块

李呈祥

|

SQL 分布式计算测试技术

|

博文

扩展Spark Catalyst，打造自定义的Spark SQL引擎

在Spark2.2版本中，引入了新的扩展点，使得用户可以在Spark session中自定义自己的parser，analyzer，optimizer以及physical planning stragegy rule。

4569 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储分布式计算 Apache

|

博文

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

2570 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算 SQL HIVE

|

博文

小红书如何实现高效推荐？解密背后的大数据计算平台架构

小红书作为生活分享类社区，目前有8500万用户，年同比增长为300%，大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一，本文主要分享在推荐业务场景中小红书的实时计算应用。

9353 0 0

来自：实时计算 Flink 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

实时计算在「阿里影业实时报表业务」技术解读

MaxCompute2.0索引优化实践

阿里云在美推出MaxCompute大数据计算平台

数据新能源驱动智慧新世界：数据新能源时代来临

OpenSearch在线干预服务

推荐系统之业务架构总览

MaxCompute问答整理之7月

MaxCompute 费用暴涨之存储压缩率降低导致SQL输入量变大

探寻独角兽背后的大数据力量— 阿里巴巴大数据计算线下Meetup（杭州站）干货集锦

【MaxCompute学习】隐式转化的问题

实时欺诈检测（风控）

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

Apache Spark 系列技术直播 - Spark SQL 实践与优化

30秒在线卖出3000套房，对于云系统来说只是小意思！

MaxCompute表设计最佳实践

小团队拥有大能量 三十个年轻人的创业故事

深度预测平台RTP介绍

MaxCompute安全管理指南-基础篇

大规模深度学习预测场景下 codegen 的思考与应用

Alibaba Cloud MaxCompute vs. AWS Redshift vs. Azure SQL Data Warehouse

E-MapReduce Kafka Benchmark - I

图（关系网络）数据分析及阿里应用

强化学习在锦囊位置调控上的探索和实践

都是default惹的祸-yarn调度（一）-fair调度器drf调度策略作业不执行问题的调查和源码分析

【阿里内部应用】基于Blink构建亲听项目以及全链路debug项目实时响应能力

MaxCompute Next

阿里大数据深度学习在线服务体系架构图

从HA3到AI·OS -- 全图化引擎破茧之路

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

如何在E-MapReduce上提交Storm作业处理Kafka数据

心脏病预测案例

爽！MaxCompute老铁们再也不用点点点了！

SparkSQL ThriftServer 安全相关功能的现状分析

阿里巴巴搜索在离线统一调度

开源大数据周刊-第36期

（ElasticsSearch学习）歌词检索Demo的实现：一. 爬取歌词信息，写入ES

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

开源大数据周刊-第85期

带你玩转Logview: MaxCompute Logview参数详解和问题排查

EMR Druid 探索（二）

开源大数据周刊-第7期

来！PyFlink 作业的多种部署模式

MaxCompute读取分析OSS非结构化数据的实践经验总结

追求极致的AI·OS——AI·OS引擎平台

用集群脚本功能安装大象医生优化你的大数据作业

通过Gateway访问Presto

Flink State 有可能代替数据库吗？

扩展Spark Catalyst，打造自定义的Spark SQL引擎

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

小红书如何实现高效推荐？解密背后的大数据计算平台架构

大数据与机器学习

活跃用户

相关产品

小团队拥有大能量三十个年轻人的创业故事