大数据计算 MaxCompute
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

发光的二次元——克拉克拉上云实践
MaxCompute提供完善的数据导入方案以及多种经典的分布式计算模型,可快速解决克拉克拉所面临的海量数据的计算问题,有效降低企业成本并保障数据安全。对于使用方的我们不必关心分布式计算和维护细节便可轻松完成大数据分析,最终我们采用阿里云MaxCompute方案进行数据上云。

基于MaxCompute搭建社交好友推荐系统
本次由阿里云驻云科技资深架构师翟永东带来了“基于 MaxCompute 搭建社交好友推荐系统”为主题的分享,主要对大数据在好友推荐系统中的应用、好友推荐系统的分析模型、好友推荐系统在阿里云上的实现方式和 MaxCompute 技术进行了精彩的介绍。

交易数据清算从8小时缩至1.5小时,飞天大数据平台MaxCompute解决余额宝算力难题
MaxCompute 对于海量数据的存储、运维、计算能力强大且安全稳定,MaxCompute 服务将原本需要清算 8 小时的用户交易数据缩短至清算 1 个半小时,同时减少了本地服务器部署压力,在显著提升我们工作效率的同时减少了大量开发成本和人力成本,使我们能更专注于业务发展,为用户提供高品质、高价值的金融服务。

塑云科技:性能突破,基于KafKa+OTS+MaxCompute 完成了一次物联网系统技术重构
创业团队,专注于氢能燃料电池生态链的运营支撑,当前主要的业务组成为新能源车整车实时运营监控分析,加氢站实时运营监控分析,车辆安全运营支撑。

MaxCompute 助力衣二三构建智能化运营工具
本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。 衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助力衣二三构建智能化运营工具的。

基于实时计算(flink)打造舆情分析平台——新华智云
新华智云是一家致力于通过大数据技术驱动媒体变革的公司,数芯是新华智云推出的实时舆情分析平台,旨在满足用户一系列舆情分析需求。包括:对事件、新闻、媒体、人物、地域、机构、行业,甚至关键词、热门话题等的抓取、识别、聚合、热度分析以及可视化展示等。
基于MaxCompute的媒体大数据开放平台建设
随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设。

阿里巴巴飞天大数据平台OpenSearch最新特性
阿里云开放搜索(OpenSearch)是一款结构化数据搜索托管服务,其能够提供简单、高效、稳定、低成本和可扩展的搜索解决方案。OpenSearch以平台服务化的形式,将专业搜索技术简单化、低门槛化和低成本化,让搜索引擎技术不再成为客户的业务瓶颈,以低成本实现产品搜索功能并快速迭代。本文将为大家介绍OpenSearch的最新推出的电商查询语义理解和搜索算法平台两个新功能。

阿里巴巴飞天大数据平台Elasticsearch最新特性
阿里云Elasticsearch提供100%兼容开源Elasticsearch的功能,以及Security、Machine Learning、Graph、APM等商业功能,致力于数据分析、数据搜索等场景服务。与开源社区背后商业公司Elastic战略合作,为客户提供企业级权限管控、安全监控告警、自动报表生成等场景服务。本文中,阿里云产品专家沐泽为大家介绍了阿里云Elasticsearch产品的相关情况。

阿里巴巴飞天大数据平台实时计算Flink on Kubernetes最新特性
目前实时计算的产品已经有两种模式,即共享模式和独享模式。这两种模式都是全托管方式,这种托管方式下用户不需要关心整个集群的运维。其次,共享模式和独享模式使用的都是Blink引擎。

阿里巴巴飞天大数据平台智能开发云平台DataWorks最新特性
自2009年DataWorks立项,伴随着阿里巴巴集团登月计划、公共云和专有云的发布,直到2018年V2.0的发布,DataWorks已经走过了十年的历程。本文主要分享了DataWorks商业化增值版本中高级功能,分别介绍了DataWorks基础版,标准版,专业版和企业版中具备的特色功能和每个功能点所适应的场景,帮助用户选择适合的DataWorks版本,更好的解决所面临的问题。

阿里云 MaxCompute 2020-4 月刊
4月MaxCompute审计日志发布,可通过历史事件及明细查询、实时行为事件分析,满足您实时审计、问题回溯分析等需求。同时,MaxCompute在支持实时消费监控告警的基础上新发布支持对按量付费单个SQL作业的消费进行控制,帮您更好的监控消费。更多4月的新功能与新解决方案,欢迎阅读4月刊。
MaxCompute Mars 完全指南
Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。

Spark DataFrame 不是真正的 DataFrame
最早的 "DataFrame" ,来源于贝尔实验室开发的 S 语言。R 语言,作为 S 语言的开源版本,于 2000 年发布了第一个稳定版本,并且实现了 dataframe。pandas 于 2009 年被开发,Python 中于是也有了 DataFrame 的概念。

友盟+联合EB级云数据仓库 MaxCompute 实现友盟域和企业私域数据全面融合
国内领先的第三方全域数据智能服务商友盟+,联合阿里云EB级云数据仓库 MaxCompute 为企业提供面向分析的,实现友盟域数据与企业私域数据全面融合的自助分析服务“U-DOP数据开放”。
友盟+联合EB级云数据仓库 MaxCompute 实现友盟域和企业私域数据全面融合
国内领先的第三方全域数据智能服务商友盟+,联合阿里云EB级云数据仓库 MaxCompute 为企业提供面向分析的,实现友盟域数据与企业私域数据全面融合的自助分析服务“U-DOP数据开放”。

当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学
在数据科学世界,Python 是一个不可忽视的存在,且有愈演愈烈之势。而其中主要的使用工具,包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生,它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行,支持通过 RAPIDS 平台用 GPU 加速数据科学。

Mars 开源月报(2020.3)
本月,Mars 发布了 0.4.0b1 ,0.4.0b2 和 0.3.2 以及 0.3.3,点击链接查看详细的 Release Notes。本月两次发布版本是特殊情况,0.4.0b2 修复了 0.4.0b1 中比较紧急的问题。

并行正则采样排序算法及在 Mars 中的应用
相信大家对排序算法都非常熟悉了,快速排序、堆排序、归并排序等等。如果我们想在一个很大的数据集上进行排序,能利用上多核,甚至是分布式集群,有什么办法么? 本文就介绍一种并行排序算法:并行正则采样排序算法(Parallel Sorting by Regular Sampling),简称 PSRS 算法。

当 Mars 遇上 RAPIDS:用 GPU 以并行的方式加速数据科学
在数据科学世界,Python 是一个不可忽视的存在,且有愈演愈烈之势。而其中主要的使用工具,包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生,它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行,支持通过 RAPIDS 平台用 GPU 加速数据科学。

MaxCompute问答整理之2020-03月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

在DataWorks标准模式下统计个人账号使用资源情况
在使用MaxCompute的时候通常情况下,用户会通过Information Schema的task_history视图表来分析具体某个账号执行的SQL任务情况,来做到SQL成本分摊或SQL的时间成本优化。但大多数用户通过DataWorks标准模式下使用MaxCompute,这样在MaxCompute提供的元数据视图信息中将记录所有的生产作业执行账号为同一个主账号,只有小部分的开发作业执行账号为个人RAM子账号。本文主要介绍如何在DataWorks标准模式下统计个人账号使用资源情况。

MaxCompute管家详解--管家助力,轻松玩转MaxCompute
由于单台服务器的处理能力有限,海量数据的分析需要分布式的计算模型,然而分布式的计算模型对数据分析人员要求较高且不易维护。MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使用户可以经济并高效的分析处理海量数据,而MaxCompute管家可以帮助用户更好地进行管理和维护。

MaxCompute Information Schema功能详解
阿里云的技术专家为大家带来MaxCompute新功能Information Schema的详细介绍。内容包括Information Schema的简介,安装,使用场景,以及对此新功能的使用建议。
Mysql5.7使用DTS增量同步数据到MaxCompute
本文介绍了使用适应增量同步Mysql5.7数据同步到MaxCompute同步方式,主要过程为设置mysql5.7的binlog,以及使用DTS同步Mysql同步所有数据之前的全量数据操作,以及增量数据同步的配置,以及最后整合最后数据之前的全部数据。

MaxCompute规格详解--合理的选择让您花更低的成本获得更高的业务价值
本文由阿里巴巴技术专家海清带来以“MaxCompute规格详解”为主题的演讲。首先概述了在使用MaxCompute时,通常选择的两种服务模式,按量计费和包年包月,以及在MaxCompute计费过程中所产生的各项费用。

MaxCompute - ODPS重装上阵 第九弹 - 脚本模式与参数视图
MaxCompute提供了新的脚本模式与参数化视图,可以明显提高开发者的编程效率,提高代码的可重用性,与此同时,也提高了性能!

MaxCompute问答整理之2020-02月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

使用CLONE TABLE方式实现同region不同可用区的MaxCompute之间的数据迁移
该文章主要针对于用户同region不同账户之间的MaxCompute数据迁移方式,属于迁移的方式可以有三种方式,一、添加MaxCompute数据源的方式进行数据迁移(该方式针对多个表配置同步节点较为繁琐);二、使用tunnel方式结合代码进行数据的迁移;三、使用clone table进行MaxCompute数据到另一MaxCompute之间的数据迁移。

阿里云 MaxCompute 2020-2 月刊
MaxCompute2020年2月刊为您带来Python UDF 支持Python 3 ,MaxCompute存储格式全面升级AliORC等九项最新发布功能。欢迎阅读。

EB级云智能数据仓库MaxCompute的聪明买与智慧用 | 2020 大数据技术公开课第二季
本季的三次课程将帮助企业和开发者在大数据计算方面做到更聪明的购买资源和更智慧的管理使用资源。

阿里云 MaxCompute 2020-2 月刊
MaxCompute2020年2月刊为您带来Python UDF 支持Python 3 ,MaxCompute存储格式全面升级AliORC等九项最新发布功能。欢迎阅读。

DataWorks数据集成与开源Sqoop的对比
阿里巴巴技术专家张雅静为大家带来DataWorks数据集成与开源Sqoop的对比演讲。主要从介绍Sqoop开始谈起,接着详细介绍了DataWorks数据集成与开源Sqoop对比以及注意事项,然后着重说明了DataWorks数据集成并进行了实操演示,最后对全文进行了总结。 以下是精彩视频内容整理:

阿里云交互式分析与Presto对比分析及使用注意事项
文章首先介绍了Presto以及它的应用场景、特点、架构和原理、数据模型、数据类型,并且以Presto数据查询作为实例。然后介绍了阿里云交互式分析,同时列举了它的优势和典型应用场景,对权限、数据类型、实例对象层级进行讲解,并且对交互式分析的两大场景进行实践分析,列举了几种表的特征设置,以阿里云交互式分析开发作为示例展示其过程。
DataX:导入4字节UTF8编码(生僻字)到Mysql数据库的utf8mb4数据表
MySql数据库的编码支持UFT8字符集。utf-8编码可能是2个字节、3个字节、4个字节的字符,MYSQL的utf-8编码,只支持3个字节的字符。汉字中很多生僻字都是4个字节的字符,日常生活中人的姓名就会有很多高位的生僻字。

MaxCompute Spark与Spark SQL对比分析及使用注意事项
本文详细对比了Spark on MaxCompute与开源Spark模式在使用中的差异。本次分享主要从功能特性,代码开发,以及Spark on MaxCompute在DataWorks中部署的操作流程等方面进行详细讲解。

实时计算与SparkSteaming的对比
本文由阿里巴巴龙青云带来以“实时计算与SparkSteaming的对比”为题的演讲。首先对实时计算和产品模式进行概述。然后介绍了什么是Flink以及它的架构图、编程模型、计算模型和容错机制。接着阐述了Spark Streaming与实时计算的对比涉及生态集成对比、API对比、数据处理模式对比、时间机制对比以及容错机制对比五个方面。最后讲解了如何使用阿里云实时计算以及实时计算的使用限制。

MaxCompute SQL与Hive对比分析及使用注意事项
一个使用过Hadoop的Hive框架的大数据开发工程师,往往基本掌握了阿里云的大数据计算服务MaxCompute的90%。本次分享主要通过详细对比MaxCompute和Hive各个方面的异同及开发使用的注意事项,方便用户来开发使用MaxCompute,实现从Hive秒速迁移到MaxCompute。

大数据搬站step by step
IDC,ECS自建和云数据库之间的数据搬站 1 IDC -> MaxCompute / EMR **【方案】:使用“独享数据集成资源组”,绑定可以连通用户IDC的用户VPC,然后提工单,由阿里云数据集成开发人员在独享数据集成资源组上配置路由,使独享数据集成资源组可以访问IDC内数据源。
Maxcompute Spark作业管控利器—Cupid Console
Cupid Console是MaxCompute客户端 0.33.1 及更新版本新增的一个插件,下载MaxCompute客户端最新版本:https://github.com/aliyun/aliyun-odps-console/releases,配置好后,运行odpscmd,针对spark作业的管控,Cupid Console增加了一组spark的命令,可以通过运行help spark查看这些命令的用法。

高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。

MaxCompute同步数据的网络配置
MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。

大数据技术公开课年度合集,带你看尽2019大数据精彩直播
在过去的一年中,大数据技术公开课共六季23次直播,内容涵盖阿里经济体的大数据典型场景最佳实践揭秘,企业级大数据平台的构建和思考,各行业客户大数据实战,阿里巴巴大数据产品特性讲解,技术大咖专访,开发者成长等内容。为开发者更好的回顾和学习,现整理和集合内容见本帖。2020年第一季大数据技术公开课2.17日开播,欢迎一起学习。