大数据与机器学习-博文-第14页-阿里云开发者社区

阿里云实时计算Flink

|

SQL 人工智能分布式计算

|

博文

学不动？Apache Member 教你评估实用技术的思路

是因为一项技术火，你才学的吗？是因为你老板决定用这项技术，你才学的吗？那你有没有想过为什么这项技术会火，为什么你老板决定用这项技术。今天我们就以 Flink 为例，来好好聊为什么要学习 Flink，以及如何看待一项新技术是否有潜力，希望对你有所启发。

1532 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

消息中间件存储 SQL

|

博文

Netflix：如何打造开放协作的实时 ETL 平台？

本文由 Netflix 高级软件工程师徐振中分享，内容包含有趣的案例、分布式系统基础方面的各种挑战以及解决方案，此外还讨论了其在开发运维过程中的收获，对开放式自助式实时数据平台的一些新愿景，以及对 Realtime ETL 基础平台的一些新思考。

2042 0 0

来自：实时计算 Flink 版块

xy_xin

|

SQL 大数据 Shell

|

博文

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组，取其最大的 n (n

2384 0 0

来自：开源大数据平台 E-MapReduce 版块

社区小助手

|

博文

SparkSQL实践与优化

SQL实践：1.多数据源支持 2.多数据类型支持 3.多组件对接

2236 0 0

来自：开源大数据平台 E-MapReduce 版块

编程小石头

|

SQL XML JavaScript

|

博文

【若依Java】15分钟玩转若依二次开发，新手小白半小时实现前后端分离项目，springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

摘要：本文档详细介绍了如何使用若依框架快速搭建一个基于SpringBoot和Vue3的前后端分离的Java管理后台。教程涵盖了技术点、准备工作、启动项目、自动生成代码、数据库配置、菜单管理、代码下载和导入、自定义主题样式、代码生成、启动Vue3项目、修改代码、以及对代码进行自定义和扩展，例如单表和主子表的代码生成、树形表的实现、商品列表和分类列表的改造等。整个过程详细地指导了如何从下载项目到配置数据库，再到生成Java和Vue3代码，最后实现前后端的运行和功能定制。此外，还提供了关于软件安装、环境变量配置和代码自动生成的注意事项。

26437 72 89

工程师甲

|

关系型数据库 RDS MySQL

|

博文

【最佳实践】DTS轻松实现RDS for MySQL与阿里云Elasticsearch数据实时同步

本文介绍如何使用 DTS 快速创建RDS for MySQL->阿里云Elasticsearch的实时同步作业，实现RDS for MySQL数据到阿里云Elasticsearch的实时同步。

4506 0 0

来自：检索分析服务 Elasticsearch版版块

YuuuZeee

|

机器学习/深度学习

|

博文

混合循环发电场输出电力预测

前言机器学习很多时候在工业场景下也会有非常好的应用。本次实验，我们就会以一个综合循环发电厂的发电数据来展示机器学习是如何应用到工业生产的实际场景中的。本实验数据采集自 UCI 机器学习数据集中的混合发电厂数据。

2253 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

机器学习/深度学习消息中间件人工智能

|

博文

这场大数据+AI Meetup，一次性安排了大数据当下热门话题

6月14日，阿里巴巴计算平台事业部与阿里云开发者社区共同举办的大数据+AI Meetup 系列第一季即将重磅开启，此次 Meetup 邀请了来自阿里巴巴、Databricks、快手、网易云音乐的7位技术专家，集中解读大数据当前热门话题！

1849 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

机器学习/深度学习 SQL 算法

|

博文

Flink on Zeppelin (4) - 机器学习篇

Flink 在机器学习这个领域发力较晚，社区版没有一个完整的机器学习算法库可以用，Alink[1]是目前 Flink 生态圈相对比较完整的机器学习算法库，Alink 也在往 Flink 社区贡献的路上。今天我主要讲的就是如何在 Zeppelin 里使用 Alink。

1386 0 0

来自：实时计算 Flink 版块

耿江涛

|

分布式计算 Spark Java

|

博文

Spark在MaxCompute的运行方式

Spark on MaxCompute的客户端配置以及idea开发环境的配置

5689 0 0

来自：大数据计算 MaxCompute 版块

云无谓

|

NoSQL Redis 分布式计算

|

博文

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis

2449 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算监控 NoSQL

|

博文

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能，支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源，收集ECS上的日志数据，通过Spark Streaming SQL进行聚合后，将流计算结果数据实时写入Tablestore，展示一个简单的日志监控场景。

1648 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

|

博文

HDFS Federation简介

背景熟悉大数据的人应该都知道，HDFS 是一个分布式文件系统，它是基于谷歌的 GFS 思路实现的开源系统，它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的，如下：从上面可以看出 HDFS 的架构其实大致可以分为两层： Namespace：由目录，文件和数据块组成，支持常见的文件系统操作，例如创建，删除，修改和列出文件和目录。

3423 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

Python 分布式计算 Spark

|

博文

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Koalas项目基于Apache Spark实现了pandas DataFrame API，从而使数据科学家能够更有效率的处理大数据。一份代码可以同时在pandas(用于测试，小数据集)和Spark(用于分布式datasets)两个平台上运行。

1659 0 0

来自：开源大数据平台 E-MapReduce 版块

云花

|

分布式计算 MaxCompute

|

博文

【MaxCompute季报】MaxCompute新功能发布 2019Q2

2019年Q2 MaxCompute发布了一系列新功能。本文对主要新功能和增强功能进行了概述。 SQL新功能华北张家口节点正式开服售卖国际Region Spark商业化发布存储降价元数据服务Information Schema MaxCompute搬站迁移工具MMA 数据脱敏 Tunn...

1302 0 0

来自：大数据计算 MaxCompute 版块

xue_x18

|

博文

商品推荐引擎实验版

根据用户画像、交易行为和商品特征，用户智能推荐的方式帮助用户找到最合适的商品 数据源:用户数据、交易数据、商品数据 数据大小:184 KB 字段数量:4 使用组件:归一化,过滤与映射,SQL脚本,缺失值填充,读数据表,JOIN,类型转换

1320 0 0

来自：人工智能平台PAI 版块

light-rain

|

分布式计算 Spark Apache

|

博文

Kerberos使用OpenLDAP作为backend

本文介绍Kerberos对接OpenLDAP, 使用OpenLDAP作为principal数据库

2480 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云E-MapReduce团队

|

分布式计算机器人 Linux

|

博文

Apache Spark中国技术交流群升级到企业群啦！！！！！！

普通群容量已满足不了Spark群众日益增长的热情，因此我们做了一个重要的决定，将全部群成员转移到企业群

1961 0 2

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

消息中间件存储安全

|

博文

Flink kafka source & sink 源码解析

本文基于 Flink 1.9.0 和 Kafka 2.3 版本，对 Flink Kafka source 和 sink 端的源码进行解析，主要分为 Flink-kafka-source 源码解析、Flink-kafka-sink 源码解析两部分。

3434 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 资源调度 Kubernetes

|

博文

重磅！Apache Flink 1.11 功能前瞻抢先看！

Flink 1.11 版本即将正式宣告发布！为满足大家的好奇与期待，我们邀请 Flink 核心开发者对 1.11 版本的功能特性进行解读与分享。Flink 1.11 在 1.10 的基础上对许多方面进行了完善和改进，并致力于进一步提高 Flink 的可用性及性能。

1751 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 数据采集存储

|

博文

Flink 新场景：OLAP 引擎性能优化及应用案例

本文由阿里巴巴技术专家贺小令（晓令）分享，主要介绍 Apache Flink 新场景 OLAP 引擎，内容分为以下四部分：背景介绍、Flink OLAP 引擎、案例介绍、未来计划。

2835 0 1

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

博文

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

1149 0 1

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL Rust 供应链

|

博文

都在这儿了！5月 Flink 社区发版、更新汇总

为 Flink 1.11 热身，然后回溯 Flink 社区的四月份——发布了 Statful Functions 2.0、一个新的自定进度的 Flink 培训以及一些旨在改善 Flink 文档体验的工作。

1578 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

分布式计算 Spark 存储

|

博文

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

2773 0 0

来自：开源大数据平台 E-MapReduce 版块

李博garvin1

|

博文

心脏病预测案例_1480

贷款发放 数据源: 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

961 0 0

来自：人工智能平台PAI 版块

猫头虎

|

7月前

|

机器学习/深度学习 JSON 监控

|

博文

国内最大的MCP中文社区来了，4000多个服务等你体验

国内最大的MCP中文社区MCPServers来了！平台汇聚4000多个服务资源，涵盖娱乐、监控、云平台等多个领域，为开发者提供一站式技术支持。不仅有丰富的中文学习资料，还有详细的实战教程，如一键接入MCP天气服务等。MCPServers专注模块稳定性和实用性，经过99.99% SLA认证，是高效开发的理想选择。立即访问mcpservers.cn，开启你的开发之旅！

9187 16 20

北方的郎

|

博文

GBDT_LR

CTR中的GBDT+LR融合方案 数据源: 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

1007 0 0

来自：人工智能平台PAI 版块

李博garvin1

|

博文

心脏病预测案例_1480

gawgew 数据源: 数据大小:7.49 KB 字段数量:15 使用组件:DNN训练,归一化,拆分,SQL脚本,读数据表,类型转换

896 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

编解码 Apache 项目管理

|

博文

揭秘！开源软件背后的神秘组织

Flink 社区将分享“走进 ASF”系列内容，先从宏观介绍 ASF 是如何运作的，然后详细解说如何参与 Apache 具体项目做贡献，如何成为某个项目的 Committer、PMC 成员，如何选择多个 Apache 项目进行多领域贡献并成为 ASF Member 等，希望有助于你真正了解开源、参与开源。

1725 0 0

来自：实时计算 Flink 版块

力、神

|

博文

CTR_GBDT_LR

基于CTR的GBDT和LR方法融合 数据源:直播提供数据 数据大小:770 KB 字段数量:20 使用组件:拆分,读数据表,特征编码

880 0 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 消息中间件 JSON

|

博文

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

Flink 1.10 与 1.9 相比又是个创新版本，在我们感兴趣的很多方面都有改进，特别是 Flink SQL。本文用根据埋点日志计算 PV、UV 的简单示例来体验 Flink 1.10 的两个重要新特性.

1236 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

流计算分布式计算 Spark

|

博文

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

本次直播我们邀请了Tablestore存储服务技术专家朱晓然，为大家详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

1048 0 2

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习缓存

|

博文

Flink Weekly | 每周社区动态更新-20200520

本期主要内容包括：近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。

1029 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

存储消息中间件设计模式

|

博文

数仓系列 | Flink 窗口的应用与实现

本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、OPPO 大数据平台研发负责人张俊老师分享。主要内容如下： 1. 整体思路与学习路径 2. 应用场景与编程模型 3. 工作流程与实现机制

1966 0 0

来自：实时计算 Flink 版块

翠

|

博文

test_multiEvaluation

多分类评估 数据源:多分类评估 数据大小:779 KB 字段数量:42 使用组件:读数据表

806 0 0

来自：人工智能平台PAI 版块

Jacker

|

机器学习/深度学习算法搜索推荐

|

博文

原来GNN这么好上手，OMG！用它！

GraphLearn（GL）是阿里巴巴开源的一个大规模图神经网络平台，本文将对GL的接口做基本介绍，帮助用户快速上手。项目地址：https://github.com/alibaba/graph-learn 。

2242 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 存储分布式计算

|

博文

Flink 与 Hive 的磨合期

在上篇文章中，笔者使用的 CDH 版本为 5.16.2，其中 Hive 版本为 1.1.0（CDH 5.x 系列 Hive 版本都不高于 1.1.0，是不是不可理解），Flink 源代码本身对 Hive 1.1.0 版本兼容性不好，存在不少问题。

2588 0 0

来自：实时计算 Flink 版块

黄威的世界

|

机器学习/深度学习

|

博文

深度学习入门01-数学概念介绍

本文首先介绍了向量的概念及其表示方法，随后详细解释了向量间的点乘运算及计算公式。接着通过几个典型角度展示了正弦（sin）值的计算方法，并简要提及了余弦定理。文章进一步探讨了切线斜率的概念，将其定义为曲线上某点y/x的值，并举例说明。导数部分解释了导数作为函数在某点斜率的意义，以及它是如何衡量输入变化引起输出变化的方向与速率的。此外，还讨论了基本初等函数的导数公式。对数(log)和自然对数(ln)的概念被引入，包括它们的定义及计算方式。接着，文章解释了根号表示的意义，即寻找哪个数的平方等于给定数值。

1337 0 0

开源大数据EMR

|

流计算分布式计算 Spark

|

博文

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

936 0 0

来自：开源大数据平台 E-MapReduce 版块

jz_test

|

算法

|

博文

【推荐算法】商品推荐_2587

asdf 数据源:adsf 数据大小:328 KB 字段数量:4 使用组件:Filter and Mapping,JOIN,Read ODPS table,SQL Script

793 0 0

来自：人工智能平台PAI 版块

拂尘

|

博文

predict_with_binary_class_log

GBDT 数据源: 数据大小:7.49 KB 字段数量:15 使用组件:拆分,SQL脚本,读数据表,标准化,类型转换

733 0 0

来自：人工智能平台PAI 版块

翠

|

博文

test_multiEvaluation

多分类评估 数据源:多分类评估 数据大小:779 KB 字段数量:42 使用组件:读数据表

680 0 0

来自：人工智能平台PAI 版块

jz_test

|

算法

|

博文

【推荐算法】商品推荐_2587

asdf 数据源:adsf 数据大小:328 KB 字段数量:4 使用组件:过滤与映射,SQL脚本,读数据表,JOIN

830 0 0

来自：人工智能平台PAI 版块

阿里云E-MapReduce团队

|

博文

节日快乐！！！

“我们的未来该有多酷”

930 0 2

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

博文

E-MapReduce产品探秘，扩展开源生态云上的能力

E-MapReduce的产品能力介绍，通过EMR来构建高效的云上大数据平台，优化云上的使用成本，更快的计算效率。

760 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

资源调度 Prometheus Kubernetes

|

博文

Flink 1.10 Container 环境实战

本文第一部分将简明扼要地介绍容器管理系统的演变；第二部分是 Flink on K8S 简介，包括集群的部署模式调度原理等等；第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享，介绍我们遇到的问题、踩过的坑；最后一部分是 Demo，将手把手演示集群部署、任务提交等等。

1274 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 分布式计算 Java

|

博文

Flink Weekly | 每周社区动态更新-20200513

大家好，本文为 Flink Weekly 的第十五期，由张成整理，李本超 Review。本期主要内容包括：近期社区开发进展、邮件问题答疑、Flink 最新社区动态及技术文章推荐等。

963 0 0

来自：实时计算 Flink 版块

申某某

|

10月前

|

SQL 存储大数据

|

博文

Flink 基础详解：大数据处理的强大引擎

Apache Flink 是一个分布式流批一体化的开源平台，专为大规模数据处理设计。它支持实时流处理和批处理，具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象，简化大数据应用开发，并在流处理方面表现卓越，广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client，支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制，如检查点和 Savepoint，确保作业的可靠性和一致性。此外，Flink 支持 SQL 查询和 CDC 功能，实现实时数据捕获与同步，广泛应用于数据仓库和实时数据分析领域。

6174 32 33

来自：实时计算 Flink 版块

啦啦啦191

|

26天前

|

Windows

|

博文

Microsoft Activation Scripts v3.6 （MAS）激活工具安装教程!中文汉化版(激活工具)

Microsoft Activation Scripts v3.6（MAS）是一款开源、轻量级的批量激活工具，支持HWID、KMS38、TSforge等多种方式，可离线永久激活Win7至Win11及Office全系列。兼容旧系统如Vista，操作简单，无误报风险。

1180 0 1

文刀禾乃

|

数据可视化数据库关系型数据库

|

博文

千呼万唤始出来——DataV私有部署功能

私有部署功能上线啦！

4199 0 0

来自：数据可视化DataV 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

学不动？Apache Member 教你评估实用技术的思路

Netflix：如何打造开放协作的实时 ETL 平台？

HIVE TopN shuffle 原理

SparkSQL实践与优化

【若依Java】15分钟玩转若依二次开发，新手小白半小时实现前后端分离项目，springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

【最佳实践】DTS轻松实现RDS for MySQL与阿里云Elasticsearch数据实时同步

混合循环发电场输出电力预测

这场大数据+AI Meetup，一次性安排了大数据当下热门话题

Flink on Zeppelin (4) - 机器学习篇

Spark在MaxCompute的运行方式

使用spark-redis组件访问云数据库Redis

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

HDFS Federation简介

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

【MaxCompute季报】MaxCompute新功能发布 2019Q2

商品推荐引擎实验版

Kerberos使用OpenLDAP作为backend

Apache Spark中国技术交流群升级到企业群啦！！！！！！

Flink kafka source & sink 源码解析

重磅！Apache Flink 1.11 功能前瞻抢先看！

Flink 新场景：OLAP 引擎性能优化及应用案例

钉钉群直播【Structured Steaming的进阶与实践】

都在这儿了！5月 Flink 社区发版、更新汇总

Spark Relational Cache实现亚秒级响应的交互式分析

心脏病预测案例_1480

国内最大的MCP中文社区来了，4000多个服务等你体验

GBDT_LR

心脏病预测案例_1480

揭秘！开源软件背后的神秘组织

CTR_GBDT_LR

Flink 1.10 SQL、HiveCatalog 与事件时间整合示例

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Flink Weekly | 每周社区动态更新-20200520

数仓系列 | Flink 窗口的应用与实现

test_multiEvaluation

原来GNN这么好上手，OMG！用它！

Flink 与 Hive 的磨合期

深度学习入门01-数学概念介绍

8月28日社区直播【Spark Streaming SQL流式处理简介】

【推荐算法】商品推荐_2587

predict_with_binary_class_log

test_multiEvaluation

【推荐算法】商品推荐_2587

节日快乐！！！

E-MapReduce产品探秘，扩展开源生态云上的能力

Flink 1.10 Container 环境实战

Flink Weekly | 每周社区动态更新-20200513

Flink 基础详解：大数据处理的强大引擎

Microsoft Activation Scripts v3.6 （MAS）激活工具安装教程!中文汉化版(激活工具)

千呼万唤始出来——DataV私有部署功能

大数据与机器学习

活跃用户

相关产品