大数据与机器学习-博文-第50页-阿里云开发者社区

阿里云实时计算Flink

|

SQL 存储运维

|

博文

使用 Flink Hudi 构建流式数据湖平台

阿里巴巴技术专家陈玉兆、阿里巴巴开发工程师刘大龙在 FFA 2021 的分享

3840 3 8

来自：实时计算 Flink 版块

亢海鹏

|

机器学习/深度学习存储分布式计算

|

博文

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

阿里云智能研究员林伟：阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考，使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合，这是阿里巴巴最佳实践的宝贵资产，是大数据的新一代架构。

4016 0 0

来自：大数据计算 MaxCompute 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习 Kubernetes

|

博文

官宣｜Apache Flink 1.13.0 正式发布，流处理应用更加简单高效！

Flink 1.13.0 版本让流处理应用的使用像普通应用一样简单和自然，并且让用户可以更好地理解流作业的性能。

4786 0 0

来自：实时计算 Flink 版块

工程师U

|

机器学习/深度学习自然语言处理文字识别

|

博文

算法专家解读 | 开放搜索教育搜题能力和实践

达摩院算法专家--徐光伟（昆卡）聚焦在线教育行业的拍照搜题场景，介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统，从而助力在线教育行业客户掌握更高层次用户体验的获客工具。

2344 0 0

来自：智能搜索推荐版块

阿里云实时计算Flink

|

机器学习/深度学习 SQL 大数据

|

博文

免费下载！Apache Flink 必知必会电子书，轻松收获 Flink 生产环境开发技能

“实时计算”不再只是未来趋势，它已经融入到企业生产的各个环节之中。一线开发同学如何掌握大数据极致算力应用，企业如何全面提升数据服务能力？

30551 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 消息中间件分布式计算

|

博文

流批一体生产应用！Bigo 实时计算平台建设实践

本文由 Bigo 计算平台负责人徐帅分享，主要介绍 Bigo 实时计算平台建设实践的介绍

2776 0 0

来自：实时计算 Flink 版块

dataworks_demo21

|

DataWorks 分布式计算 MaxCompute

|

博文

DataWorks OpenAPI 示例（元数据模块）

DataWorks OpenAPI 示例

5656 0 0

来自：大数据开发治理DataWorks 版块

阿里云实时计算Flink

|

机器学习/深度学习 SQL 人工智能

|

博文

如何基于大数据及AI平台实现业务系统实时化？

后疫情时代的新社会模式及经济形态必将催生出新的商业模式，在线业务及相关应用场景的流量呈现井喷式发展，常规的离线系统及离线机器学习平台已无法满足业务发展要求。

3234 0 0

来自：实时计算 Flink 版块

工程师甲

|

机器学习/深度学习存储运维

|

博文

Elasticsearch 场景化检索及全观测运维介绍

基于Elasticsearch场景化检索及全观测运维解决方案的介绍，内容包括Elasticsearch产品介绍，电商零售分析检索能力与解决方案，以及在线教育全观测运维监控能力与解决方案。

2608 0 0

来自：检索分析服务 Elasticsearch版版块

工程师U

|

监控搜索推荐测试技术

|

博文

“业务指标”衡量电商搜索引擎的优劣

在电商行业中，无论是2B还是2C，最终的业务目的就是交易成单，众所周知搜索服务旨在让消费者能够更快的定位到自己想要的产品，据统计像淘宝这类综合型电商搜索转化交易占整个交易结果的40%以上，垂直类电商的搜索转化更是占整个交易结果的60%以上，所以搜索在电商中的重要性不言而喻，越是拥有海量sku的电商网站，就越依靠搜索，同时对搜索商品的能力要求也就越高。

5802 0 2

来自：智能搜索推荐版块

工程师甲

|

SQL 存储大数据

|

博文

一次有趣的Elasticsearch+矩阵变换聚合实践

Elasticsearch 聚合功能非常丰富，性能也相当不错，特别适合实时聚合分析场景，但在二次聚合上也有明显短板。本项目是一个基于日期维度做预处理的技术方案，以下是结合 Elasticsearch 优缺点扬长避短的一次尝试性实战，非常有意思，希望可以带来一些参考，同时欢迎各种讨论。

3108 0 0

来自：检索分析服务 Elasticsearch版版块

阿里云实时计算Flink

|

Apache 项目管理流计算

|

博文

祝贺！两位 Apache Flink PMC 喜提 Apache Member

目前，国内（华人）近 30 位 Apache Member 中，有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献，不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展，更活跃在多个开源项目，持续为开源社区做贡献。

3188 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

消息中间件 SQL 分布式计算

|

博文

日均万亿条数据如何处理？爱奇艺实时计算平台这样做

本文由爱奇艺大数据服务负责人梁建煌分享，介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台，并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。

3438 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

SQL 分布式计算负载均衡

|

博文

Hive性能优化（全面）

Hadoop的计算框架特性下的HIve有效的优化手段

4803 0 0

来自：开源大数据平台 E-MapReduce 版块

傲海

|

机器学习/深度学习自然语言处理算法

|

博文

基于外卖评论的舆情风控

目前许多商家都有线上留言或者评论反馈平台，消费者可以在这些平台上通过留言表达自己对于消费商品的反馈。消费者的反馈包括表扬性的正向反馈，也有一些批评性质的负向反馈。商家需要掌握消费者对于产品的整体舆论取向来判断自己的产品质量是否符合消费者需求，同时了解评论内容可以方便商家分析舆论导向，指导下一步产品研发工作。

2722 0 0

来自：人工智能平台PAI 版块

开源大数据EMR

|

存储缓存分布式计算

|

博文

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

23905 3 5

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

Python API 流计算

|

博文

如何在 Apache Flink 中使用 Python API？

为大家介绍 Flink Python API 的现状及未来规划，主要内容包括：Apache Flink Python API 的前世今生和未来发展；Apache Flink Python API 架构及开发环境搭建；Apache Flink Python API 核心算子介绍及应用。

6279 0 0

来自：实时计算 Flink 版块

隐林

|

存储分布式计算资源调度

|

博文

阿里巴巴飞天大数据架构体系与Hadoop生态系统

先说Hadoop 什么是Hadoop？ Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统，主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算，充分利用集群的威力进行高速运算和存储。

10973 59 60

来自：大数据计算 MaxCompute 版块

云无谓

|

NoSQL Redis 分布式计算

|

博文

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成，Redis使用阿里云数据库Redis

2526 0 0

来自：开源大数据平台 E-MapReduce 版块

继盛

|

分布式计算 DataWorks MaxCompute

|

博文

PyODPS DataFrame 的代码在哪里跑

在使用 PyODPS DataFrame 编写数据应用时，尽管编写的是同一个脚本文件，但其中的代码会在不同位置执行，这可能导致一些无法预期的问题，本文介绍当出现相关问题时，如何确定代码在何处执行，以及提供部分场景下解决问题的方法。

6240 0 0

来自：大数据计算 MaxCompute 版块

寒沙牧

|

SQL 资源调度测试技术

|

博文

YARN ResourceManager重启作业保留机制

YARN可以通过相关配置支持ResourceManager重启过程中，不影响正在运行的作业，即重启后，作业还能正常继续运行直到结束

7864 0 0

来自：开源大数据平台 E-MapReduce 版块

曾安祥仁重

|

机器学习/深度学习分布式计算算法

|

博文

凑单算法——基于Graph Embedding的bundle mining

本文描述如何在凑单场景突破找相似、发现惊喜的同时做到成交翻倍，实现体验和数据上的双赢。

16097 0 5

来自：智能搜索推荐版块

振禹

|

SQL 分布式计算 Java

|

博文

MaxCompute - ODPS重装上阵　第二弹 - 新的基本数据类型与内建函数

MaxCompute（原ODPS）是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外，也致力于提升SQL语言的用户体验和表达能力，提高广大ODPS开发者的生产力。

7386 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

大数据云计算

|

博文

阿里云数加合作伙伴-袋鼠云获A轮融资，成立一年半获三轮投资超亿元

创投市场再次风起。2017年7月，袋鼠云宣布，获得来自戈壁创投主投、元璟资本跟投的A轮融资，相对于当前冷淡的投资市场，此举也再次引发了行业对大数据、云计算技术创新企业的关注。据袋鼠云CEO陈吉平（花名：拖雷）介绍，获得的资金将投入到三个方面：数据智能产品研发、高端数据智能人才的引进和培养、袋鼠云品牌打造和市场推广。

7069 0 2

来自：大数据计算 MaxCompute 版块

李寻弥-27988

|

数据可视化

|

博文

DataV接入ECharts图表库可视化利器强强联手

两个扛把子级产品的结合，而且文末有彩蛋。

25348 0 3

来自：数据可视化DataV 版块

祎休

|

SQL 分布式计算大数据

|

博文

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

本手册为云栖大会Workshop《云计算·大数据：海量日志数据分析与应用》的《社交数据分析：好友推荐》篇而准备。主要阐述如何在大数据开发套件中使用MR实现好友推荐。

7063 0 3

来自：大数据计算 MaxCompute 版块

yq传送门

|

运维分布式计算资源调度

|

博文

走近华佗，解析自动化故障处理系统背后的秘密

集群医生华佗是集群自动化故障监测和处理系统，是平台和运维对接的关键系统，它承担了飞天平台自动化故障处理系统的任务。如何能又快又好地发现和解决线上故障呢？本文为您解析自动化故障处理系统背后的秘密。一起来了解华佗是如何提升集群的故障发现、处理的效率和准确性，解放运维人员，提高飞天稳定性和可靠性的。

5987 0 1

来自：大数据计算 MaxCompute 版块

游客nm26iwlwhn432

|

3天前

|

存储 JavaScript 关系型数据库

|

博文

nodejs连接mysql

创建config文件夹存放配置，实现解耦。通过.env文件管理数据库连接信息，db.js使用mysql2和dotenv创建连接池并测试连通性，确保应用稳定连接数据库。

13 0 0

Echo_Wish

|

8天前

|

机器学习/深度学习数据采集运维

|

博文

103 8 8

探索云世界

|

1月前

|

人工智能运维 Serverless

|

博文

Elasticsearch 8.17 智能检索升级全攻略

Elasticsearch 作为一款强大的搜索与分析引擎，支持传统检索、AI 搜索（如语义检索、RAG、多模态检索）及智能运维场景，结合阿里云AI搜索开放平台提供一站式解决方案。本文介绍了最新发布的 Elasticsearch 8.17 检索增强型应用在性能和功能上的特性。同时本文介绍了利用容量规划工具优化资源分配，特别适合 AI 应用和高弹性场景，为用户提供高性能、低成本、易扩展的搜索服务。

195 8 8

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

1月前

|

JSON 数据挖掘 API

|

博文

闲鱼商品列表API秘籍！轻松获取列表数据

闲鱼商品列表API（Goodfish.item_list）基于RESTful架构，支持GET请求，返回JSON格式数据，可获取商品标题、价格、图片、卖家信息等，适用于电商比价与数据分析，助力开发者高效集成闲鱼商品数据。

151 1 1

Echo_Wish

|

1月前

|

存储数据采集人工智能

|

博文

当数据湖遇上数据仓库：不是对立，而是走向“湖仓一体”的未来

235 11 11

Echo_Wish

|

1月前

|

人工智能自然语言处理物联网

|

博文

从“通用AI”到“懂我AI”：企业微调专属智能助手实战指南

197 9 9

灵杰开发者

|

1月前

|

人工智能运维监控

|

博文

【2025云栖大会】AI 搜索引擎如何驱动亿级物流：货拉拉 x 阿里云 Elasticsearch

2025云栖大会 AI搜索与向量化模型专场上，拉拉 Elasticsearch技术负责人——陈敏华先生分享了 Elasticsearch 在全球化高并发业务场景下的深度实践，以及在迁移至阿里云 Elasticsearch Serverless 后的显著收益。货拉拉的案例为业界提供了可复制、可落地的技术范本。

252 4 4

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

1月前

|

JSON 监控数据挖掘

|

博文

从零到一：淘宝店铺订单API接入全流程指南

淘宝订单API通过订单号获取完整交易数据，支持实时查询买家信息、商品明细及物流状态，适用于订单同步、物流监控与数据分析。采用RESTful设计，JSON格式响应，安全高效，助力电商自动化运营。

270 4 4

蛋先生DX

|

2月前

|

机器学习/深度学习人工智能索引

|

博文

RAG 切片利器 LumberChunker 是如何智能地把文档切割成 LLM 爱吃的块

RAG 里的文档应该怎么切割比较好呢？按固定的字符数或词数？按句？按段落？加个重叠窗口？还是 ...

192 1 1

计算机程序设计的泡泡Y2013070224

|

3月前

|

JavaScript 安全 Java

|

博文

基于springboot的摄影器材租赁回收系统

本系统基于Java、Spring Boot与Vue技术，构建摄影器材租赁回收平台，解决市场不规范、资源浪费等问题。支持在线预约、信用免押、智能评估等功能，提升器材利用率，降低用户成本，推动行业绿色可持续发展。

321 10 10

啦啦啦191

|

3月前

|

缓存 Java API

|

博文

2025 年小白也能轻松上手的 Java 最新学习路线与实操指南深度剖析

2025年Java最新学习路线与实操指南，涵盖基础语法、JVM调优、Spring Boot 3.x框架、微服务架构及容器化部署，结合实操案例，助你快速掌握企业级Java开发技能。

444 0 0

邂逅惊鸿

|

3月前

|

运维安全 Linux

|

博文

【清爽加速】Windows 11 Pro 24H2-Emmy精简系统

“清爽加速”Windows 11 Pro 24H2 针对老旧或低配设备，通过精简系统、优化服务与简化装机流程，降低资源占用，提升运行流畅度，兼顾安全性与稳定性，让老设备也能轻松应对日常办公与轻度娱乐需求。

220 1 1

计算机程序设计的泡泡Y2013070224

|

3月前

|

数据可视化搜索推荐大数据

|

博文

基于python大数据的北京旅游可视化及分析系统

本文深入探讨智慧旅游系统的背景、意义及研究现状，分析其在旅游业中的作用与发展潜力，介绍平台架构、技术创新、数据挖掘与服务优化等核心内容，并展示系统实现界面。

252 3 3

Deephub

|

4月前

|

机器学习/深度学习数据采集运维

|

博文

匹配网络处理不平衡数据集的6种优化策略：有效提升分类准确率

匹配网络是一种基于度量的元学习方法，通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数（如余弦相似度），并引入注意力机制对特征维度加权，提升对关键特征的关注能力，尤其在处理复杂或噪声数据时表现出更强的泛化性。

259 6 6

Deephub

|

4月前

|

PyTorch 算法框架/工具异构计算

|

博文

PyTorch 2.0性能优化实战：4种常见代码错误严重拖慢模型

我们将深入探讨图中断（graph breaks）和多图问题对性能的负面影响，并分析PyTorch模型开发中应当避免的常见错误模式。

310 9 10

Echo_Wish

|

4月前

|

机器学习/深度学习监控算法

|

博文

当手环懂你心事：未来的可穿戴情感分析设备

262 4 4

啦啦啦191

|

4月前

|

Web App开发 Rust 前端开发

|

博文

WebAssembly 与 Java 结合实操指南基于最新工具链的跨语言开发实践教程

WebAssembly与Java集成实操指南本文基于2024年最新工具链（GraalVM、TeaVM、Wasmtime），提供两种Java与Wasm结合的实践方案： Java调用Wasm模块：通过Rust编写高性能加密算法并编译为Wasm，在Java中利用Wasmtime运行时进行调用，实现6.7倍的性能提升。重点演示了Wasm内存模型操作和指针传递机制。 Java编译为Wasm：使用TeaVM将Java科学计算代码编译为Wasm模块，供浏览器前端直接调用。包含完整的Maven配置和前端调用示例，特别适合

426 0 0

Echo_Wish

|

4月前

|

算法安全量子技术

|

博文

“RSA还能撑多久？”——聊聊量子计算下密码学的危与机

271 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

使用 Flink Hudi 构建流式数据湖平台

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

官宣｜Apache Flink 1.13.0 正式发布，流处理应用更加简单高效！

算法专家解读 | 开放搜索教育搜题能力和实践

免费下载！Apache Flink 必知必会电子书， 轻松收获 Flink 生产环境开发技能

流批一体生产应用！Bigo 实时计算平台建设实践

DataWorks OpenAPI 示例（元数据模块）

如何基于大数据及AI平台实现业务系统实时化？

Elasticsearch 场景化检索及全观测运维介绍

“业务指标”衡量电商搜索引擎的优劣

一次有趣的Elasticsearch+矩阵变换聚合实践

祝贺！两位 Apache Flink PMC 喜提 Apache Member

日均万亿条数据如何处理？爱奇艺实时计算平台这样做

Hive性能优化（全面）

基于外卖评论的舆情风控

JindoFS概述：云原生的大数据计算存储分离方案

如何在 Apache Flink 中使用 Python API？

阿里巴巴飞天大数据架构体系与Hadoop生态系统

使用spark-redis组件访问云数据库Redis

PyODPS DataFrame 的代码在哪里跑

YARN ResourceManager重启作业保留机制

凑单算法——基于Graph Embedding的bundle mining

MaxCompute - ODPS重装上阵 第二弹 - 新的基本数据类型与内建函数

阿里云数加合作伙伴-袋鼠云获A轮融资，成立一年半获三轮投资超亿元

DataV接入ECharts图表库 可视化利器强强联手

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

走近华佗，解析自动化故障处理系统背后的秘密

nodejs连接mysql

宕机不是突然的，是你没提前看见 —— 聊聊 IT 事件预测，机器学习如何把事故掐死在摇篮里

1688买家/卖家店铺订单API接口指南

实验报告：让AI自动生成采集代码，会踩哪些坑？

淘宝天猫API调用指南：获取店铺所有商品数据

Ansys Electronics 全流程电磁仿真降本增效，附安装包

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

Elasticsearch 8.17 智能检索升级全攻略

闲鱼商品列表API秘籍！轻松获取列表数据

当数据湖遇上数据仓库：不是对立，而是走向“湖仓一体”的未来

从“通用AI”到“懂我AI”：企业微调专属智能助手实战指南

【2025云栖大会】AI 搜索引擎如何驱动亿级物流：货拉拉 x 阿里云 Elasticsearch

从零到一：淘宝店铺订单API接入全流程指南

RAG 切片利器 LumberChunker 是如何智能地把文档切割成 LLM 爱吃的块

基于springboot的摄影器材租赁回收系统

2025 年小白也能轻松上手的 Java 最新学习路线与实操指南深度剖析

【清爽加速】Windows 11 Pro 24H2-Emmy精简系统

基于python大数据的北京旅游可视化及分析系统

匹配网络处理不平衡数据集的6种优化策略：有效提升分类准确率

PyTorch 2.0性能优化实战：4种常见代码错误严重拖慢模型

当手环懂你心事：未来的可穿戴情感分析设备

WebAssembly 与 Java 结合实操指南 基于最新工具链的跨语言开发实践教程

“RSA还能撑多久？”——聊聊量子计算下密码学的危与机

大数据与机器学习

活跃用户

相关产品

免费下载！Apache Flink 必知必会电子书，轻松收获 Flink 生产环境开发技能

MaxCompute - ODPS重装上阵　第二弹 - 新的基本数据类型与内建函数

DataV接入ECharts图表库可视化利器强强联手

WebAssembly 与 Java 结合实操指南基于最新工具链的跨语言开发实践教程