大数据与机器学习-博文-第49页-阿里云开发者社区

阿里云实时计算Flink

|

SQL 算法 API

|

博文

Flink 流批一体的实践与探索

作为 Dataflow 模型的最早采用者之一，Apache Flink 在流批一体特性的完成度上在开源项目中是十分领先的。本文将基于社区资料和笔者的经验，介绍 Flink 目前（1.10）流批一体的现状以及未来的发展规划。

6419 0 1

来自：实时计算 Flink 版块

Jacker

|

机器学习/深度学习算法搜索推荐

|

博文

打击黑灰产的利器 —— 图神经网络（GNN）

阿里巴巴安全部数据与算法团队一直致力于与黑灰产进行对抗，保障用户在淘宝、天猫、闲鱼等平台上的使用体验和切身利益。面对狡猾的黑灰产，我们研究出了一系列算法武器，图神经网络（GNN）是其中重要的防控技术。本文结合阿里开源GNN框架Graph-Learn（https://github.com/alibaba/graph-learn）进行介绍。

4185 1 1

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

消息中间件 SQL 分布式计算

|

博文

日均万亿条数据如何处理？爱奇艺实时计算平台这样做

本文由爱奇艺大数据服务负责人梁建煌分享，介绍爱奇艺如何基于 Apache Flink 技术打造实时计算平台，并通过业务应用案例分享帮助用户了解 Apache Flink 的技术特点及应用场景。

3438 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 消息中间件运维

|

博文

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

目前网易流计算规模已经达到了一千多个任务，2 万多个 vcores 以及 80 多 T 的内存，网易流计算覆盖了绝大多数场景，包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

2446 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算 SQL HIVE

|

博文

小红书如何实现高效推荐？解密背后的大数据计算平台架构

小红书作为生活分享类社区，目前有8500万用户，年同比增长为300%，大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一，本文主要分享在推荐业务场景中小红书的实时计算应用。

9533 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

流计算存储调度

|

博文

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

本次的分享包括以下三个部分： 1. 介绍 Flink 在快手的应用场景以及目前规模； 2. 介绍 Flink 在落地过程的技术演进过程； 3. 讨论 Flink 在快手的未来计划。

5097 0 0

来自：实时计算 Flink 版块

阿里云E-MapReduce团队

|

存储机器学习/深度学习分布式计算

|

博文

背景熟悉大数据的人应该都知道，HDFS 是一个分布式文件系统，它是基于谷歌的 GFS 思路实现的开源系统，它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的，如下：从上面可以看出 HDFS 的架构其实大致可以分为两层： Namespace：由目录，文件和数据块组成，支持常见的文件系统操作，例如创建，删除，修改和列出文件和目录。

3598 0 0

来自：开源大数据平台 E-MapReduce 版块

海清

|

SQL

|

博文

MaxCompute 费用暴涨之新增SQL分区裁剪失败

现象：因业务需求新增了SQL任务，这SQL扫描的表为分区表，且SQL条件里表只指定了一个分区，按指定的分区来看数据量并不大，但是SQL的费用非常高。费用比预想的结果相差几倍甚至10倍以上。若只知道总体费用暴涨，但是没明确是什么任务暴涨，可以可以参考查看账单详情-使用记录文档，找出费用异常的记录。

3846 0 0

来自：大数据计算 MaxCompute 版块

jaredguo

|

新零售机器学习/深度学习算法

|

博文

十年磨一剑，阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

2018年9月21～22日，在以“驱动数字科技”为主题的云栖大会上，阿里巴巴搜索事业部特别推出了“搜索推荐专场”，“推荐与搜索引擎AI·OS专场”，深度参与了这场科技盛宴。阿里巴巴推荐与搜索引擎平台支持了包括淘宝、天猫、菜鸟、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务，引导成交占据了集团GMV的绝大部分份额。

7580 0 0

来自：智能搜索推荐版块

阿里云实时计算Flink

|

SQL API 双11

|

博文

实时计算 Flink SQL 核心功能解密

Flink SQL 是于2017年7月开始面向集团开放流计算服务的。虽然是一个非常年轻的产品，但是到双11期间已经支撑了数千个作业，在双11期间，Blink 作业的处理峰值达到了5+亿每秒，而其中仅 Flink SQL 作业的处理总峰值就达到了3亿/秒。

19918 1 3

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 前端开发数据库

|

博文

传统的运维人员通常只面对几十或者上百台的服务器，但在大规模分布式集群中，运维人员面临工作任务明显不同。本文分别阐述服务器数量激增，要求提升全局掌控能力，如何实现系统的自我保护和自动化恢复，大规模与精细化平衡，以及需要开发和运维更加紧密合作等方面，通过对真实数据进行分析和预测，将判断失误概率降到最低。

6464 0 0

来自：大数据计算 MaxCompute 版块

Echo_Wish

|

13天前

|

监控安全 API

|

博文

安全也能“订阅”？SECaaS 的未来，到底靠不靠谱？

70 4 4

刘大猫.

|

13天前

|

资源调度前端开发小程序

|

博文

前端UI框架介绍mpvue WeUI Express Koa NPM YARN

166 108 112

Echo_Wish

|

14天前

|

算法安全量子技术

|

博文

量子来了，RSA要凉？聊聊后量子加密的未来与现实（含代码！）

103 11 11

Echo_Wish

|

17天前

|

分布式计算资源调度运维

|

博文

135 20 20

游客vv4u4wyick5ti

|

27天前

|

SQL 人工智能自然语言处理

|

博文

AI 数据分析如何保障准确性？构建可信数据基础成为关键

NoETL 指标语义层的引入，将智能问数从“概率游戏”拉回到“工程科学”

135 1 1

winx_19970108018

|

27天前

|

监控供应链 API

|

博文

1688商品详情API完整指南

1688商品详情API是阿里巴巴B2B平台提供的数据接口，支持获取商品ID、标题、图片、价格、库存、销量等核心信息。通过HTTP请求与AppKey认证，开发者可批量获取数据，实现商品同步、价格监控与库存管理，助力企业自动化运营，提升电商效率。

109 3 3

baujjaps

|

1月前

|

人工智能自然语言处理供应链

|

博文

低代码开发启蒙教程

低代码通过拖拽组件与可视化配置快速构建应用，支持数据编排、流程设计与多端发布，适用于OA系统、智能客服等场景，结合少量代码可扩展复杂功能，提升开发效率80%。

177 1 1

来自：数据可视化DataV 版块

winx_19970108018

|

1月前

|

JSON 监控 API

|

博文

京东商品列表API实战：关键词搜索与数据获取全指南

京东商品列表API是京东开放平台的核心接口，支持通过关键词搜索获取商品数据，适用于电商分析、竞品监控等场景。具备分类筛选、价格区间、多维度排序和分页功能，采用HTTPS请求，返回JSON格式数据，包含商品ID、名称、价格、销量等信息，支持高并发与实时更新。

150 2 2

AI未闻花名

|

1月前

|

数据采集人工智能缓存

|

博文

构建AI智能体：十一、语义分析Gensim — 从文本处理到语义理解的奇妙之旅

Gensim是Python中强大的自然语言处理库，擅长从大量中文文本中自动提取主题、生成词向量并计算文档相似度。它支持LDA、Word2Vec等模型，结合jieba分词可有效实现文本预处理、主题建模与语义分析，适用于新闻分类、信息检索等任务，高效且易于扩展。

293 17 17

灵杰开发者

|

2月前

|

人工智能运维监控

|

博文

Flink 智能调优：从人工运维到自动化的实践之路

本文由阿里云Flink产品专家黄睿撰写，基于平台实践经验，深入解析流计算作业资源调优难题。针对人工调优效率低、业务波动影响大等挑战，介绍Flink自动调优架构设计，涵盖监控、定时、智能三种模式，并融合混合计费实现成本优化。展望未来AI化方向，推动运维智能化升级。

609 7 7

来自：实时计算 Flink 版块

Deephub

|

2月前

|

人工智能自然语言处理安全

|

博文

氛围编程陷阱：为什么AI生成代码正在制造大量"伪开发者"

AI兴起催生“氛围编程”——用自然语言生成代码，看似高效实则陷阱。它让人跳过编程基本功，沦为只会提示、不懂原理的“中间商”。真实案例显示，此类项目易崩溃、难维护，安全漏洞频出。AI是技能倍增器，非替代品；真正强大的开发者，永远是那些基础扎实、能独立解决问题的人。

243 11 11

八进智

|

2月前

|

Kubernetes Cloud Native Go

|

博文

Kubeflow-KServe-架构学习指南

KServe是基于Kubernetes的生产级AI推理平台，支持多框架模型部署与管理。本指南从架构解析、代码结构到实战部署，系统讲解其核心组件如InferenceService、控制器模式及与Knative、Istio集成原理，并提供学习路径与贡献指南，助你快速掌握云原生AI服务技术。

547 139 139

Echo_Wish

|

3月前

|

机器学习/深度学习传感器分布式计算

|

博文

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

307 14 14

Echo_Wish

|

3月前

|

传感器机器学习/深度学习人工智能

|

博文

当AI遇上智慧能源：边缘计算才是“节能王炸组合”

352 13 13

Deephub

|

3月前

|

机器学习/深度学习测试技术决策智能

|

博文

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

SAPO（Swarm Sampling Policy Optimization）提出去中心化异步强化学习框架，通过节点间共享rollouts提升大模型后训练效率。实验显示，在数千节点上可实现94%回报提升，尤其助力中等规模模型突破性能瓶颈。

209 0 0

计算机程序设计的泡泡Y2013070224

|

3月前

|

数据可视化大数据数据挖掘

|

博文

基于python大数据的招聘数据可视化分析系统

本系统基于Python开发，整合多渠道招聘数据，利用数据分析与可视化技术，助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理，提升招聘效率与人才管理水平，推动人力资源管理数字化转型。

283 0 0

计算机程序设计的泡泡Y2013070224

|

3月前

|

机器学习/深度学习搜索推荐算法

|

博文

基于深度学习的音乐推荐系统

本文探讨了信息过载背景下推荐系统的发展与应用，重点研究基于卷积神经网络的音乐推荐系统设计与实现。内容涵盖推荐系统的发展历程、技术架构及在音乐领域的应用，介绍了系统开发中使用的Python、MySQL与B/S结构等关键技术，并提出了通过输入文字实现音乐推荐的解决方案，旨在提升用户个性化音乐获取效率。

218 1 1

奔跑的数据

|

3月前

|

数据采集数据库索引

|

博文

新闻网站的数据采集与更新思路

该方案设计了一个跨站点的增量更新引擎，用于高效采集央视新闻、中国新闻网和环球网等多源新闻数据。通过代理IP和内容哈希签名技术，实现新闻的新增与更新检测，大幅降低冗余抓取和带宽消耗。实验表明，该方法在多源新闻采集中具备高效性和实用性，可拓展为行业级舆情雷达系统，支持事件追踪与趋势分析。

198 2 2

蒋星熠Jaxonic

|

4月前

|

消息中间件存储数据采集

|

博文

Apache InLong：构建10万亿级数据管道的全场景集成框架

Apache InLong（应龙）是一站式、全场景海量数据集成框架，支持数据接入、同步与订阅，具备自动、安全、可靠和高性能的数据传输能力。源自腾讯大数据团队，现为 Apache 顶级项目，广泛应用于广告、支付、社交等多个领域，助力企业构建高效数据分析与应用体系。

375 0 0

灵杰开发者

|

5月前

|

存储 SQL 测试技术

|

博文

抖音集团基于Paimon的流式数据湖应用实践

本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享，围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化，以及在长周期指标计算和大流量场景下的落地实践经验。

580 0 0

来自：实时计算 Flink 版块

青云交（Java大数据AI云原生Python）

|

5月前

|

机器学习/深度学习存储 Java

|

博文

Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用（190）

本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析，开发者可深入洞察玩家行为特征，构建个性化运营策略。同时，利用回归模型优化游戏数值与付费机制，提升游戏公平性与用户体验。

226 0 0

青云交（Java大数据AI云原生Python）

|

5月前

|

传感器机器学习/深度学习算法

|

博文

Java 大视界 -- Java 大数据在智能农业温室环境调控与作物生长模型构建中的应用（189）

本文探讨了Java大数据在智能农业温室环境调控与作物生长模型构建中的关键应用。通过高效采集、传输与处理温室环境数据，结合机器学习算法，实现温度、湿度、光照等参数的智能调控，提升作物产量与品质。同时，融合多源数据构建精准作物生长模型，助力农业智能化、精细化发展，推动农业现代化进程。

187 0 0

啦啦啦191

|

5月前

|

消息中间件监控 Java

|

博文

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

本文介绍了如何使用Spring Boot 3、Jakarta Mail、MailHog及响应式编程技术构建高效的Java邮件发送系统，涵盖环境搭建、异步发送、模板渲染、测试与生产配置，以及性能优化方案，助你实现现代化邮件功能。

259 0 0

啦啦啦191

|

5月前

|

存储安全 Java

|

博文

Java 学习路线 35 掌握 List 集合从入门到精通的 List 集合核心知识

本文详细解析Java中List集合的原理、常用实现类（如ArrayList、LinkedList）、核心方法及遍历方式，并结合数据去重、排序等实际应用场景，帮助开发者掌握List在不同业务场景下的高效使用，提升Java编程能力。

424 0 0

winx_19970108018

|

5月前

|

测试技术 API 开发者

|

博文

淘宝关键词搜索商品列表API接入指南（含Python示例）

淘宝关键词搜索商品列表API是淘宝开放平台的核心接口，支持通过关键词检索商品，适用于比价、选品、市场分析等场景。接口提供丰富的筛选与排序功能，返回结构化数据，含商品ID、标题、价格、销量等信息。开发者可使用Python调用，需注意频率限制与错误处理，建议先在沙箱环境测试。

281 6 7

奔跑的数据

|

5月前

|

数据采集人工智能数据可视化

|

博文

打造企业级调度系统的最佳实践---以百度热搜关键词为例

本教程详解如何构建自动化分析百度热搜关键词的系统，涵盖代理IP、多线程、任务调度等核心技术，助你打造高效稳定的数据采集引擎。

217 0 0

啦啦啦191

|

5月前

|

Java 编译器数据安全/隐私保护

|

博文

Java 大学期末考试真题与答案含知识点总结重难点归纳及题库汇总 Java 期末备考资料

本文汇总了Java大学期末考试相关资料，包含真题与答案、知识点总结、重难点归纳及题库，涵盖Java基础、面向对象编程、异常处理、IO流等内容，并提供完整代码示例与技术方案，助你高效复习备考。

328 3 3

游客wkqymr43luqiu

|

5月前

|

SQL JSON 分布式计算

|

博文

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

429 2 3

Echo_Wish

|

6月前

|

人工智能自然语言处理 Kubernetes

|

博文

导演、编剧、特效师都要失业？生成式AI正在悄悄重塑影视工业

202 0 0

Deephub

|

6月前

|

机器学习/深度学习数据可视化算法

|

博文

数据分布不明确？5个方法识别数据分布，快速找到数据的真实规律

本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节，分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手，介绍如何通过Python代码实现分布特征的初步观察，并系统化地讲解参数估计、统计检验及distfit库的应用。同时，针对离散数据、非参数方法和Bootstrap验证等专题展开讨论，强调业务逻辑与统计结果结合的重要性。最后指出，正确识别分布有助于异常检测、数据生成及预测分析等领域，为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性，重视对数据本质的理解。

549 3 3

IT小码

|

6月前

|

博文

HarmonyOS实战：腾讯IM之消息删除、撤回和重发（三)

本文详细介绍了鸿蒙 IM 聊天中实现消息撤回、删除和重发功能的方法。消息撤回支持在 120 秒内召回自己发送的消息，通过 `revokeMessage` 方法实现；消息删除使用 `deleteMessage` 方法清除本地与云端记录；消息重发则先删除失败消息再重新发送，并处理用户被拉黑的异常情况。结合状态管理，可轻松实现类似微信的功能，建议点赞收藏并动手实践！

350 3 3

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

Flink 流批一体的实践与探索

打击黑灰产的利器 —— 图神经网络（GNN）

日均万亿条数据如何处理？爱奇艺实时计算平台这样做

覆盖电商、推荐、ETL、风控等多场景，网易的实时计算平台做了啥？

小红书如何实现高效推荐？解密背后的大数据计算平台架构

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

HDFS Federation简介

MaxCompute 费用暴涨之新增SQL分区裁剪失败

十年磨一剑，阿里巴巴推荐与搜索深度学习服务体系AI·OS在云栖大会正式亮相

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 -- Aysnc I/O

HAS-插件式Kerberos认证框架

大数据环境下该如何优雅地设计数据分层

大规模数据的分布式机器学习平台

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《社交数据分析：好友推荐》篇

飞天5K实战经验：大规模分布式系统运维实践

安全也能“订阅”？SECaaS 的未来，到底靠不靠谱？

前端UI框架介绍mpvue WeUI Express Koa NPM YARN

量子来了，RSA要凉？聊聊后量子加密的未来与现实（含代码！）

Spark 批处理调优这点事：资源怎么要、Shuffle 怎么省、序列化怎么选？我用这些年踩过的坑告诉你

金融对话AI：伦敦证券交易所集团携手OpenAI重塑市场数据分析

闲鱼商品详情API完整指南

脏数据不脏心：大数据平台的数据质量（DQ）入门实战与自动修复心法

AI 数据分析如何保障准确性？构建可信数据基础成为关键

1688商品详情API完整指南

低代码开发启蒙教程

京东商品列表API实战：关键词搜索与数据获取全指南

构建AI智能体：十一、语义分析Gensim — 从文本处理到语义理解的奇妙之旅

Flink 智能调优：从人工运维到自动化的实践之路

氛围编程陷阱：为什么AI生成代码正在制造大量"伪开发者"

Kubeflow-KServe-架构学习指南

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

当AI遇上智慧能源：边缘计算才是“节能王炸组合”

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

基于python大数据的招聘数据可视化分析系统

基于深度学习的音乐推荐系统

新闻网站的数据采集与更新思路

Apache InLong：构建10万亿级数据管道的全场景集成框架

抖音集团基于Paimon的流式数据湖应用实践

Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用（190）

Java 大视界 -- Java 大数据在智能农业温室环境调控与作物生长模型构建中的应用（189）

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

Java 学习路线 35 掌握 List 集合从入门到精通的 List 集合核心知识

淘宝关键词搜索商品列表API接入指南（含Python示例）

打造企业级调度系统的最佳实践---以百度热搜关键词为例

Java 大学期末考试真题与答案 含知识点总结 重难点归纳及题库汇总 Java 期末备考资料

Spark SQL架构及高级用法

导演、编剧、特效师都要失业？生成式AI正在悄悄重塑影视工业

数据分布不明确？5个方法识别数据分布，快速找到数据的真实规律

HarmonyOS实战：腾讯IM之消息删除、撤回和重发（三)

大数据与机器学习

活跃用户

相关产品

Java 大学期末考试真题与答案含知识点总结重难点归纳及题库汇总 Java 期末备考资料