大数据与机器学习-博文-第7页-阿里云开发者社区

一颗小树x

|

编解码自然语言处理并行计算

|

博文

【经典论文解读】YOLACT 实例分割（YOLOv5、YOLOv8实例分割的基础）

YOLACT是经典的单阶段、实时、实例分割方法，在YOLOv5和YOLOv8中的实例分割，也是基于 YOLACT实现的，有必要理解一下它的模型结构和设计思路。

3693 0 0

工程师U

|

人工智能自然语言处理算法

|

博文

电商行业智能搜索技术原理全解析

对于电商平台来说，智能搜索功能是至关重要的。本文剖析电商行业的搜索专属特点和业务需求，并介绍开放搜索提供的【电商行业模板】智能搜索能力，希望带给企业更多提升业务转化的思路和解决方案~

5424 1 4

来自：智能搜索推荐版块

工程师甲

|

机器学习/深度学习存储运维

|

博文

Elasticsearch 既是搜索引擎又是数据库？真的有那么全能吗？

经常遇到很多朋友询问，如何学好 Elasticsearch？这个问题本质上很不好回答，但我一直又很想好好回答，所以本文就以我个人的经验视角，跟大家探讨一下如何正确的拥抱 Elasticsearch。

13739 2 2

来自：检索分析服务 Elasticsearch版版块

Echo_Wish

|

2天前

|

人工智能自然语言处理机器人

|

博文

中小企业也能玩转大模型：把AI搬到自己机房里不是梦

61 3 3

计算机程序设计Y2013070224

|

2天前

|

数据可视化搜索推荐大数据

|

博文

本研究聚焦基于Python大数据的旅游可视化与推荐系统，利用Python在数据处理、分析和可视化方面的优势，结合Django框架与MySQL数据库，构建高效、个性化的旅游推荐平台。通过爬取多源旅游数据，运用机器学习算法挖掘用户偏好，实现精准推荐；借助Matplotlib、Seaborn等工具进行数据可视化，直观展示景点分布、客流趋势等信息。系统不仅提升游客决策效率与体验，也助力旅游企业优化产品设计与营销策略，推动行业数字化转型与智能化发展。

56 11 11

delacroix_xu-15509

|

2月前

|

并行计算数据格式异构计算

|

博文

完整教程：从0到1在Windows下训练YOLOv8模型

本文详细介绍在Windows系统下使用YOLOv8训练目标检测模型的完整步骤，涵盖环境配置、数据集准备、模型训练与测试、常见问题解决及GPU加速技巧。提供详细命令与代码示例，并推荐现成数据集与工具，助您高效完成模型训练。

939 13 13

winx_19970108018

|

9月前

|

数据采集 JSON API

|

博文

小红书笔记详情 API 接口（小红书 API 系列）

小红书作为热门生活方式平台，拥有海量用户生成内容。通过其笔记详情接口，开发者可获取指定笔记的完整内容、作者信息及互动数据（点赞、评论、收藏数等），助力内容分析与市场调研。接口采用HTTP GET请求，需提供笔记ID，响应数据为JSON格式。注意小红书有严格反爬虫机制，建议使用代理IP并控制请求频率。

1467 3 3

极客小俊

|

9月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

告别熬夜写代码！VSCode+Cline扩展插件+DeepSeek-V3大模型，让你的编程水平瞬间超越99.9%的人!

逆天改变！VSCode+Cline+DeepSeek-V3，编程界的新王者就是你!

2140 35 35

AI小怪兽

|

机器学习/深度学习数据可视化测试技术

|

博文

YOLO11实战：新颖的多尺度卷积注意力（MSCA）加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点，解决不涨点掉点等问题

本文探讨了创新点在自定义数据集上表现不稳定的问题，分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块，展示了三种不同的改进方案及其效果。实验结果显示，改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置，找到最适合特定数据集的解决方案。

2897 0 0

derek武汉

|

机器学习/深度学习人工智能自然语言处理

|

博文

大模型:人工智能发展的引擎

724 0 0

灵杰开发者

|

2天前

|

人工智能运维 Serverless

|

博文

【2025云栖大会】阿里云发布Elasticsearch Serverless 2.0，重塑AI搜索时代基础设施

2025年9月26日，在杭州云栖大会“AI搜索与向量引擎”分论坛上，阿里云智能集团高级技术专家——贾新禹正式发布 Elasticsearch Serverless 2.0，并首次系统性阐述其技术架构与产品价值。这一全新升级的Serverless解决方案，以“极致弹性、智能核心、AI生态融合”三大技术基石，直面AI搜索时代的工程化挑战，为企业提供一站式构建AI搜索能力的基础设施。

55 4 4

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

11天前

|

存储数据采集搜索推荐

|

博文

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

本文介绍淘宝商品评论爬取技术，涵盖环境配置、接口分析、反爬破解及数据存储。使用Python模拟请求，动态代理与签名绕过风控，结合Flask中转降低封禁风险，实现高效合规的数据采集，适用于竞品分析与用户画像构建。（238字）

155 1 2

Deephub

|

6月前

|

存储机器学习/深度学习人工智能

|

博文

多模态RAG实战指南：完整Python代码实现AI同时理解图片、表格和文本

本文探讨了多模态RAG系统的最优实现方案，通过模态特定处理与后期融合技术，在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块，有效保留结构和关系信息。相比传统方法，该方案显著提升了复杂查询的检索精度（+23%），并支持灵活升级。文章还介绍了查询处理机制与优势对比，为构建高效多模态RAG系统提供了实践指导。

1642 0 0

电力程序小学童

|

博文

【免费资料】IEEE33节点系统参数及拓扑图visio

初学者入门配电网可参考经典的IEEE 33节点系统，此系统在文献中广泛应用。资源包括节点和支路参数的Excel表格及Visio的网络拓扑图，可免费下载。配电网以闭环设计增强灵活性和可靠性，故障恢复涉及网络拓扑约束。提供的MATLAB相关链接探讨了孤岛、重构及故障恢复策略。

3080 0 0

柳明-洪震

|

运维数据可视化算法

|

博文

阿里集团搜索中台TisPlus

阿里集团搜索中台TisPlus 搜索中台的发展从阿里很多技术产品的发展路径来看都遵循着技术驱动、产品驱动、数据驱动三个阶段，那阿里巴巴的搜索技术的发展也基本基于上述的发展路径。

9717 1 1

来自：智能搜索推荐版块

Deephub

|

2月前

|

存储人工智能前端开发

|

博文

AI智能体开发实战：17种核心架构模式详解与Python代码实现

本文系统解析了17种AI智能体设计模式，涵盖反思、工具调用、多智能体协作、思维树、规划执行、集成决策等核心架构，结合LangGraph实现与代码演示，揭示如何通过模式组合构建高效、可靠的大规模AI系统。

380 2 2

灵杰开发者

|

2月前

|

存储人工智能监控

|

博文

淘宝闪购基于Flink&Paimon的Lakehouse生产实践：从实时数仓到湖仓一体化的演进之路

本文整理自淘宝闪购（饿了么）大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享，深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践，涵盖实时数仓发展、技术选型、平台建设及未来展望。

522 0 0

来自：实时计算 Flink 版块

Deephub

|

3月前

|

机器学习/深度学习算法数据可视化

|

博文

近端策略优化算法PPO的核心概念和PyTorch实现详解

本文深入解析了近端策略优化（PPO）算法的核心原理，并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程，涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合，适合希望掌握PPO算法及其实现的读者。

494 2 2

Deephub

|

7月前

|

缓存并行计算 PyTorch

|

博文

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制，特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因，并通过实际案例（如Llama 1B模型训练）展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术，显著提升了内存使用效率，减少了系统调用开销。此外，文章还介绍了高级优化方法，包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

1242 0 0

winx_19970108018

|

8月前

|

人工智能供应链 API

|

博文

反向海淘实战：Pandabuy、Hoobuy、CNFans 代购集运系统搭建真实体验

2025年，反向海淘成为新趋势。CSDN博主耗时2个月，模拟留学生、海外华人等场景，深度体验Pandabuy、Hoobuy、CNFans三大代购平台。Pandabuy极简易用，Hoobuy稳健实用，CNFans技术强大。通过真实案例分析，探讨各平台优劣及未来AI发展趋势，帮助用户避开常见陷阱，选择最适合的购物方案。

1289 1 1

Deephub

|

9月前

|

机器学习/深度学习算法 PyTorch

|

博文

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（RL）是提升大型语言模型（LLM）推理能力的重要手段，尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化（GRPO）方法，在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果，显著增强了数学推理和问题解决能力。GRPO无需价值网络，采用群组采样和相对优势估计，有效解决了传统RL应用于语言模型时的挑战，提升了训练效率和稳定性。实际应用中，DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析，进一步拓展语言模型的能力边界。

1366 8 9

fw4jufwdlu26q

|

机器学习/深度学习人工智能自然语言处理

|

博文

OpenAI 推出 GPT-4o，免费向所有人提供GPT-4级别的AI ，可以实时对音频、视觉和文本进行推理，附使用详细指南

GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力，无论你是付费用户，还是免费用户，都能通过它体验GPT-4了

827 1 1

bigdatatang

|

存储人工智能 Cloud Native

|

博文

云原生大数据架构实践与思考-DataFunTalk

导读: 作者：振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分： - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考

3010 0 0

付空

|

消息中间件存储供应链

|

博文

数据仓库介绍与实时数仓案例

1.数据仓库简介数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。

43782 86 102

来自：实时计算 Flink 版块

winx_19970108018

|

4天前

|

JSON 监控安全

|

博文

淘宝天猫商品评论API：轻松挑选优质商品的利器

天猫商品评论API是淘宝开放平台的核心接口，通过商品ID获取用户评价内容、评分、时间等结构化数据，支持分页、筛选与多种排序。涵盖昵称、星级、追评、图片等字段，适用于电商分析、竞品监控。采用HTTP请求，JSON返回，需签名认证，安全高效，支持高并发实时调用。

54 1 1

NTP校时服务器

|

5月前

|

定位技术

|

博文

安徽京准分享：北斗RDSS授时和北斗授时RNSS的区别

795 15 16

857技术社区

|

7月前

|

自然语言处理 API 数据库

|

博文

2025年大模型就业：核心技术趋势、技能要求与职业发展全景解析

随着大语言模型（Large Language Models, LLMs）的技术飞速迭代，人工智能领域正经历从通用对话工具向高度智能化、任务导向的智能体（Agent）系统的深刻转型。到2025年4月，企业对掌握LLM相关技术的专业人才需求持续高涨，核心能力聚焦于检索增强生成（RAG）、智能体任务自动化、模型对齐优化以及多模态融合。本文将全面剖析2025年大模型就业市场的技术演进路径、核心技能要求、行业应用场景、推荐实践项目以及职业发展建议，旨在为从业者提供详尽的职业规划指南，帮助其精准把握行业机遇。

1548 6 11

游客g3kj37zphwb2s

|

人工智能

|

博文

开启歌词创作之门：写歌词的技巧和方法详解，妙笔生词AI智能写歌词软件

歌词创作是通往音乐灵魂深处的大门。本文介绍了一些实用技巧，如借助《妙笔生词智能写歌词软件》的AI功能，捕捉生活中的灵感，确定主题，合理安排歌词结构，运用生动的语言和修辞手法，确保韵律和节奏，帮助你轻松开启创作之旅。

923 1 1

tommy_tl

|

人工智能 JSON 自然语言处理

|

博文

基于阿里云通义千问的AI模型应用开发指南

阿里云通义千问是阿里巴巴集团推出的多模态大语言模型平台，提供了丰富的API和接口，支持多种AI应用场景，如文本生成、图像生成和对话交互等。本文将详细介绍阿里云通义千问的产品功能，并展示如何使用其API来构建一个简单的AI应用，包括程序代码和具体操作流程，以帮助开发者快速上手。

2618 3 3

神秘海盗

|

机器学习/深度学习人工智能供应链

|

博文

AI在各行业的具体应用与未来展望

人工智能（Artificial Intelligence, AI）作为一项颠覆性技术，正在逐步改变我们的生活和工作方式。从语音助手到自动驾驶汽车，AI的应用已经深入到各个领域。本文将详细探讨AI在不同行业中的具体应用，以及未来可能的发展方向。

3401 6 6

AIGC小王子

|

Kubernetes API 微服务

|

博文

「架构风格」SOA（面向服务）和微服务

**SOA与微服务对比摘要**: - **SOA**：企业级，服务粒度大，重用性强，常通过ESB通信，服务部署集中，技术栈统一。 - **微服务**：服务粒度小，单一职责，轻量级协议如REST，独立部署，技术多样性，去中心化治理。 - **区别**：服务大小、独立性、通信协议、部署方式和技术栈不同，微服务更强调敏捷和独立性。 - **示例**：Python Flask简单示例展示了服务创建，SOA服务间通过HTTP请求通信，微服务每个服务独立运行。 - **权衡**：涉及服务发现、负载均衡、容错和安全，常用技术如Docker、Kubernetes和API网关。

1143 0 1

郑小健

|

存储安全算法

|

博文

三种常见的加密算法：MD5、对称加密与非对称加密的比较与应用

网络安全聚焦加密算法：MD5用于数据完整性校验，易受碰撞攻击；对称加密如AES快速高效，密钥管理关键；非对称加密如RSA提供身份验证，速度慢但安全。三种算法各有所长，适用场景各异，安全与效率需权衡。【6月更文挑战第17天】

2602 2 2

kng32f3vbngrm

|

缓存 Linux 编译器

|

博文

Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）

该指南介绍了在Linux系统中配置Yum源和安装Python3的步骤。首先，通过`yum install`和`wget`命令更新和备份Yum源，并从阿里云获取CentOS和EPEL的repo文件。接着，清理和更新Yum缓存。然后，下载Python3源代码包，推荐使用阿里云镜像加速。解压后，安装必要的依赖，如gcc。在配置和编译Python3时，可能需要解决缺少C编译器的问题。完成安装后，创建Python3和pip3的软链接，并更新环境变量。最后，验证Python3安装成功，并可选地升级pip和配置pip源以提高包下载速度。

3590 0 0

guoweish

|

数据可视化算法 JavaScript

|

博文

数字孪生核心技术揭秘（一）：渲染引擎

从2017年“数字孪生城市”概念走红开始，全国各地“数字孪生城市”如雨后春笋般涌现，迅速推动了整个行业快速发展。与此同时，整个“数字孪生城市”产业链路上的技术瓶颈开始显现，尤其是数字孪生城市构建的核心环节之一的三维渲染引擎已经成为制约数字孪生城市项目正真实战落地的核心痛点。

6851 4 6

来自：数据可视化DataV 版块

winx_19970108018

|

16小时前

|

机器学习/深度学习 JSON 搜索推荐

|

博文

1688图片搜索API技术文档

1688图片搜索API（拍立淘）是阿里巴巴官方图像搜货工具，支持通过图片URL或Base64编码查找1688平台同款或相似商品。基于深度学习技术，精准匹配商品ID、标题、价格、销量、供应商等全维度信息，命中率超85%，单次响应≤1秒，支持批量调用与分页排序，适用于电商比价、选品采购等场景。

52 0 0

winx_19970108018

|

3天前

|

数据采集 JSON BI

|

博文

京东评论API能挖出多少“神评”？用代码揭秘用户真实反馈

京东商品评论API提供商品全量评论数据，支持按评分、时间筛选及分页获取，返回120+字段与口碑统计，具备高并发、低延迟、数据安全等特性，助力电商分析与决策。

53 2 2

Echo_Wish

|

5天前

|

人工智能架构师微服务

|

博文

Prompt Engineering 的艺术：让 AI 听懂“人话”

52 4 4

灵杰开发者

|

14天前

|

人工智能自然语言处理算法

|

博文

【2025云栖大会】AI 搜索智能探索：揭秘如何让搜索“有大脑”

2025云栖大会上，阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术，涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来，“AI搜索已从‘信息匹配’迈向‘智能决策’，阿里云将持续通过技术创新与产品化能力，为企业构建下一代智能信息获取系统。”

176 9 9

来自：智能搜索推荐版块

QuickBI小助理

|

5月前

|

人工智能自然语言处理监控

|

博文

阿里云连续6年入选 Gartner®ABI 魔力象限报告，中国唯一！

近日，Gartner发布2025年《分析与商业智能平台魔力象限》报告，阿里云Quick BI第六年入选“挑战者”象限。报告肯定其在可视化、报表及自然语言查询（NLQ）方面的竞争力，并认可其融合AI与BI能力、推动数据分析民主化的创新成果。Quick BI已在零售、金融、制造等多个行业落地应用，助力企业实现高效数据驱动决策。

372 7 7

ZX0R

|

6月前

|

Java 数据库 Docker

|

博文

基于neo4j数据库和dify大模型框架的rag模型搭建

1536 35 38

katsu

|

6月前

|

自然语言处理前端开发 API

|

博文

10个常用的无头CMS(Headless CMS)

无头CMS是一种内容管理系统，它将前端和后端分离，只关注内容的创建和管理，而不处理呈现内容的前端界面。传统的CMS通常将内容管理和展示耦合在一起，即内容的创建、编辑和展示都依赖于特定的前端界面和模板。而无头CMS则将内容与前端逻辑完全解耦，提供了一种更加灵活的方式来处理内容。

1047 3 3

灵杰开发者

|

7月前

|

人工智能自然语言处理搜索推荐

|

博文

阿里云 AI 搜索开放平台新功能发布：大模型联网能力上线

阿里云 AI 搜索开放平台此次新增了大模型联网能力，通过集成大语言模型（LLM）和联网搜索技术，为用户提供更智能、更全面的搜索体验。

1418 27 29

来自：智能搜索推荐版块

郑小健

|

数据采集人工智能监控

|

博文

阿里云百炼模型训练实战流程：从入门到实战应用

【7月更文第2天】阿里云百炼是AI大模型开发平台，提供一站式服务，涵盖模型训练到部署。用户从注册登录、创建应用开始，选择模型框架，配置资源。接着，进行数据准备、预处理，上传至阿里云OSS。模型训练涉及设置参数、启动训练及调优。训练后，模型导出并部署为API，集成到应用中。平台提供监控工具确保服务性能。通过百炼，开发者能高效地进行大模型实战，开启AI创新。

4227 2 4

dataworks_demo21

|

数据采集存储分布式计算

|

博文

基于DataWorks搭建新零售数据中台

文章作者：许日（欢伯），在2016年盒马早期的时候，转到盒马事业部作为在线数据平台的研发负责人，现任阿里云计算平台DataWorks建模引擎团队负责人。文章简介：本篇文章向大家分享新零售企业如何基于DataWorks搭建数据中台，从商业模式及业务的设计，到数据中台的架构设计与产品选型，再到数据中台搭建的最佳实践，最后利用数据中台去反哺业务，辅助人工与智能的决策。内容贡献：李启平（首义），盒马从初创至今的数据研发负责人，有非常资深的数仓及数据中台建设的经验，原阿里巴巴国际业务数仓负责人。

38047 6 9

来自：大数据开发治理DataWorks 版块

Deephub

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

近年来，多模态表示学习在人工智能领域取得显著进展，CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出，通过对比学习对齐图像与文本嵌入空间，具备强大零样本学习能力；SigLIP由Google开发，采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型（MLLMs）的发展，如LLaVA、BLIP-2和Flamingo等，实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界，还为医疗、教育等领域释放技术潜力，标志着多模态智能系统的重要进步。

1230 13 13

小白学大数据

|

8月前

|

数据采集 Web App开发 API

|

博文

B站高清视频爬取：Python爬虫技术详解

1864 2 3

阿里云大数据Al技术

|

8月前

|

编解码人工智能并行计算

|

博文

基于 Megatron 的多模态大模型训练加速技术解析

Pai-Megatron-Patch 是一款由阿里云人工智能平台PAI 研发的围绕英伟达 Megatron 的大模型训练配套工具，旨在帮助开发者快速上手大模型，打通大模型相关的高效分布式训练、有监督指令微调、下游任务评估等大模型开发链路。本文以 Qwen2-VL 为例，从易用性和训练性能优化两个方面介绍基于 Megatron 构建的 Pai-Megatron-Patch 多模态大模型训练的关键技术

971 8 8

来自：人工智能平台PAI 版块

liuyunshengsir

|

9月前

|

分布式计算并行计算调度

|

博文

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

在HPC场景中，集群任务调度系统是资源管理和作业调度的核心工具。LSF、SGE、Slurm和PBS是主流调度系统。LSF适合大规模企业级集群，提供高可靠性和混合云支持；SGE为经典开源系统，适用于中小规模集群；Slurm成为HPC领域事实标准，支持多架构和容器化；PBS兼具商业和开源版本，擅长拓扑感知调度。选型建议：超大规模科研用Slurm，企业生产环境用LSF/PBS Pro，混合云需求选LSF/PBS Pro，传统小型集群用SGE/Slurm。当前趋势显示Slurm在TOP500系统中占比超60%，而商业系统在金融、制造等领域保持优势。

1587 32 32

墨城coding

|

机器学习/深度学习计算机视觉

|

博文

一文详解残差网络

残差网络（ResNet）源于2016年的论文《Deep Residual Learning for Image Recognition》，旨在解决深层网络中的梯度消失和爆炸问题。通过引入残差块，即在网络中添加跳跃连接，使得信息可以直接跨过多层传递，从而有效解决了网络加深导致的训练困难。ResNet不仅显著提高了模型性能，还促进了深度学习领域的发展。

1807 3 3

kng32f3vbngrm

|

SQL 缓存分布式计算

|

博文

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

2041 2 3

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

【经典论文解读】YOLACT 实例分割（YOLOv5、YOLOv8实例分割的基础）

电商行业智能搜索技术原理全解析

Elasticsearch 既是搜索引擎又是数据库？真的有那么全能吗？

中小企业也能玩转大模型：把AI搬到自己机房里不是梦

2026版基于python大数据的旅游可视化及推荐系统

完整教程：从0到1在Windows下训练YOLOv8模型

小红书笔记详情 API 接口（小红书 API 系列）

告别熬夜写代码！VSCode+Cline扩展插件+DeepSeek-V3大模型，让你的编程水平瞬间超越99.9%的人!

YOLO11实战：新颖的多尺度卷积注意力（MSCA）加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点，解决不涨点掉点等问题

大模型:人工智能发展的引擎

【2025云栖大会】阿里云发布Elasticsearch Serverless 2.0，重塑AI搜索时代基础设施

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

多模态RAG实战指南：完整Python代码实现AI同时理解图片、表格和文本

【免费资料】IEEE33节点系统参数及拓扑图visio

阿里集团搜索中台TisPlus

AI智能体开发实战：17种核心架构模式详解与Python代码实现

淘宝闪购基于Flink&Paimon的Lakehouse生产实践：从实时数仓到湖仓一体化的演进之路

近端策略优化算法PPO的核心概念和PyTorch实现详解

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

反向海淘实战：Pandabuy、Hoobuy、CNFans 代购集运系统搭建真实体验

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

OpenAI 推出 GPT-4o，免费向所有人提供GPT-4级别的AI ，可以实时对音频、视觉和文本进行推理，附使用详细指南

云原生大数据架构实践与思考-DataFunTalk

数据仓库介绍与实时数仓案例

淘宝天猫商品评论API：轻松挑选优质商品的利器

安徽京准分享：北斗RDSS授时和北斗授时RNSS的区别

2025年大模型就业：核心技术趋势、技能要求与职业发展全景解析

开启歌词创作之门：写歌词的技巧和方法详解，妙笔生词AI智能写歌词软件

基于阿里云通义千问的AI模型应用开发指南

AI在各行业的具体应用与未来展望

「架构风格」SOA（面向服务）和微服务

三种常见的加密算法：MD5、对称加密与非对称加密的比较与应用

Linux（CentOS7.5） 安装部署 Python3.6（超详细！包含 Yum 源配置！）

数字孪生核心技术揭秘（一）：渲染引擎

1688图片搜索API技术文档

京东评论API能挖出多少“神评”？用代码揭秘用户真实反馈

Prompt Engineering 的艺术：让 AI 听懂“人话”

【2025云栖大会】AI 搜索智能探索：揭秘如何让搜索“有大脑”

阿里云连续6年入选 Gartner®ABI 魔力象限报告，中国唯一！

基于neo4j数据库和dify大模型框架的rag模型搭建

10个常用的无头CMS(Headless CMS)

阿里云 AI 搜索开放平台新功能发布：大模型联网能力上线

阿里云百炼模型训练实战流程：从入门到实战应用

基于DataWorks搭建新零售数据中台

多模态AI核心技术：CLIP与SigLIP技术原理与应用进展

B站高清视频爬取：Python爬虫技术详解

基于 Megatron 的多模态大模型训练加速技术解析

基于HPC场景的集群任务调度系统LSF/SGE/Slurm/PBS

一文详解残差网络

手把手教你解决 Hive 的数据倾斜

大数据与机器学习

活跃用户

相关产品

Linux（CentOS7.5）安装部署 Python3.6（超详细！包含 Yum 源配置！）