大数据与机器学习-博文-第11页-阿里云开发者社区

灵杰开发者

|

5月前

|

存储自然语言处理测试技术

|

博文

一行代码，让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略

本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试，用真实数据复刻事故现场，助力开发者规避“查询雪崩”，为您的业务保驾护航。

2038 89 93

来自：检索分析服务 Elasticsearch版版块

winx_19970108018

|

5月前

|

数据挖掘 BI API

|

博文

微店店铺所有商品API接口指南

微店商品API支持通过店铺ID获取全部商品信息，提供分页、状态筛选与多维度排序功能，适用于商品管理、数据统计及跨平台同步。返回商品ID、标题、价格、库存、主图等详细信息，助力高效运营。

455 2 2

winx_19970108018

|

7月前

|

JSON 搜索推荐 API

|

博文

拼多多商品详情API技术指南

拼多多商品详情API（pdd.goods.detail.get）支持通过商品ID获取商品标题、价格、销量、图片、库存及评价等详细信息，适用于电商数据分析、竞品监控与价格策略优化，返回标准JSON格式，便于集成开发。

952 1 2

八进智

|

7月前

|

Kubernetes Cloud Native Go

|

博文

Kubeflow-KServe-架构学习指南

KServe是基于Kubernetes的生产级AI推理平台，支持多框架模型部署与管理。本指南从架构解析、代码结构到实战部署，系统讲解其核心组件如InferenceService、控制器模式及与Knative、Istio集成原理，并提供学习路径与贡献指南，助你快速掌握云原生AI服务技术。

1181 139 139

啦啦啦191

|

8月前

|

安全数据安全/隐私保护 Windows

|

博文

ZyperWin++使用教程！让Windows更丝滑！c盘飘红一键搞定！ZyperWin++解决系统优化、Office安装和系统激活

ZyperWin++是一款仅5MB的开源免费Windows优化工具，支持快速优化、自定义设置与垃圾清理，兼具系统加速、隐私保护、Office安装等功能，轻便无广告，小白也能轻松上手，是提升电脑性能的全能管家。

2377 0 0

灵杰开发者

|

8月前

|

存储人工智能监控

|

博文

淘宝闪购基于Flink&Paimon的Lakehouse生产实践：从实时数仓到湖仓一体化的演进之路

本文整理自淘宝闪购（饿了么）大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享，深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践，涵盖实时数仓发展、技术选型、平台建设及未来展望。

1494 0 0

来自：实时计算 Flink 版块

Deephub

|

9月前

|

人工智能分布式计算自然语言处理

|

博文

本文探讨了多AI智能体协作中的关键问题——编排。文章指出，随着系统从单体模型向多智能体架构演进，如何设计智能体之间的通信协议、工作流程和决策机制，成为实现高效协作的核心。文章详细分析了五种主流的智能体编排模式：顺序编排、MapReduce、共识模式、分层编排和制作者-检查者模式，并分别介绍了它们的应用场景、优势与挑战。最后指出，尽管大模型如GPT-5提升了单体能力，但在复杂任务中，合理的智能体编排仍不可或缺。选择适合的编排方式，有助于在系统复杂度与实际效果之间取得平衡。

1915 10 10

极客小俊

|

IDE 测试技术项目管理

|

博文

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

PyCharm是由JetBrains开发的Python集成开发环境（IDE），专为Python开发者设计，支持Web开发、调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试和版本控制等功能。它有专业版、教育版和社区版三个版本，其中社区版免费且适合个人和小型团队使用，包含基本的Python开发功能。安装PyCharm前需先安装Python解释器，并配置环境变量。通过简单的步骤即可在PyCharm中创建并运行Python项目，如输出“Hello World”。

5121 13 14

来自：人工智能平台PAI 版块

墨城coding

|

缓存 Shell iOS开发

|

博文

修改 torch和huggingface 缓存路径

简介：本文介绍了如何修改 PyTorch 和 Huggingface Transformers 的缓存路径。通过设置环境变量 `TORCH_HOME` 和 `HF_HOME` 或 `TRANSFORMERS_CACHE`，可以在 Windows、Linux 和 MacOS 上指定自定义缓存目录。具体步骤包括设置环境变量、编辑 shell 配置文件、移动现有缓存文件以及创建符号链接（可选）。

4895 2 2

allan小小林

|

机器学习/深度学习人工智能算法

|

博文

小白教程-阿里云快速搭建Stable-Diffusion WebUI环境+免费试用

Stable-Diffusion 是目前热门的AIGC图像生成方案，通过开源与社区共享模型的方式，成为AI艺术与创意产业的重要工具。本文介绍通过阿里云快速搭建SD WebUI的服务，并有免费试用权益，适合新手入门。通过详细步骤指导，帮助读者轻松上手，享受创作乐趣。

3128 0 1

winx_19970108018

|

存储 JSON API

|

博文

批量采集抖音商品详情数据：推荐你使用API（通过商品id取商品详情商品主图sku属性）

批量采集抖音商品详情，建议使用API接口。步骤包括：注册抖音开放平台获取App Key和Secret，调用商品详情API接口传入商品ID及相关参数，解析返回的JSON获取商品信息（如名称、价格、主图和SKU）。此外，接口列表提供商品搜索、销售量查询、历史价格、订单管理等多种功能。已封装的API接口地址：c0b.cc/R4rbK2，可测试并联系获取SDK文件。

2188 1 1

derek武汉

|

存储人工智能算法

|

博文

聚类的k值确定之轮廓系数

4559 0 0

项羽@阿里云大数据

|

存储运维分布式计算

|

博文

云原生离线实时一体化数仓建设与实践

本篇内容分享了云原生离线实时一体化数仓建设与实践。分享人：刘一鸣 Hologres 产品经理

2403 1 4

来自：大数据计算 MaxCompute 版块

计算爱好者

|

SQL 分布式计算大数据

|

博文

HIVE MapJoin异常问题处理总结

HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。

16003 1 1

来自：开源大数据平台 E-MapReduce 版块

李现龙|星阙实验室

|

25天前

|

人工智能自然语言处理搜索推荐

|

博文

知识蒸馏（KD）深度落地：解锁GEO生成式优化轻量化高性能方案

知识蒸馏作为大模型轻量化的核心底层技术，有效解决了大模型落地贵、运行慢、部署难的痛点，让轻量化模型也能具备接近大模型的搜索语义理解与高质量内容生成能力。

236 4 4

来自：智能搜索推荐版块

灵杰开发者

|

2月前

|

JSON 运维 Java

|

博文

Apache Flink Agents 0.2.1 发布公告

Apache Flink Agents 0.2.1发布！修复3个关键缺陷（含MCP连接与Jackson反序列化问题），优化事件日志JSON输出、减小wheel包体积，并增强CI可观测性。推荐所有用户升级。支持OpenAI、Anthropic等多模型集成，附Demo演示智能运维能力。（239字）

297 5 7

来自：实时计算 Flink 版块

Echo_Wish

|

2月前

|

自然语言处理 PyTorch 算法框架/工具

|

博文

本文根据 ODPS 十五周年·年度升级发布实录整理而成，演讲信息如下：于得水（得水）：阿里云智能集团计算平台事业部资深技术专家活动：【数据进化·AI 启航】ODPS 年度升级发布

580 1 1

来自：大数据计算 MaxCompute 版块

AI未闻花名

|

6月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

构建AI智能体：十二、给词语绘制地图：Embedding如何构建机器的认知空间

Embedding是一种将词语、图像等信息转化为低维稠密向量的技术，使计算机能捕捉语义关系。不同于传统One-Hot编码，Embedding通过空间距离表达语义相似性，如“国王-男人+女人≈王后”，广泛应用于NLP、推荐系统与大模型中，是AI理解世界的基石。

1266 13 13

winx_19970108018

|

7月前

|

存储数据采集搜索推荐

|

博文

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

本文介绍淘宝商品评论爬取技术，涵盖环境配置、接口分析、反爬破解及数据存储。使用Python模拟请求，动态代理与签名绕过风控，结合Flask中转降低封禁风险，实现高效合规的数据采集，适用于竞品分析与用户画像构建。（238字）

1421 1 3

灵杰开发者

|

7月前

|

人工智能自然语言处理算法

|

博文

【2025云栖大会】AI 搜索智能探索：揭秘如何让搜索“有大脑”

2025云栖大会上，阿里云高级技术专家徐光伟在云栖大会揭秘 Agentic Search 技术，涵盖低维向量模型、多模态检索、NL2SQL及DeepSearch/Research智能体系统。未来，“AI搜索已从‘信息匹配’迈向‘智能决策’，阿里云将持续通过技术创新与产品化能力，为企业构建下一代智能信息获取系统。”

912 9 9

来自：智能搜索推荐版块

实时数仓Hologres团队

|

10月前

|

分布式计算 Serverless OLAP

|

博文

实时数仓Hologres V3.1版本发布，Serverless型实例从零开始构建OLAP系统

Hologres推出Serverless型实例，支持按需计费、无需独享资源，适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表，弹性扩展至512CU，性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案，助力高效数据分析。

1311 2 3

来自：实时数仓 Hologres 版块

winx_19970108018

|

11月前

|

数据采集数据挖掘 API

|

博文

跨境卖家必看：1688店铺订单列表,订单详情,订单物流接口详解

1688平台提供丰富的API接口，涵盖商品、订单、物流等核心业务场景。主要接口包括：**order.list**（查询订单列表）、**order.get**（获取订单详情）及**logistics.track**（查询物流信息），均支持GET请求方式，广泛应用于跨境寻源、数据采集、ERP系统等场景。

584 0 0

Deephub

|

机器学习/深度学习算法 PyTorch

|

博文

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（RL）是提升大型语言模型（LLM）推理能力的重要手段，尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化（GRPO）方法，在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果，显著增强了数学推理和问题解决能力。GRPO无需价值网络，采用群组采样和相对优势估计，有效解决了传统RL应用于语言模型时的挑战，提升了训练效率和稳定性。实际应用中，DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析，进一步拓展语言模型的能力边界。

2736 8 9

微客大师

|

Ubuntu 网络安全数据安全/隐私保护

|

博文

使用WinSCP工具，将windows文件传输到虚拟机Ubuntu系统

3511 4 4

巨量IP

|

缓存安全生物认证

|

博文

什么是代理ip？代理ip的工作原理？代理ip有哪些类型？

当您在互联网上浏览或访问网站时，您的IP地址是您的设备在网络上的唯一标识。通过IP地址，网站和其他在线服务可以追踪您的位置、活动和访问历史。但是，使用IP代理可以帮助您代理本地IP地址，从而增加您的在线隐私和安全。

3762 0 0

May-Hologres

|

存储 SQL 缓存

|

博文

Hologres揭秘:深度解析高效率分布式查询引擎

从阿里集团诞生到云上商业化，随着业务的发展和技术的演进，Hologres也在持续不断优化核心技术竞争力，为了让大家更加了解Hologres，我们计划持续推出Hologers底层技术原理揭秘系列，从高性能存储引擎到高效率查询引擎，高吞吐写入到高QPS查询等，全方位解读Hologers，请大家持续关注！

13666 4 8

来自：实时数仓 Hologres 版块

s4puj2y4jsam4

|

1天前

|

存储 Java 机器人

|

博文

代购系统的可扩展通知机制：从硬编码到观察者模式，借鉴taocarts的事件总线

本文分享代购系统通知模块的演进之路：从硬编码通知到基于Spring事件总线的解耦设计。通过抽象订单事件、注解式监听器、异步执行与Webhook动态订阅，实现高可扩展、易维护的通知体系，彻底告别“改一处崩全局”的困境。

39 0 0

pai_rec_coder

|

6天前

|

缓存 NoSQL Redis

|

博文

PAI-Rec的RealTimeU2IRecall 如何使用内置的i2i 缓存功能

`RealTimeU2IRecall` 内置物品级本地LRU缓存（I2ICacheSize/I2ICacheTime），对trigger item的相似商品列表进行内存缓存，命中即用、未命中批量查FeatureStore并写入负缓存，兼顾实时性与性能，显著降低下游查询压力。

75 5 6

来自：智能搜索推荐版块

刘大猫.

|

11天前

|

JSON Java fastjson

|

博文

java工具：《jsonObject转map》

125 0 0

aliyun3488657265-39371

|

15天前

|

安全网络安全

|

博文

Logstash显示ES无法连接

Logstash输出ES失败，因ES启用了xpack安全认证与HTTPS。需在Logstash output中配置：https协议、elastic账号密码、ssl_enabled=true、ca_trusted_fingerprint（首次启动生成的指纹）及完整SSL校验，确保通信安全可达。

120 0 0

来自：检索分析服务 Elasticsearch版版块

二二得四GEO

|

1月前

|

Web App开发数据采集人工智能

|

博文

做GEO 优化第30天，我被AI认识了吗？真实数据+踩坑复盘

30天实验验证：持续输出+多平台分发，内容被豆包、元宝、文心、千问引用，但仅千问在搜索“二二得四GEO”时准确识别品牌。核心发现：AI知内容，不知“我是谁”。下一步聚焦品牌强绑定（每文3–5次提及）、开放平台同步与月度AI监测。

279 1 1

悟空爬虫

|

2月前

|

机器学习/深度学习安全数据安全/隐私保护

|

博文

# Pyc怎么转Py？PyLingual 部署教程

PyLingual是一款基于深度学习的Python字节码（.pyc）反编译工具，专攻损坏、加密或混淆的现代pyc文件（支持3.6–3.13），弥补uncompyle6对新版本支持不足的短板。部署需Python 3.12+、Poetry及pyenv多版本环境，适合开发者救代码、安全人员分析恶意样本。（239字）

579 2 2

狸奴算君

|

3月前

|

人工智能自然语言处理机器人

|

博文

告别机械回复：三步微调AI模型，打造会“读心”的智能客服

本文详解智能客服“需求感知”核心技术：通过BERT微调实现情感识别（感知情绪）、意图分类（理解目的）与实体抽取（提取关键信息），三者协同输出结构化理解。附完整Python实战代码，零基础可上手，并介绍低代码平台方案，助你快速打造有温度的AI客服大脑。（239字）

535 4 4

游客xgetbzjx6kbsq

|

4月前

|

自然语言处理运维物联网

|

博文

大模型微调技术入门：从核心概念到实战落地全攻略

大模型微调是通过特定数据优化预训练模型的技术，实现任务专属能力。全量微调精度高但成本大，LoRA/QLoRA等高效方法仅调部分参数，显存低、速度快，适合工业应用。广泛用于对话定制、领域知识注入、复杂推理与Agent升级。主流工具如LLaMA-Factory、Unsloth、Swift等简化流程，配合EvalScope评估，助力开发者低成本打造专属模型。

870 16 17

来自：开源大数据平台 E-MapReduce 版块

狸奴算君

|

4月前

|

机器学习/深度学习数据采集人工智能

|

博文

零代码基础也能懂的LoRA微调全指南

LoRA（低秩适应）让普通人也能用消费级显卡高效微调大模型。它不改动原模型，仅添加小型“适配模块”，以0.1%-1%的参数量实现接近全量微调的效果，快速打造专属AI助手，推动AI民主化。

438 0 0

游客7km4snizezcsg

|

5月前

|

消息中间件弹性计算决策智能

|

博文

五、实战演练：三步构建高可靠多智能体应用

本方案基于阿里云ECS与RocketMQ，构建多智能体协同系统，实现天气查询与行程规划。通过一键部署资源、创建Topic/Group、发布智能体应用三步，快速搭建支持异步通信的Agent架构。用户输入需求后，SupervisorAgent协调WeatherAgent和TravelAgent完成任务，全程可通过RocketMQ追踪消息轨迹，验证执行流程。

397 0 0

ChenAI_TGF

|

5月前

|

存储数据采集算法

|

博文

具身智能：零基础入门睿尔曼机械臂（六）——手眼标定代码库详解，从原理到实践

本文详解睿尔曼手眼标定代码库，涵盖眼在手上与眼在手外两种模式的实现原理及核心代码解析。内容包括数据采集、位姿处理、相机标定与手眼矩阵求解全流程，结合OpenCV的Tsai算法实现高精度坐标转换，助力机器人视觉精准抓取应用开发。

790 3 3

delacroix_xu-15509

|

8月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

Step-Audio2 声音克隆详细介绍

Step-Audio2是StepFun于2024年推出的中文语音克隆大模型，支持“一句话克隆+情感可控+实时流式”一体化生成，参数总量300M，首包延迟低至120ms，MOS达4.4+，采用Apache-2.0协议开源，适配商业应用，是当前中文TTS领域开源落地门槛最低的方案之一。

1301 1 1

null_is_null

|

9月前

|

监控 Linux iOS开发

|

博文

PyCharm启动项目和调试项目

本文介绍了在 PyCharm 中启动和调试 Python 项目的详细步骤，涵盖单文件运行、配置管理、命令行工具使用、断点调试、变量监控、远程调试及常见问题解决方案，帮助开发者高效利用 PyCharm 的调试功能提升开发效率。

2059 4 4

来自：人工智能平台PAI 版块

Aron_NeAr

|

10月前

|

数据采集存储大数据

|

博文

大数据之路：阿里巴巴大数据实践——日志采集与数据同步

本资料全面介绍大数据处理技术架构，涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容，适用于构建企业级数据平台体系。

1034 1 2

奔跑的数据

|

10月前

|

Cloud Native 中间件调度

|

博文

云原生信息提取系统：容器化流程与CI/CD集成实践

本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具，构建可自动运行、持续迭代的云原生信息提取系统，实现结构化数据采集与标准化交付。

1062 1 1

Echo_Wish

|

11月前

|

SQL 数据建模关系型数据库

|

博文

别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）

2808 4 4

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

一行代码，让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略

微店店铺所有商品API接口指南

拼多多商品详情API技术指南

Kubeflow-KServe-架构学习指南

ZyperWin++使用教程！让Windows更丝滑！c盘飘红一键搞定！ZyperWin++解决系统优化、Office安装和系统激活

淘宝闪购基于Flink&Paimon的Lakehouse生产实践：从实时数仓到湖仓一体化的演进之路

多智能体系统设计：5种编排模式解决复杂AI任务

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

修改 torch和huggingface 缓存路径

小白教程-阿里云快速搭建Stable-Diffusion WebUI环境+免费试用

批量采集抖音商品详情数据：推荐你使用API（通过商品id取商品详情商品主图sku属性）

聚类的k值确定之轮廓系数

云原生离线实时一体化数仓建设与实践

HIVE MapJoin异常问题处理总结

知识蒸馏（KD）深度落地：解锁GEO生成式优化轻量化高性能方案

Apache Flink Agents 0.2.1 发布公告

大模型太慢？别急着上 GPU 堆钱：Python + ONNX Runtime 优化推理性能实战指南

企业专属AI从0到1：避开隐私雷区，用你的数据安全微调大模型

为什么 loss 几乎没用：微调里最容易让人“自嗨”的指标

【实战教程】Flux.1-dev 360° 全景驾驶舱：从零到一的“零坑”部署指南

为什么要单元测试

1.什么是权限管理

具身智能：零基础入门睿尔曼机械臂（五）—— 手眼标定核心原理与数学求解

拼多多商品详情API接口指南

ODPS 十五周年实录 | Data + AI，MaxCompute 下一个15年的新增长引擎

构建AI智能体：十二、给词语绘制地图：Embedding如何构建机器的认知空间

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

【2025云栖大会】AI 搜索智能探索：揭秘如何让搜索“有大脑”

实时数仓Hologres V3.1版本发布，Serverless型实例从零开始构建OLAP系统

跨境卖家必看：1688店铺订单列表,订单详情,订单物流接口详解

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

使用WinSCP工具，将windows文件传输到虚拟机Ubuntu系统

什么是代理ip？代理ip的工作原理？代理ip有哪些类型？

Hologres揭秘:深度解析高效率分布式查询引擎

代购系统的可扩展通知机制：从硬编码到观察者模式，借鉴taocarts的事件总线

PAI-Rec的RealTimeU2IRecall 如何使用内置的i2i 缓存功能

java工具：《jsonObject转map》

Logstash显示ES无法连接

做GEO 优化第30天，我被AI认识了吗？真实数据+踩坑复盘

# Pyc怎么转Py？PyLingual 部署教程

告别机械回复：三步微调AI模型，打造会“读心”的智能客服

大模型微调技术入门：从核心概念到实战落地全攻略

零代码基础也能懂的LoRA微调全指南

五、实战演练：三步构建高可靠多智能体应用

具身智能：零基础入门睿尔曼机械臂（六）——手眼标定代码库详解，从原理到实践

Step-Audio2 声音克隆 详细介绍

PyCharm启动项目和调试项目

大数据之路：阿里巴巴大数据实践——日志采集与数据同步

云原生信息提取系统：容器化流程与CI/CD集成实践

﻿别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）

大数据与机器学习

活跃用户

相关产品

Step-Audio2 声音克隆详细介绍

别光知道存数据库了，数据建模才是王道！（入门指南+实战代码）