大数据与机器学习-最热-第9页-阿里云开发者社区

游客hua3a7ejc2opu

|

4月前

|

机器学习/深度学习数据采集人工智能

|

博文

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同构建大模型核心能力。预训练夯实语言基础，微调适配特定任务，RLHF对齐人类偏好，思维链提升推理，少/零样本实现快速迁移，指令微调增强指令理解，自监督利用海量文本，温度控制生成风格，蒸馏压缩模型规模，缩放定律指引性能增长路径。

311 0 0

AI未闻花名

|

4月前

|

机器学习/深度学习人工智能数据可视化

|

博文

构建AI智能体：七十三、模型的成绩单：一文读懂损失函数，看懂AI如何学习

本文系统介绍了损失函数在机器学习中的核心作用。首先通过类比教学场景，阐释损失函数作为模型"导师"的重要性。随后详细解析了回归任务中的均方误差(MSE)和平均绝对误差(MAE)，通过房价预测案例展示了它们对误差的不同处理方式。在分类任务部分，重点讲解了二分类和多分类交叉熵损失函数，使用垃圾邮件识别和图像分类等实例，说明这些函数如何通过概率计算来评估预测准确性。文章通过可视化图表直观呈现了不同损失函数的特点，并强调损失函数作为模型优化的指南针，其设计直接影响学习效果。

453 20 20

winx_19970108018

|

4月前

|

消息中间件自然语言处理供应链

|

博文

Pandabuy复制指南：淘宝1688代购系统搭建

Pandabuy以“反向海淘”模式为核心，助力海外用户代购中国商品，主打欧美市场。通过物流收费、佣金、汇率差等多元盈利，两年营收达40亿元。依托网红营销、低价策略与社区运营，实现高速增长。系统搭建推荐微服务架构，对接淘宝1688 API，强化合规与供应链管理，结合SEO、社媒营销及风控体系，打造高效安全的国际代购平台。

357 1 1

体育数据Lynne

|

7月前

|

JavaScript NoSQL 前端开发

|

博文

搭建实时足球比分系统从零到一的实战指南

构建实时足球比分系统需聚焦数据流架构：从API/爬虫获取数据，经后端处理存储，通过REST/WebSocket提供接口，前端展示。推荐使用专业API保障稳定性，结合Python/Node.js、PostgreSQL/MongoDB、Redis缓存与WebSocket实现实时推送。优先考虑法律合规与高并发应对，建议逐步迭代开发，亦可借助现成插件或服务快速上线。（238字）

789 2 2

Deephub

|

8月前

|

人工智能测试技术芯片

|

博文

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

本文介绍了使用四块Framework主板构建AI推理集群的过程，并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试，重点评估其并行推理能力及集群表现。

733 0 0

小白学大数据

|

11月前

|

数据采集存储 Web App开发

|

博文

自动化爬虫：requests定时爬取前程无忧最新职位

503 4 4

游客nrsbfpn6qhcza

|

15天前

|

安全

|

博文

1949AI 零代码本地自动化工具：轻量化部署适配低配置电脑设备

本文介绍1949AI轻量化本地自动化方案：零代码、免配置、纯本地运行，安全合规无数据外传；低资源占用，兼容低配电脑；面向小白用户，三步搞定表格整理、文件批量重命名等重复任务，离线可用，开箱即用。（239字）

124 0 0

游客nrsbfpn6qhcza

|

16天前

|

人工智能安全 API

|

博文

1949AI 轻量化 AI 自动化本地自动化工具 + 浏览器自动化 + Agent 自动化工具小说连载生成技术实践

126 1 1

大模型玩家七七

|

3月前

|

算法安全物联网

|

博文

PPO 实战：第一次跑通 PPO，到底难在哪

PPO实战难点不在算法理解，而在系统性不确定：动态数据、不稳reward、多目标冲突。关键在于明确对齐目标、用SFT模型起步、必备reference、设计偏好型reward、聚焦policy更新、善用KL系数调控风险，并以行为变化而非loss曲线评估进展——耐心跑通最小闭环，才是成功核心。

212 0 0

游客pzghv3hjvp6f2

|

4月前

|

存储安全小程序

|

博文

1.认识OAuth2.0

OAuth2.0是一种开放授权协议，允许第三方应用在用户授权下访问其资源，而无需获取用户账号密码。它通过令牌（token）机制实现安全授权，广泛用于第三方登录、服务间资源调用等场景，支持授权码、简化、密码和客户端四种模式，兼顾安全性与灵活性。

123 0 0

游客pzghv3hjvp6f2

|

4月前

|

关系型数据库应用服务中间件 nginx

|

博文

容器引擎Docker

Docker是一种轻量级容器化技术，通过镜像打包应用及依赖，实现跨环境一致部署。它利用容器隔离运行，解决开发、测试、生产环境差异问题，相比虚拟机更高效便捷，提升交付效率与系统资源利用率。

194 0 0

游客p4omngj4p6cwq

|

4月前

|

安全数据安全/隐私保护

|

博文

1.什么是权限管理

权限管理包含认证与授权两大核心：认证验证用户身份（如登录），授权则根据角色分配资源访问权限。通过角色叠加生成可访问菜单，实现操作安全控制，避免数据泄露等问题，为系统提供全面安全保障。

145 0 0

游客p4omngj4p6cwq

|

4月前

|

SQL 缓存 Java

|

博文

汇总

MyBatis配置优先级：方法参数 > resource/url > properties内定义。支持多环境、事务管理（JDBC/MANAGED），XML实现一对一、一对多、多对多映射，分页支持逻辑与物理方式，推荐物理分页。提供一级、二级缓存及三种执行器，优化批量操作性能。

293 1 1

AI智创

|

4月前

|

安全 Cloud Native Serverless

|

博文

2025数字员工技术选型白皮书：阿里云/亚马逊等5款产品云原生能力实测

本文深度评测阿里云、亚马逊、科大讯飞、玄晶引擎、安恒五款数字员工，围绕架构兼容性、开发友好度、性能稳定性三大维度，结合实测数据与企业案例，为开发者提供选型指南与避坑建议。

555 5 5

来自：人工智能平台PAI 版块

游客vv4u4wyick5ti

|

5月前

|

SQL 人工智能自然语言处理

|

博文

AI 数据分析如何保障准确性？构建可信数据基础成为关键

NoETL 指标语义层的引入，将智能问数从“概率游戏”拉回到“工程科学”

458 1 1

winx_19970108018

|

5月前

|

数据采集 JSON 供应链

|

博文

1688商品列表API完整指南

1688商品列表API是阿里巴巴B2B平台核心接口，支持通过关键词、分类、价格等多条件筛选，分页批量获取商品信息、价格、供应商及库存数据，采用JSON格式与AppKey签名认证，助力企业高效实现商品搜索、数据采集与供应链自动化管理。

262 3 3

Echo_Wish

|

5月前

|

SQL 人工智能 API

|

博文

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

601 8 8

阿里云大数据

|

5月前

|

人工智能分布式计算大数据

|

博文

阿里云大数据AI产品月刊-2025年10月

大数据& AI 产品技术月刊【2025年 10 月】，涵盖 10 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

452 1 1

aliyun1858938984

|

5月前

|

问答

VScode、Trae断点的按钮找不到

297 1 0

来自：智能搜索推荐版块

Echo_Wish

|

5月前

|

人工智能安全算法

|

博文

Step-Audio2是StepFun于2024年推出的中文语音克隆大模型，支持“一句话克隆+情感可控+实时流式”一体化生成，参数总量300M，首包延迟低至120ms，MOS达4.4+，采用Apache-2.0协议开源，适配商业应用，是当前中文TTS领域开源落地门槛最低的方案之一。

960 1 1

Deephub

|

8月前

|

机器学习/深度学习算法数据可视化

|

博文

近端策略优化算法PPO的核心概念和PyTorch实现详解

本文深入解析了近端策略优化（PPO）算法的核心原理，并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程，涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合，适合希望掌握PPO算法及其实现的读者。

1283 2 2

DataWorks@佳里

|

9月前

|

存储运维数据挖掘

|

博文

革新智能驾驶数据挖掘检索效率！某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎

在智能驾驶技术快速发展中，数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台，利用其高性能、可扩展的相似性检索服务，解决了大规模向量数据检索瓶颈问题，显著降低20%以上成本，缩短模型迭代周期，实现从数据采集到场景挖掘的智能化闭环，加速智能驾驶落地应用。

872 3 3

来自：向量检索服务 Milvus 版版块

winx_19970108018

|

9月前

|

SQL 关系型数据库 MySQL

|

博文

JOIN顺序优化：小表驱动大表的执行原则

在数据库查询优化中，“小表驱动大表”是一种提升SQL查询效率的常用策略。其核心思想是优先处理数据量较小的表，再与大表进行连接操作，从而减少数据扫描量、降低I/O开销并提高内存使用效率。通过显式指定JOIN顺序、使用EXISTS替代IN以及合理创建索引等方式，可以有效实现该原则。例如，在连接部门表（小表）和员工表（大表）时，先处理小表可显著提升查询性能。掌握这一原则有助于编写高效SQL语句，优化数据库整体表现。

780 0 0

阿里云大数据Al技术

|

11月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长，它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下，将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程，其具备多种功能模块，包括数据合成、基础和进阶蒸馏训练。通过数据合成，丰富训练集的多样性；基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化，从而提升小模型的性能。

2017 7 7

来自：人工智能平台PAI 版块

Deephub

|

11月前

|

机器学习/深度学习测试技术

|

博文

ChronosX: 可使用外生变量的时间序列预测基础模型

时间序列预测中，基础模型虽在单变量任务中表现出色，但引入协变量支持仍面临挑战。Chronos研究团队提出ChronosX架构，通过适配器层有效整合历史与未来协变量信息，适用于任何单变量模型。实验表明，ChronosX显著提升预测性能，尤其在复杂数据集上优势明显。消融研究进一步验证了协变量模块的重要性。尽管需要轻量训练，但其灵活性和通用性为时间序列建模提供了新思路，未来或可通过类似LLM提示机制实现更高效的协变量处理。

723 16 16

DataWorks@佳里

|

12月前

|

存储人工智能监控

|

博文

通过阿里云Milvus与通义千问VL大模型，快速实现多模态搜索

阿里云向量检索服务Milvus版是一款全托管向量检索引擎，并确保与开源Milvus的完全兼容性，支持无缝迁移。它在开源版本的基础上增强了可扩展性，能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警，Milvus云服务成为多样化AI应用场景的理想选择，包括多模态搜索、检索增强生成（RAG）、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作，进一步促进应用的快速开发和部署。

1051 2 2

来自：向量检索服务 Milvus 版版块

强了一点

|

12月前

|

存储数据采集机器学习/深度学习

|

博文

LIDC-IDRI肺结节数据集分割策略

本文介绍了使用LIDC-IDRI开源数据集进行肺癌检测项目的完整流程，包括数据预处理、训练分割模型和分类模型三个主要步骤。首先，下载包含患者DICOM文件的数据集；其次，克隆预处理代码并配置Pylidc库以生成肺部遮罩图像；最后，通过脚本准备数据集并创建元数据文件。文章还提供了相关GitHub资源链接，帮助读者更好地理解和实现项目。

1564 11 11

游客avsawnkvmmxp6

|

18天前

|

机器学习/深度学习 BI

|

博文

数据智能体目前能做到多少准确率？

本文客观分析字节、帆软、京东、Palantir、UINO等主流数据智能体的准确率表现，揭示NL2SQL、宽表、本体+智能体等技术路线的真实水平（单表最高98%+，多表本体路线达95%+），指出语义深度、知识积累、测试集差异等核心影响因素，并提供可落地的POC评估框架。（239字）

112 1 1

vd6jcpp2zzci2

|

22天前

|

存储数据挖掘 OLAP

|

博文

数仓入门篇-维度模型与第三范式

第三范式（3NF）是关系数据库规范化核心标准，要求消除传递依赖，确保数据无冗余、“一事一地”。维度模型则面向分析优化，采用星型结构与反规范化设计，以牺牲存储换查询性能与业务可读性。二者各适其用：3NF用于OLTP系统保一致性，维度模型用于OLAP场景提分析效率。（239字）

187 5 5

Echo_Wish

|

2月前

|

JSON 自然语言处理数据格式

|

博文

本接口用于获取闲鱼商品详情，包括标题、价格、库存、卖家信息、图片链接、交易记录等核心数据，返回JSON格式，适用于商品监控、竞品分析等合规场景。需通过模拟请求或授权方式调用，注意反爬机制。

543 1 1

游客2hehlpp5ckvw4

|

4月前

|

自然语言处理 fastjson Java

|

博文

FastJson：大面积故障规避案例

本文记录了一次由Kotlin与Java混编工程中误用`{}`赋值引发的FastJson反序列化崩溃问题。因将空对象误写为lambda表达式，导致FastJson内部静态标记位`kotlin_error`被置为true且无法恢复，进而使整个应用反序列化链路瘫痪。问题隐蔽性强，排查耗时两天，最终通过源码分析定位。文章反思了多语言混编下的语法混淆风险、框架信任边界及灰度发布的重要性，强调Bug是成长的阶梯。

170 0 0

游客7km4snizezcsg

|

4月前

|

人工智能 JSON 数据挖掘

|

博文

大模型应用开发中MCP与Function Call的关系与区别

MCP与Function Call是大模型应用的两大关键技术。MCP为模型与外部工具提供标准化通信协议，实现跨模型、跨平台集成；Function Call则是模型调用外部函数的内置机制。前者如“蓝牙协议”，支持多设备互联，后者像“语音助手”，限于单机操作。两者在功能上互补：MCP支持工具热插拔、权限控制与远程调用，适用于企业级复杂系统；Function Call开发简单，适合快速验证单一模型能力。未来趋势将走向融合，形成“模型解析-协议传输-工具执行”的分层架构，推动AI应用生态标准化发展。

282 0 0

老常GEO优化实战

|

4月前

|

存储机器学习/深度学习人工智能

|

博文

GEO 优化必备：RAG 技术全解析（基于知识密集型 NLP 经典论文）

2020 年论文提出的 RAG（检索增强生成），专治大模型 “幻觉、知识过时” 等落地痛点。它将 “检索外部知识” 与 “生成回答” 深度绑定，先精准抓取相关知识片段，再让模型基于证据生成内容。通过端到端联合训练，检索与生成协同优化，事实准确率显著提升，幻觉率大降。无需重训模型即可更新知识，还能追溯答案来源。如今成企业客服、医疗法律等领域刚需，推动大模型从 “通用” 走向 “可信实用”。这让我们做GEO优化就有了基础理论和方法。

509 1 1

来自：向量检索服务 Milvus 版版块

Echo_Wish

|

5月前

|

机器学习/深度学习搜索推荐算法

|

博文

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

315 8 8

winx_19970108018

|

5月前

|

JSON 监控数据挖掘

|

博文

闲鱼商品详情API接口指南

闲鱼商品详情API（Goodfish.item_get）为开发者提供通过商品ID获取标题、价格、图片、卖家等信息的接口，采用RESTful风格与JSON格式，支持价格监控、数据分析及第三方应用集成。

622 1 1

Deephub

|

6月前

|

人工智能自然语言处理安全

|

博文

氛围编程陷阱：为什么AI生成代码正在制造大量"伪开发者"

AI兴起催生“氛围编程”——用自然语言生成代码，看似高效实则陷阱。它让人跳过编程基本功，沦为只会提示、不懂原理的“中间商”。真实案例显示，此类项目易崩溃、难维护，安全漏洞频出。AI是技能倍增器，非替代品；真正强大的开发者，永远是那些基础扎实、能独立解决问题的人。

608 11 11

游客tgzh4vpcdl4v6

|

7月前

|

SQL Oracle 关系型数据库

|

博文

19c多租户架构下的UNDO管理- Local Undo

Oracle 12c引入多租户架构，PDB共享CDB的UNDO表空间。19c新增Local Undo特性，支持各PDB独立管理UNDO，提升性能、隔离性与可管理性，且为热克隆、PDB迁移等高级功能的前提。建议19c环境启用Local Undo。

804 10 10

martinzh717

|

11月前

|

机器学习/深度学习数据采集缓存

|

博文

为什么大厂面试官都在问XGBoost？

作为机器学习面试的必考题，XGBoost为什么如此重要？本文用通俗易懂的方式，带你掌握XGBoost的核心知识点，让你在面试中侃侃而谈，轻松拿下offer！

425 1 1

竹相_左小空空

|

12月前

|

移动开发人工智能定位技术

|

博文

用 Godot 开发像素风《饥荒》的流程

954 6 6

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

大模型训练方法与技术术语解释

构建AI智能体：七十三、模型的成绩单：一文读懂损失函数，看懂AI如何学习

Pandabuy复制指南：淘宝1688代购系统搭建

搭建实时足球比分系统从零到一的实战指南

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

自动化爬虫：requests定时爬取前程无忧最新职位

1949AI 零代码本地自动化工具：轻量化部署适配低配置电脑设备

1949AI 轻量化 AI 自动化 本地自动化工具 + 浏览器自动化 + Agent 自动化工具 小说连载生成技术实践

PPO 实战：第一次跑通 PPO，到底难在哪

1.认识OAuth2.0

容器引擎Docker

1.什么是权限管理

汇总

2025数字员工技术选型白皮书：阿里云/亚马逊等5款产品云原生能力实测

AI 数据分析如何保障准确性？构建可信数据基础成为关键

1688商品列表API完整指南

LangChain 不只是“拼模型”：教你从零构建可编程的 AI 工作流

阿里云大数据AI产品月刊-2025年10月

VScode、Trae断点的按钮找不到

当AI开始一本正经“胡说八道”，我们该怎么办？——聊聊大模型安全与反“幻觉”技术

拆解AI-Agentforce企业级智能体中台：如何让企业AI落地从“噱头”到“实效”

Dify部署全栈指南：AI从Ubuntu配置到HTTPS自动化的10倍秘籍

Step-Audio2 声音克隆 详细介绍

近端策略优化算法PPO的核心概念和PyTorch实现详解

革新智能驾驶数据挖掘检索效率！某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎

JOIN顺序优化：小表驱动大表的执行原则

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

ChronosX: 可使用外生变量的时间序列预测基础模型

通过阿里云Milvus与通义千问VL大模型，快速实现多模态搜索

LIDC-IDRI肺结节数据集分割策略

数据智能体目前能做到多少准确率？

数仓入门篇-维度模型与第三范式

别再“随缘提问”了：聊聊 LLM 的 Prompt Design，怎么把大模型调教得更靠谱？

不会选数据，别说你会AI：一份给新手的极简数据集实战手册

你的模型真的“学”会了吗？微调效果评估实战指南

标注不规范，大模型全白练：聊聊训练大模型背后的规模化数据治理与标注流水线

Matplotlib 入门指南：让数据"开口说话"的魔法库

数据语义层 vs 宽表模式：哪种架构更适合 AI 时代的数据分析？

给大模型“开小灶”：零代码实战专属领域微调，手把手教你打造AI专家

Python | K折交叉验证的参数优化的支持向量机回归（SVR）预测及可视化算法

闲鱼商品详情API接口文档

FastJson：大面积故障规避案例

大模型应用开发中MCP与Function Call的关系与区别

GEO 优化必备：RAG 技术全解析（基于知识密集型 NLP 经典论文）

用数据给婚恋 App 把把脉：让匹配更靠谱、聊天更顺畅、留存更健康

闲鱼商品详情API接口指南

氛围编程陷阱：为什么AI生成代码正在制造大量"伪开发者"

19c多租户架构下的UNDO管理- Local Undo

为什么大厂面试官都在问XGBoost？

用 Godot 开发像素风《饥荒》的流程

大数据与机器学习

活跃用户

相关产品

1949AI 轻量化 AI 自动化本地自动化工具 + 浏览器自动化 + Agent 自动化工具小说连载生成技术实践

Step-Audio2 声音克隆详细介绍