大数据与机器学习-最热-第13页-阿里云开发者社区

Echo_Wish

|

7月前

|

存储 SQL 网络协议

|

博文

别把数据迁移当复制粘贴：一线人踩坑总结的云上 / 跨云迁移实战指南

404 0 0

be4z2royodrny

|

7月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

大模型专业名词解释手册

本手册由油炸小波设计提示词、Manus创作，系统梳理大语言模型核心概念，涵盖基础原理、训练技术、优化压缩、推理应用、评估调试及伦理安全六大模块，深入浅出解析LLM关键技术术语。

730 0 0

游客6aafr7mks52p4

|

7月前

|

前端开发 Java 数据库

|

博文

低代码技术架构

后端采用Spring Boot + Spring Cloud Alibaba微服务架构，Java 8+/17，Maven管理，集成MybatisPlus、Shiro+Jwt、Redis、Druid、Nacos等；前端基于Vue3.0 + TypeScript + Vite5 + Ant-Design-Vue4，支持权限控制、动态菜单等，需Node 20环境。

198 0 0

游客7km4snizezcsg

|

7月前

|

XML 算法安全

|

博文

详解RAG五种分块策略，技术原理、优劣对比与场景选型之道

RAG通过检索与生成结合，提升大模型在企业场景的准确性与安全性。分块策略是其核心，直接影响检索效果与回答质量。本文系统解析五种主流分块方法：固定大小、语义、递归、基于文档结构及LLM分块，对比其优缺点与适用场景，并提出组合优化路径，助力构建高效、可信的RAG系统。

664 0 0

刻舟未必求剑

|

7月前

|

数据采集人工智能

|

问答

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

1403 2 0

winx_19970108018

|

7月前

|

JSON 前端开发 API

|

博文

京东商品详情 API 实战指南

京东商品详情API通过抓包分析前端异步请求，获取商品标题、价格、库存等核心信息，适用于电商数据分析与比价系统。本文详解接口逻辑、关键参数及Python实现，并强调反爬策略与合规性，助力开发者安全高效采集数据。（238字）

421 3 3

AI未闻花名

|

7月前

|

机器学习/深度学习数据采集人工智能

|

博文

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

交叉验证是机器学习中评估模型性能的核心方法，通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现，展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来，传统交叉验证面临计算成本挑战，但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程，强调交叉验证在有限数据场景下的不可替代性，同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。

766 16 17

ChenAI_TGF

|

7月前

|

运维持续交付 API

|

博文

具身智能：零基础入门睿尔曼机械臂（四）—— 夹爪无响应？官方例程踩坑与排错实战

本文复盘睿尔曼机械臂夹爪“指令成功但无动作”的故障，揭示官方例程遗漏末端电压配置与通信协议初始化两大隐患。通过“软件—硬件—通信”三步排查，结合万用表测量与示教器配置，最终解决供电缺失与指令失效问题，为末端执行器部署提供可落地的实战方案。

701 6 6

ChenAI_TGF

|

7月前

|

数据采集 Web App开发安全

|

博文

爬虫专栏：破解网站检测selenium反爬——“当前环境正在被调试“”

本文记录了一次Selenium爬虫被Gitee安全验证拦截的排查经历。爬虫运行一周后突然失效，频繁触发“安全验证”弹窗，尝试隐藏webdriver特征、更换IP、模拟人工操作等均无效。最终发现：手动访问Gitee完成验证后，环境风险标记解除，爬虫自动恢复正常。表明反爬机制针对的是“访问环境”而非工具本身，人工验证可快速解锁，为同类问题提供简洁高效的解决思路。

693 4 4

Echo_Wish

|

7月前

|

存储 SQL 大数据

|

博文

分布式存储三国杀：对象存储 vs HDFS vs 列式存储，到底该怎么选？

481 3 3

刻舟未必求剑

|

8月前

|

数据采集

|

问答

大家在做社媒数据采集时，用selenium和playwright怎么解决爬虫检测呀？

660 1 0

赵渝强老师

|

8月前

|

数据采集运维 DataWorks

|

博文

【赵渝强老师】阿里云大数据集成开发平台DataWorks

DataWorks是阿里云一站式大数据开发治理平台，支持数据集成、开发、建模、分析、质量监控、服务化及迁移等全链路功能，兼容多种计算引擎，助力企业高效构建数据中台，实现数据资产化与价值挖掘。

744 6 6

来自：大数据开发治理DataWorks 版块

winx_19970108018

|

8月前

|

搜索推荐 API 开发者

|

博文

1688图片搜索API | 上传图片秒找同款 | 相似商品精准推荐

1688图片搜索API是阿里巴巴B2B平台提供的图像识别服务，支持通过上传商品图片在海量商品库中快速查找同款或相似商品。适用于电商比价、批量搜索及系统集成，提升采购效率。建议使用清晰图片并优化分类与分页设置，以提高搜索准确率和性能表现。

806 0 0

nick6507384252

|

8月前

|

机器学习/深度学习人工智能计算机视觉

|

博文

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

FBRT-YOLO提出专用于航拍图像的实时目标检测模型，通过轻量化设计、增强多尺度融合与小目标优化，在保证高精度的同时显著提升速度，实现复杂场景下更优的性能平衡。

721 0 0

winx_19970108018

|

8月前

|

监控数据挖掘 API

|

博文

淘宝天猫商品详情API全攻略

淘宝天猫商品详情API是淘宝开放平台的核心接口，支持通过商品ID获取标题、价格、库存、SKU等全维度信息，采用RESTful设计，实时高效，适用于比价系统、库存监控、智能选品等电商应用开发与数据分析场景。

625 0 0

mashukui

|

9月前

|

数据可视化关系型数据库 MySQL

|

博文

【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理，简单粗暴！

本文详解基于Python的电影TOP250数据可视化大屏开发全流程，涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据，pandas存入MySQL，pyecharts实现柱状图、饼图、词云图、散点图等多种图表，并通过Page组件拖拽布局组合成大屏，支持多种主题切换，附完整源码与视频讲解。

892 4 4

魔羯座liaotianfeile

|

10月前

|

XML JSON 算法

|

博文

京东商品 SKU 信息接口（jingdong.ware.sku.get）技术干货：数据拉取、规格解析与字段治理（附踩坑总结 + 可运行代码）

本文详解京东商品SKU接口对接技术，涵盖核心参数、权限申请、签名生成、规格解析及常见坑点解决方案，结合可运行代码与实战经验，助力开发者高效集成SKU数据，实现库存、价格等关键信息精准获取。

837 1 1

xxrjl

|

10月前

|

人工智能分布式计算 DataWorks

|

博文

阿里云大数据AI产品月刊-2025年8月

阿里云大数据& AI 产品技术月刊【2025年 8 月】，涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

740 2 2

null_is_null

|

11月前

|

机器学习/深度学习存储 JSON

|

博文

PyCharm 创建了第一个项目

在 PyCharm 中创建项目时，合理的目录结构有助于代码、依赖和资源的高效管理。本文详细解析了 PyCharm 的默认目录结构，如 `.idea/`（配置文件）、`venv/`（虚拟环境）、`src/`（源代码）、`tests/`（测试代码）、`data/`（数据文件）等，并提供了文件创建建议和最佳实践。同时介绍了核心代码、脚本文件、测试文件的存放位置，以及 PyCharm 的常用操作技巧，帮助开发者构建清晰、可维护的项目结构。

836 2 2

Deephub

|

11月前

|

机器学习/深度学习算法数据可视化

|

博文

近端策略优化算法PPO的核心概念和PyTorch实现详解

本文深入解析了近端策略优化（PPO）算法的核心原理，并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程，涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合，适合希望掌握PPO算法及其实现的读者。

1692 2 2

Deephub

|

11月前

|

人工智能测试技术芯片

|

博文

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

本文介绍了使用四块Framework主板构建AI推理集群的过程，并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试，重点评估其并行推理能力及集群表现。

1141 0 0

魔羯座liaotianfeile

|

11月前

|

API

|

博文

电商API分享全网最全电商API 备用

这是一组淘宝开放平台API接口列表，涵盖商品详情、评论、搜索、上下架、订单管理、物流查询、店铺信息等多种功能，适用于电商应用开发与数据操作。

269 0 0

网络AI

|

12月前

|

问答

海外和国内节点服务器有什么区别？

234 0 0

Echo_Wish

|

28天前

|

SQL 分布式计算 OLAP

|

博文

别再把 OLAP 和 SQL-on-Hadoop 搞混了！都是查数据，它们根本不是一回事

167 2 2

Echo_Wish

|

29天前

|

SQL 人工智能关系型数据库

|

博文

自助分析平台搭好了，为什么业务还是天天找数据？聊聊权限、模板与联邦查询那些坑

118 3 3

pai_rec_coder

|

1月前

|

并行计算监控 DataWorks

|

博文

阿里云PAI-EAS共享GPU，一卡部署多个模型（EasyRec/TorchEasyRec Processor）

本文介绍在阿里云PAI-EAS平台单GPU卡（如A10/gu30/L20）上部署多个模型实例的实践方案：需购买GPU专有资源组，通过显存划分（如24G卡分3×7G）、配置`gpu_memory`参数实现共享，禁用`gpu_core_percentage`防RT毛刺，并合理设置BatchCount提升吞吐。

447 0 0

来自：人工智能平台PAI 版块

灵杰开发者

|

1月前

|

存储人工智能自然语言处理

|

博文

破解 AI 搜索“效果与成本”双重困境：阿里云 Elasticsearch 向量混合检索最佳实践揭秘

阿里云ES发布向量混合检索最佳实践：融合BM25与kNN，通过BBQ量化（降本95%）、FalconSeek引擎（性能提升7倍）及OpenStore存算分离，兼顾语义精度与成本效益，支持企业级安全合规与AI Native演进。

340 4 5

来自：检索分析服务 Elasticsearch版版块

xj2odytpfugbo

|

1月前

|

问答

阿里百炼大模型免费额度一点没有用，就直接收费了？

328 1 0

来自：人工智能平台PAI 版块

winx_19970108018

|

2月前

|

数据采集 API 开发者

|

博文

淘宝商品详情 API 实战全解：项目落地、接口详解、踩坑血泪总结

本文总结淘宝商品数据采集三大方式：官方TOP接口（合规但限流严）、第三方封装接口（字段全、接入易）及网页爬虫（高风险、不可商用）。结合实战经验，剖析签名失败、SKU嵌套、脏数据过滤等高频坑点，助力高效合规开发。（239字）

422 2 2

游客qwrm3ahr7jmtq

|

2月前

|

人工智能运维安全

|

博文

Windows10用户部署OpenClaw的终极指南｜路径规范+权限配置+故障排查

专为Windows 10 64位深度优化的OpenClaw（小龙虾）一键部署包：免命令行、免环境配置，解压即装；内置全部依赖与28万Tokens，全程可视化操作；独家解决SmartScreen拦截、权限限制等Win10特有问题，新手也能一次成功“养虾”！

451 9 9

李现龙|星阙实验室

|

3月前

|

人工智能自然语言处理搜索推荐

|

博文

知识蒸馏（KD）深度落地：解锁GEO生成式优化轻量化高性能方案

知识蒸馏作为大模型轻量化的核心底层技术，有效解决了大模型落地贵、运行慢、部署难的痛点，让轻量化模型也能具备接近大模型的搜索语义理解与高质量内容生成能力。

535 4 4

来自：智能搜索推荐版块

游客avsawnkvmmxp6

|

3月前

|

SQL 人工智能自然语言处理

|

博文

业务持续变化时,语义层到底该怎么迭代才不会越改越乱?

业务持续变化时，语义层不能靠“打补丁”硬扛。关键在于构建可分层（对象/关系/属性/规则）、可回溯、可校验的迭代机制，实现映射、口径、对象、知识四类变更分离治理，并配套影响分析与持续校准闭环。

226 4 4

数据可视化工程

|

4月前

|

设计模式人工智能边缘计算

|

博文

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

本文剖析协同设计面临的“三重枷锁”：信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例，提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术，推动产设研一体化，释放创新效能。（239字）

304 3 3

来自：数据可视化DataV 版块

Echo_Wish

|

4月前

|

Kubernetes 监控安全

|

博文

别再说“多活一份数据就安全了”：云上灾备的真相，是你根本没想清楚 RTO / RPO

392 9 9

Echo_Wish

|

4月前

|

机器学习/深度学习数据采集人工智能

|

博文

别再从零训练了：用迁移学习“借力打力”，小数据也能玩转大模型

337 15 15

游客vv4u4wyick5ti

|

4月前

|

SQL 人工智能 BI

|

博文

Gartner：40% 的 AI Agent 项目注定被砍

造 Agent 越来越容易，但壁垒不在模型，在数据语义层。养虾热闹，虾能不能活取决于水质。

297 1 2

Echo_Wish

|

4月前

|

分布式计算 Kubernetes Spark

|

博文

Spark / Flink 跑在 Kubernetes 上真的更香吗？聊聊那些没人提前告诉你的性能坑

480 7 7

winx_19970108018

|

4月前

|

监控数据挖掘 API

|

博文

从踩坑到高效落地：淘宝商品详情API的实操心得

淘宝商品详情API提供全维度商品数据，含基础信息、详情页HTML、SKU、价格、销量等，支持比价、代购、数据分析及内容电商等场景，涵盖item.get、item.get_pro等核心接口，接入便捷高效。

530 4 5

AI超级个人

|

4月前

|

机器学习/深度学习人工智能 JSON

|

博文

AI 术语满天飞？90% 的人只懂名词，不懂为什么！

本文不堆砌概念，只讲前因后果：从大模型底层逻辑，到 Context、RAG、Function Calling、MCP、Skills 的核心关联，拆解所有面试高频考点，让你告别 “名词解释”，吃透原理，面试直接碾压面试官！

1622 7 8

奔跑的数据

|

4月前

|

数据采集网络协议 API

|

博文

从提取式API到隧道代理：提升爬虫稳定性的5个核心秘籍

本文讨论了五个关键细节以优化爬虫代理使用：使用隧道代理、合理设置超时、利用连接池、引入重试机制、伪装请求头。通过隧道代理的实战代码示例，展示了如何实现这些优化，以提高爬虫的稳定性和效率。

479 2 2

狸奴算君

|

5月前

|

人工智能自然语言处理小程序

|

博文

给AI拜年差点翻车后，我悟了：RAG和微调，到底谁更懂“人情世故”？

大家好，我是AI伙伴狸猫算君！本文以“AI写春节祝福”为切入点，深入剖析RAG与微调的技术差异：RAG依赖检索拼凑，难捕获独特人情；微调则通过高质量关系感知数据，将“称呼、细节、风格”内化为模型本能。手把手演示30分钟用LLaMA-Factory完成Qwen3微调，让祝福真正有温度、有梗、有你。

386 13 13

狸奴算君

|

5月前

|

存储人工智能物联网

|

博文

大模型微调内存优化全攻略：无需昂贵显卡，打造你的AI助手

本文深入解析大模型微调为何“烧显存”，从原理（模型参数、优化器状态、激活值三大显存杀手）到实战：推荐QLoRA等高效方法，结合梯度累积、序列截断、混合精度与DeepSpeed优化，并介绍LLaMA-Factory Online等低门槛平台，助开发者用消费级显卡轻松微调专属模型。（239字）

588 22 22

1隔壁老陈

|

5月前

|

人工智能自然语言处理架构师

|

博文

AI Agent 职业路线全指南：从智能体普及浪潮到分层能力构建

2026年，“AI+”进入产业级落地期，智能体成为数字化转型核心基础设施。全球市场规模达2.3万亿，我国2027年普及率将超70%。人才缺口巨大，教育部已设“智能体技术应用”新专业。本文系统梳理四类职业路径（管理者、架构师、多智能体专家、垂直领域专家）及企业治理框架，助力职场人锚定定位、实战进阶。（239字）

933 2 3

狸奴算君

|

6月前

|

人工智能安全物联网

|

博文

告别数据泄露：三步构建企业级AI的隐私保护盾

企业微调大模型面临数据不出域与合规强监管的双重挑战。本文详解差分隐私（加噪声）、联邦学习（数据不动模型动）和LoRA（仅调0.1%参数）三重防护技术，覆盖脱敏、训练、部署全链路，并提供可运行代码与ε值选型指南，助你安全打造专属AI。（239字）

704 1 1

Echo_Wish

|

6月前

|

机器学习/深度学习搜索推荐算法

|

博文

推荐系统为啥都长一个样？聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

427 0 0

Calvad0s

|

6月前

|

人工智能

|

博文

大模型产生幻觉的原因，如何解决？

大模型“幻觉”指AI生成看似合理但错误或虚构的信息，源于其概率预测机制、训练数据缺陷及缺乏事实核查能力。可通过RAG、微调、联网检索、自我核查等方法降低幻觉风险，提升输出准确性与可靠性。（238字）

1979 3 3

Echo_Wish

|

6月前

|

消息中间件 JSON Kafka

|

博文

“字段多一个，凌晨三点炸一次”：聊聊流数据里的 Schema 演化，到底该怎么扛

303 10 10

星辰归鱼

|

7月前

|

缓存前端开发 JavaScript

|

博文

Vue微服务架构实践：从单应用到微前端的落地方案

本文详解Vue微前端架构，针对大型项目面临的代码冗余、协作困难等问题，拆解从子应用改造、主应用搭建到部署优化的全流程。基于qiankun框架，实现团队独立开发、技术栈灵活、增量升级与独立部署，提升系统可维护性与扩展性，为中大型前端项目提供落地实践方案。

1636 0 0

游客fjfnvw6coc64q

|

7月前

|

人工智能缓存自然语言处理

|

博文

大模型推理与应用术语解释

简介：大语言模型核心技术涵盖推理、生成式AI、检索增强生成（RAG）、提示工程、上下文学习、代理、多模态学习与语义搜索。这些技术共同推动AI在内容生成、知识检索、智能决策和跨模态理解等方面的能力跃升，广泛应用于问答系统、创作辅助、企业服务与自动化任务，正重塑人机交互与信息处理范式。（238字）

248 0 0

游客p4omngj4p6cwq

|

7月前

|

缓存 Java 数据库连接

|

博文

1.常见配置

MyBatis配置优先级：方法参数 > resource/url > properties内属性。核心设置包括缓存、延迟加载、主键生成等。支持多环境配置，通过environments指定，默认使用development。事务管理可选JDBC或MANAGED，与Spring集成时由Spring接管。

1121 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

别把数据迁移当复制粘贴：一线人踩坑总结的云上 / 跨云迁移实战指南

大模型专业名词解释手册

低代码技术架构

详解RAG五种分块策略，技术原理、优劣对比与场景选型之道

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

京东商品详情 API 实战指南

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

具身智能：零基础入门睿尔曼机械臂（四）—— 夹爪无响应？官方例程踩坑与排错实战

爬虫专栏：破解网站检测selenium反爬——“当前环境正在被调试“”

分布式存储三国杀：对象存储 vs HDFS vs 列式存储，到底该怎么选？

大家在做社媒数据采集时，用selenium和playwright怎么解决爬虫检测呀？

【赵渝强老师】阿里云大数据集成开发平台DataWorks

1688图片搜索API | 上传图片秒找同款 | 相似商品精准推荐

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

淘宝天猫商品详情API全攻略

【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理，简单粗暴！

京东商品 SKU 信息接口（jingdong.ware.sku.get）技术干货：数据拉取、规格解析与字段治理（附踩坑总结 + 可运行代码）

阿里云大数据AI产品月刊-2025年8月

PyCharm 创建了第一个项目

近端策略优化算法PPO的核心概念和PyTorch实现详解

AMD Ryzen AI Max+ 395四机并联：大语言模型集群推理深度测试

电商API分享 全网最全电商API 备用

海外和国内节点服务器有什么区别？

别再把 OLAP 和 SQL-on-Hadoop 搞混了！都是查数据，它们根本不是一回事

自助分析平台搭好了，为什么业务还是天天找数据？聊聊权限、模板与联邦查询那些坑

阿里云PAI-EAS共享GPU，一卡部署多个模型（EasyRec/TorchEasyRec Processor）

破解 AI 搜索“效果与成本”双重困境：阿里云 Elasticsearch 向量混合检索最佳实践揭秘

阿里百炼大模型免费额度一点没有用，就直接收费了？

淘宝商品详情 API 实战全解：项目落地、接口详解、踩坑血泪总结

Windows10用户部署OpenClaw的终极指南｜路径规范+权限配置+故障排查

知识蒸馏（KD）深度落地：解锁GEO生成式优化轻量化高性能方案

业务持续变化时,语义层到底该怎么迭代才不会越改越乱?

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

别再说“多活一份数据就安全了”：云上灾备的真相，是你根本没想清楚 RTO / RPO

别再从零训练了：用迁移学习“借力打力”，小数据也能玩转大模型

Gartner：40% 的 AI Agent 项目注定被砍

Spark / Flink 跑在 Kubernetes 上真的更香吗？聊聊那些没人提前告诉你的性能坑

从踩坑到高效落地：淘宝商品详情API的实操心得

AI 术语满天飞？90% 的人只懂名词，不懂为什么！

从提取式API到隧道代理：提升爬虫稳定性的5个核心秘籍

给AI拜年差点翻车后，我悟了：RAG和微调，到底谁更懂“人情世故”？

大模型微调内存优化全攻略：无需昂贵显卡，打造你的AI助手

AI Agent 职业路线全指南：从智能体普及浪潮到分层能力构建

告别数据泄露：三步构建企业级AI的隐私保护盾

推荐系统为啥都长一个样？聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

大模型产生幻觉的原因，如何解决？

“字段多一个，凌晨三点炸一次”：聊聊流数据里的 Schema 演化，到底该怎么扛

Vue微服务架构实践：从单应用到微前端的落地方案

大模型推理与应用术语解释

1.常见配置

大数据与机器学习

活跃用户

相关产品

电商API分享全网最全电商API 备用