大数据与机器学习-第32页-阿里云开发者社区

奔跑的数据

|

4月前

|

数据采集自然语言处理 JavaScript

|

博文

不写规则也能抽数据？

本文探讨了企业在招聘数据分析中对薪资信息采集的挑战，分析了从纯规则采集到智能解析的发展，并指出智能解析在招聘场景中的局限性。推荐企业采用人工规则与智能解析相结合的策略，以确保数据的稳定性和可解释性。

271 2 2

winx_19970108018

|

4月前

|

JSON 前端开发 API

|

博文

京东商品详情 API 实战指南

京东商品详情API通过抓包分析前端异步请求，获取商品标题、价格、库存等核心信息，适用于电商数据分析与比价系统。本文详解接口逻辑、关键参数及Python实现，并强调反爬策略与合规性，助力开发者安全高效采集数据。（238字）

179 3 3

ChenAI_TGF

|

4月前

|

存储文字识别数据可视化

|

博文

实用代码工具：Python打造PDF选区OCR / 截图批量处理工具（支持手动/全自动模式）

一款基于Python的PDF区域OCR与截图工具，支持精准框选、文字识别、图片截取及Excel一键导出。内置手动审核与全自动批量处理模式，结合PyMuPDF、easyocr等技术，实现高效、可视化的PDF数据提取，适用于发票、报表等场景，显著提升办公效率。

635 11 13

AI未闻花名

|

4月前

|

机器学习/深度学习人工智能数据可视化

|

博文

构建AI智能体：七十三、模型的成绩单：一文读懂损失函数，看懂AI如何学习

本文系统介绍了损失函数在机器学习中的核心作用。首先通过类比教学场景，阐释损失函数作为模型"导师"的重要性。随后详细解析了回归任务中的均方误差(MSE)和平均绝对误差(MAE)，通过房价预测案例展示了它们对误差的不同处理方式。在分类任务部分，重点讲解了二分类和多分类交叉熵损失函数，使用垃圾邮件识别和图像分类等实例，说明这些函数如何通过概率计算来评估预测准确性。文章通过可视化图表直观呈现了不同损失函数的特点，并强调损失函数作为模型优化的指南针，其设计直接影响学习效果。

467 20 20

Echo_Wish

|

4月前

|

存储 SQL JSON

|

博文

云上数据管道太烧钱？别急，我给你捋一捋这三刀该怎么省（存储 / 计算 / 网络）

91 2 2

Echo_Wish

|

4月前

|

人工智能调度芯片

|

博文

Chiplet 技术：芯片终于不再“憋大招”，而是开始像搭积木一样干活了

219 0 0

游客oopgq52nlgwdg

|

4月前

|

数据采集安全 API

|

博文

高精度IP定位：准确性提升与数据优化全攻略

使用IP数据云、IPinfo、IPnews这类专业的IP数据服务平台检测，不仅可以查询IP，更是一个网络风险识别仪器。对于跨境电商、安全研究人员，或者想提高上网隐私的人来说，都挺值得收藏学习。

862 1 1

winx_19970108018

|

4月前

|

数据采集缓存供应链

|

博文

1688关键字搜索工厂数据API使用指南

1688工厂数据接口支持通过关键词与多维度筛选（地区、类型、实力等）获取供应商核心信息，涵盖资质、产能、经营等20余项字段，助力产业带分析、源头直采与供应链调研，适用于电商选品、跨境 sourcing 等场景。

342 1 1

奔跑的数据

|

4月前

|

数据采集传感器调度

|

博文

并发控制的下一步：让系统自己决定速度

本文讨论了并发控制的三个阶段：1.0阶段的固定并发模型，2.0阶段的规则驱动并发调节，以及3.0阶段的反馈驱动自适应模型。文章通过实战项目展示了如何实现自适应并发采集，强调了系统能力建设的重要性，使稳定性成为自然结果。

108 0 0

winx_19970108018

|

4月前

|

数据采集 API 开发者

|

博文

1688商品评论API使用指南

本文介绍1688商品评论数据获取方案，基于合规爬虫技术解析商品ID（offerId）对应的买家评论信息，涵盖评论内容、评分、采购详情、多媒体及商家回复等。适用于口碑分析、质量调研等非商用学习场景，遵循平台规则与法律法规，不提供官方API外的公开接口。

158 1 1

yxybox

|

4月前

|

人工智能

|

博文

基于vite7.2+vue3.5+deepseek-v3.2高颜值流式ai会话助手

基于vue3.5+vite7.2+vant4+markdown+openai深度集成deepseek-v3.2聊天大模型。支持浅色+深色主题、stream流式输出、代码高亮、复制代码、katex公式、mermaid图表等功能。

212 4 4

AI未闻花名

|

4月前

|

机器学习/深度学习数据采集人工智能

|

博文

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

交叉验证是机器学习中评估模型性能的核心方法，通过轮换数据划分实现稳健评估。文章系统解析了k折交叉验证的原理与实现，展示其在模型比较和超参数优化中的关键作用。随着大模型时代的到来，传统交叉验证面临计算成本挑战，但核心思想仍应用于下游任务。文章通过可视化案例完整呈现了从数据准备到最终评估的工作流程，强调交叉验证在有限数据场景下的不可替代性，同时指出需要根据任务规模灵活选择评估策略。理解交叉验证的原理与应用是AI从业者的必备能力。

408 16 17

Echo_Wish

|

4月前

|

消息中间件分布式计算 Kafka

|

博文

数据慢半拍，问题可能不在“数据”：聊聊数据传播延迟的那些坑

242 7 7

winx_19970108018

|

4月前

|

机器学习/深度学习 JSON API

|

博文

1688图片识别商品接口API使用指南

1688图片识别商品API基于深度学习技术，支持上传图片或URL，精准识别1688平台商品信息，涵盖标题、链接、价格、供应商等。适用于批发采购、货源匹配等场景，具备高精度、低延迟、强兼容特性，支持主流图片格式，遵循RESTful规范，助力开发者高效对接1688商品生态。

250 1 1

灵杰开发者

|

4月前

|

消息中间件 Java Kafka

|

博文

在 OpenAI 打造流处理平台：超大规模实时计算的实践与思考

本文介绍OpenAI构建流处理平台的实践与挑战。面对Kafka高可用、Python生态兼容、云环境限制等问题，团队基于PyFlink打造跨区域流处理架构，集成Kafka HA组、自研代理与控制平面，支撑实时Embedding生成、特征计算等场景，并推动开源协作与平台自动化演进。

276 1 1

来自：实时计算 Flink 版块

winx_19970108018

|

4月前

|

JSON 监控 API

|

博文

1688搜索店铺列表API使用指南

1688开放平台提供搜索店铺列表API，支持按关键词、行业、地区等条件检索店铺信息，适用于市场调研、竞品监控等场景。本文详解接口摘要、参数说明及Python调用示例，助力开发者高效接入。

876 1 1

Echo_Wish

|

4月前

|

机器学习/深度学习人工智能芯片

|

博文

当算力变成“新石油”：AI 芯片的战争、底层逻辑与未来爆点

274 15 15

Echo_Wish

|

4月前

|

SQL 分布式计算大数据

|

博文

别让大数据任务“互相等着死” ——聊聊任务依赖与 DAG 设计的江湖规矩

175 6 6

游客5ghrq7wwljqxu

|

4月前

|

API 开发者

|

博文

美股（纳斯达克/纽交所）数据 API 对接实战（含实时行情与 IPO 功能）

本文介绍如何通过StockTV API快速对接美股数据，支持纳斯达克、纽交所实时行情、IPO日历、K线图及公司基本面信息。仅需配置`countryId=5`，即可高效集成专业级金融数据，适用于量化交易与行情应用开发。

796 2 2

ChenAI_TGF

|

4月前

|

存储数据采集算法

|

博文

具身智能：零基础入门睿尔曼机械臂（六）——手眼标定代码库详解，从原理到实践

本文详解睿尔曼手眼标定代码库，涵盖眼在手上与眼在手外两种模式的实现原理及核心代码解析。内容包括数据采集、位姿处理、相机标定与手眼矩阵求解全流程，结合OpenCV的Tsai算法实现高精度坐标转换，助力机器人视觉精准抓取应用开发。

543 3 3

ChenAI_TGF

|

4月前

|

数据采集人工智能算法

|

博文

具身智能：零基础入门睿尔曼机械臂（七）—— 衔接开源代码！机械臂手眼标定实操

本文详解睿尔曼机械臂手眼标定全流程，涵盖环境搭建、设备准备、眼在手上/外的标定步骤、常见问题解决及标定结果在视觉抓取中的应用，助你实现精准视觉引导操作。

702 2 2

winx_19970108018

|

4月前

|

数据采集数据挖掘 API

|

博文

1688店铺所有商品API使用指南

本文详解1688店铺商品API的使用，涵盖接口摘要、概述、Python请求示例及注意事项。通过该API可获取商品列表、详情等核心数据，适用于店铺管理、ERP系统与数据分析。结合代码演示，助开发者快速完成对接，实现高效数据采集与应用。（239字）

233 4 4

AI未闻花名

|

4月前

|

机器学习/深度学习人工智能前端开发

|

博文

构建AI智能体：七十、小树成林，聚沙成塔：随机森林与大模型的协同进化

随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树并结合它们的预测结果来提高准确性和稳定性。其核心思想包括两个随机性：Bootstrap采样（每棵树使用不同的训练子集）和特征随机选择（每棵树分裂时只考虑部分特征）。这种方法能有效处理大规模高维数据，避免过拟合，并评估特征重要性。随机森林的超参数如树的数量、最大深度等可通过网格搜索优化。该算法兼具强大预测能力和工程化优势，是机器学习中的常用基础模型。

958 165 168

IvanCodes

|

4月前

|

SQL HIVE

|

博文

十一、Hive JOIN 连接查询

在 Hive 的世界里，JOIN 就像是数据间的红线，把原本分散在各自表里的信息串联起来。无论是内连接、外连接，还是 Hive 特有的左半连接，都各有“武功招式”，适用于不同场景。

258 12 12

IvanCodes

|

4月前

|

SQL 大数据数据挖掘

|

博文

十、HQL：排序、联合与 CTE 高级查询

Hive 查询不仅能查，还能查得漂亮、高效。我们这次聚焦 HQL 中的高级技巧——从 ORDER BY 到 SORT BY、DISTRIBUTE BY 与 CLUSTER BY，带你理解排序在分布式环境中的执行逻辑；再深入讲解 UNION 与 CTE 等查询组织方式，帮你将复杂 SQL 拆解得更清晰。我还特意写了丰富示例与实战练习，适合正在提升 Hive 查询能力的你阅读、收藏和练习。

228 6 6

IvanCodes

|

4月前

|

SQL 存储分布式计算

|

博文

九、HQL DQL七大查询子句

Hive 查询写得清楚，数据分析就能更顺手。我们这次从入门角度出发，带你理清 Hive 中最常用的七个查询子句（FROM、WHERE、GROUP BY、HAVING、SELECT、ORDER BY、LIMIT），结合执行顺序梳理每一步的用法与注意事项。每个子句都有配套案例，还有实战练习题帮你快速上手。如果你刚开始学习 Hive 查询，或希望把基础打得更扎实，这篇内容值得收藏。

196 9 9

IvanCodes

|

4月前

|

SQL 存储数据处理

|

博文

八、HQL DML数据导入与操作

在 Hive 中，写好一条 INSERT，远不止“把数据塞进去”那么简单。本文将用清晰的语法讲解和实用案例，带你一步步掌握 LOAD DATA、INSERT ... SELECT、动态分区、CTAS 等核心用法。从数据导入、表间写入到多表分发、HDFS 导出，覆盖 Hive DML 的关键技能，让你的数据处理更高效、更得心应手。

155 6 6

IvanCodes

|

4月前

|

SQL 存储数据管理

|

博文

七、深入 Hive DDL：管理表、分区与洞察元数据

在日常使用 Hive 的过程中，我们不仅要会建表，更要学会灵活地维护和管理已有的数据结构。从添加字段到修改分区，从查看元数据到删除表或清空数据，掌握这些 DDL 操作和常用的 SHOW 命令，就像掌握了一套管理数据仓库的“万能钥匙”。这次将带你一步步熟悉这些命令的用法和实际应用场景，配合清晰的语法示例与练习题，帮助你更轻松地驾驭 Hive 数据管理的日常工作。

456 6 6

IvanCodes

|

4月前

|

SQL 数据采集存储

|

博文

六、Hive 分桶

在 Hive 的世界里，除了常见的分区，分桶也是一项非常实用的数据优化方式。它能帮助我们将数据按某个字段均匀划分到多个“桶”中，不仅能提升大表连接的效率，还特别适合做数据抽样和精细管理。本文将带你一步步了解分桶表的创建方法、数据加载过程和常见应用场景，配有丰富示例和练习题，帮助你在实战中轻松掌握这项技能。

374 7 7

Echo_Wish

|

4月前

|

机器学习/深度学习人工智能监控

|

博文

别把模型当宠物养：从 CI/CD 到 MLOps 的工程化“成人礼”

416 163 164

IvanCodes

|

4月前

|

SQL 存储 JSON

|

博文

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

Hive 中的表是数据仓库的核心容器，定义了数据的结构和存储方式。本文系统讲解了 Hive 中创建表的语法与关键参数，包括字段类型、分隔符设置、SerDe 使用等内容，特别通过结构化与复杂数据类型（如 ARRAY、MAP、STRUCT）的案例讲解，让读者理解如何让 Hive 正确“读懂”你的数据。配合常见示例与练习题，帮你打好 Hive 表设计的基础，轻松驾驭文本、JSON 等多格式数据。数据如何入库、如何被解析，一文看懂！

210 12 13

IvanCodes

|

4月前

|

SQL 存储分布式计算

|

博文

五、Hive表类型、分区及数据加载

在 Hive 中设计表，绝不仅是“建个结构那么简单”。选对内部表或外部表，决定了数据的归属和生命周期；设计合理的静态/动态分区策略，则直接关系到大数据场景下的查询效率和存储管理成本。本文深入讲解 Hive 表类型与分区机制，配合大量实战代码与练习题，带你从“写对语法”走向“设计合理”，让你的数仓查询快到飞起！

284 11 11

IvanCodes

|

4月前

|

SQL 存储 Apache

|

博文

三、Hive DDL数据库操作

Hive 中的数据库（Schema）是构建数据仓库的基础单位。这次我们来了解 Hive 中创建、查看、切换、修改与删除数据库的 DDL 操作语法与用法，涵盖 COMMENT、LOCATION、DBPROPERTIES 等常用参数，辅以丰富示例与练习，助你扎实掌握 Hive 数据库管理核心能力。

279 11 11

AI未闻花名

|

4月前

|

机器学习/深度学习人工智能算法

|

博文

构建AI智能体：六十八、集成学习：从三个臭皮匠到AI集体智慧的深度解析

集成学习不是简单的"模型堆砌"，而是有深刻理论支撑的系统性方法。理解其核心思想：集体智慧，多个不完美的个体可以组成一个强大的集体，误差分解，通过降低方差或偏差来提升性能，多样性驱动，模型间的差异是集成效果的关键，分层学习，从数据学习到学习如何学习。集成学习代表了机器学习中的一个重要哲学：通过协作和组合，我们可以创造出超越任何单个组件能力的系统。这正是"三个臭皮匠，顶个诸葛亮"在人工智能时代的具体实践。

388 108 108

Echo_Wish

|

4月前

|

运维安全 Ubuntu

|

博文

补丁别靠吼，Linux补丁要自动化！从 openEuler 打通到全栈实践方案

357 154 155

Echo_Wish

|

4月前

|

消息中间件分布式计算测试技术

|

博文

数据管道别裸奔！聊聊单元、集成、端到端测试的“三层护体”玩法

126 1 1

cduukj

|

4月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

深度ai学术-从全网文献搜索到免费文献AI解析

深度AI学术（scholar.aisciresgo.com）打通科研全流程：全网智能搜索、免费获取文献、AI深度解析与精准翻译，一站式解决“搜不到、下不了、读不完”难题，助力研究者高效创新，开启智能科研新范式。

545 1 1

来自：智能搜索推荐版块

winx_19970108018

|

4月前

|

存储供应链 API

|

博文

1688店铺详情API使用指南

1688店铺详情API是阿里巴巴开放平台核心接口，支持通过店铺ID获取商家基本信息、资质、等级及主营类目等数据，适用于电商分析、供应链对接等场景。本文详解接口参数、Python调用示例及注意事项，助开发者高效集成与应用。

300 1 1

Echo_Wish

|

4月前

|

Prometheus 运维监控

|

博文

别再裸奔搞监控了！一篇带你上手 Prometheus+Grafana 的实战指南

863 2 2

Echo_Wish

|

4月前

|

SQL 存储分布式计算

|

博文

别让大数据“全表扫描”掏空你：数据分区策略与分区裁剪的实战心经

248 3 3

游客nm26iwlwhn432

|

4月前

|

博文

盒子模型

`<div>`标签独占一行，宽度默认为父元素宽度，高度由内容决定，可设置宽高；`<span>`标签为行内元素，一行可显示多个，宽高由内容撑开，不可直接设置宽高。

60 1 1

游客nm26iwlwhn432

|

4月前

|

博文

新闻-页脚-超链接

通过a标签实现页面跳转：href指定目标地址，target控制打开方式——self在当前页跳转，blank在新窗口打开。简单高效，适用于各类链接场景。

117 1 1

游客nm26iwlwhn432

|

4月前

|

博文

新闻-正文-段落

通过段落标签（p）可定义文本段落，支持加粗、下划线、倾斜、删除线等文本样式。结合img标签插入图片，丰富页面内容。持续添加多段p与img标签，完善网页结构与视觉呈现。

60 1 1

游客nm26iwlwhn432

|

4月前

|

博文

新闻-正文-视频

使用`<video>`标签可嵌入视频，支持在线资源、相对路径和绝对路径三种src方式，推荐使用相对路径。添加controls属性显示播放控件，通过width和height设置尺寸。

72 0 0

游客nm26iwlwhn432

|

4月前

|

博文

完成新浪新闻-标题-样式

四张图片展示了网页标题样式的修订。

52 0 0

游客nm26iwlwhn432

|

4月前

|

前端开发数据可视化数据挖掘

|

博文

前端创建

三张图片展示了数据可视化图表，包括柱状图、折线图与饼图，用于直观呈现数据分析结果，适用于报告、仪表盘等场景，助力信息清晰传达。

64 1 1

游客nm26iwlwhn432

|

4月前

|

前端开发数据可视化数据挖掘

|

博文

前端引入图片

三张图片展示了数据可视化图表，包括柱状图、折线图与饼图，直观呈现不同数据维度的对比与趋势，适用于数据分析、报告展示等场景，助力快速洞察信息。

54 1 1

游客nm26iwlwhn432

|

4月前

|

数据可视化数据挖掘

|

博文

新闻-标题-优化

三张图片展示了数据可视化图表，包括柱状图、折线图与饼图，直观呈现各类数据分布与趋势，助力快速洞察信息，适用于数据分析、报告展示等场景。

53 0 0

游客nm26iwlwhn432

|

4月前

|

数据库

|

博文

测试数据库删除

新增按ID删除武器皮肤功能，支持数据库记录删除与错误处理，并在index.js中添加测试代码，验证删除操作的正确性。

58 0 0

游客nm26iwlwhn432

|

4月前

|

数据库

|

博文

数据库案例

新增根据ID扣减库存功能，入参为id和stock。校验参数后执行数据库更新，确保库存为非负整数，更新成功返回结果，失败则抛出错误并记录日志。

76 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

不写规则也能抽数据？

京东商品详情 API 实战指南

实用代码工具：Python打造PDF选区OCR / 截图批量处理工具（支持手动/全自动模式）

构建AI智能体：七十三、模型的成绩单：一文读懂损失函数，看懂AI如何学习

云上数据管道太烧钱？别急，我给你捋一捋这三刀该怎么省（存储 / 计算 / 网络）

Chiplet 技术：芯片终于不再“憋大招”，而是开始像搭积木一样干活了

高精度IP定位：准确性提升与数据优化全攻略

1688关键字搜索工厂数据API使用指南

并发控制的下一步：让系统自己决定速度

1688商品评论API使用指南

基于vite7.2+vue3.5+deepseek-v3.2高颜值流式ai会话助手

构建AI智能体：七十二、交叉验证：从模型评估的基石到大模型时代的演进

数据慢半拍，问题可能不在“数据”：聊聊数据传播延迟的那些坑

1688图片识别商品接口API使用指南

在 OpenAI 打造流处理平台：超大规模实时计算的实践与思考

1688搜索店铺列表API使用指南

当算力变成“新石油”：AI 芯片的战争、底层逻辑与未来爆点

别让大数据任务“互相等着死” ——聊聊任务依赖与 DAG 设计的江湖规矩

美股（纳斯达克/纽交所）数据 API 对接实战（含实时行情与 IPO 功能）

具身智能：零基础入门睿尔曼机械臂（六）——手眼标定代码库详解，从原理到实践

具身智能：零基础入门睿尔曼机械臂（七）—— 衔接开源代码！机械臂手眼标定实操

1688店铺所有商品API使用指南

构建AI智能体：七十、小树成林，聚沙成塔：随机森林与大模型的协同进化

十一、Hive JOIN 连接查询

十、HQL：排序、联合与 CTE 高级查询

九、HQL DQL七大查询子句

八、HQL DML数据导入与操作

七、深入 Hive DDL：管理表、分区与洞察元数据

六、Hive 分桶

别把模型当宠物养：从 CI/CD 到 MLOps 的工程化“成人礼”

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

五、Hive表类型、分区及数据加载

三、Hive DDL数据库操作

构建AI智能体：六十八、集成学习：从三个臭皮匠到AI集体智慧的深度解析

补丁别靠吼，Linux补丁要自动化！从 openEuler 打通到全栈实践方案

数据管道别裸奔！聊聊单元、集成、端到端测试的“三层护体”玩法

深度ai学术-从全网文献搜索到免费文献AI解析

1688店铺详情API使用指南

别再裸奔搞监控了！一篇带你上手 Prometheus+Grafana 的实战指南

别让大数据“全表扫描”掏空你：数据分区策略与分区裁剪的实战心经

盒子模型

新闻-页脚-超链接

新闻-正文-段落

新闻-正文-视频

完成新浪新闻-标题-样式

前端创建

前端引入图片

新闻-标题-优化

测试数据库删除

数据库案例

大数据与机器学习

活跃用户

相关产品