大数据与机器学习-最新-阿里云开发者社区

阿里云大数据Al技术

|

人工智能算法云栖大会

|

技术作品

置顶

开启云上 AIGC 动手实践，探索技术创意

面向 GenAI 时代，阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践，提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程，覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域，为您带来 AIGC 开发全新体验。

1014 148

来自：人工智能平台PAI 版块

刘大猫.

|

3小时前

|

安全 Java 索引

|

博文

java工具：《对Collections.sort排序后我想制定查询几条，比如list有10条，我只想获取前4条》

27 4 4

游客chpjeat5ym4ze

|

5小时前

|

人工智能 API 数据库

|

博文

2026 年企业上云新趋势：从资源上云，到流程全链路智能自动化

2026年，企业数字化迈入“流程全链路智能自动化”深水区。本文解析智能体落地“最后一公里”困境——老旧系统无API致自动化中断，并对比三大阵营：开源桌面工具（如CoPaw）、SaaS生态平台（如Coze/Dify）与企业级全栈方案（如实Agent）。重点揭示实在Agent如何以ISSUT视觉理解、“企业龙虾”多智能体协同等技术，打通系统孤岛，实现跨云/本地、有无API的全场景自主执行。

30 0 0

灵杰开发者

|

7小时前

|

人工智能架构师 Apache

|

博文

相约深圳，全球征集｜Flink Forward Asia 2026 演讲议题征集正式启动

Flink Forward Asia 2026将于6月26–27日首次落地深圳，聚焦实时计算与AI深度融合。面向全球征集议题（截止5月29日），涵盖实时AI、AI Agent、湖流一体等前沿方向。免费报名开启，共探下一代实时计算范式！

20 0 0

来自：实时计算 Flink 版块

1371174247805583

|

10小时前

|

人工智能安全 IDE

|

博文

2026年最值得关注的 6个开源 AI 工具

2026年，开源AI已迈入“Agent+Toolchain”时代。本文精选6个真正落地的开源工具：LingtiStudio（AI视频全自动生产）、OpenClaw（系统级自动化Agent）、Ollama（本地LLM基石）、Dify（AI应用开发平台）、Cline（编程Agent）和Gemini CLI（终端AI入口），聚焦自主执行、本地优先、多模型兼容与开发者深度集成四大趋势。（239字）

57 2 2

奔跑的数据

|

11小时前

|

数据采集网络协议中间件

|

博文

Scrapy爬虫大面积报错Timeout/403？彻底解决代理IP失效导致的“丢数据”痛点

爬虫开发常遇代理失效、重试漏判、403/429不重试等痛点，导致数据大量丢失。本文深度剖析Scrapy默认机制缺陷，手写高鲁棒性代理重试中间件：统一捕获Twisted底层异常、扩展重试状态码（含403/429）、自动轮换隧道IP，真正实现“丢包不丢数”。

18 1 1

yxybox

|

13小时前

|

存储人工智能 API

|

博文

基于Flutter3.41+Dart3.11+DeepSeek生成式AI对话应用App助手

Flutter3.41+Dart3+Dio+Getx+Markdown聚合DeepSeek-chat实战AI流式打字智能会话模板。新增深度思考模式、latex公式、mermaid图表，代码高亮/复制代码、图片预览、链接、表格等功能。

28 4 4

阿里云大数据

|

13小时前

|

存储分布式计算运维

|

博文

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升，在迁移到 EMR Serverless Spark 之后，TCO 明显下降，平台按作业生命周期弹性拉起与回收，只为实际消耗付费；同时，托管化带来了稳定性与调度效率提升；更关键的是交付确定性提升，大作业整体可提速约 1 小时，报表链路从长尾波动变成更可控的出数节奏。

33 4 4

来自：开源大数据平台 E-MapReduce 版块

阿里云大数据

|

13小时前

|

SQL 分布式计算 Serverless

|

博文

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求，采用阿里云 EMR Serverless Spark 构建云原生大数据架构，迁移后实现计算加速50%，核心链路产出时间提前1.5h，研发效率和稳定性显著提升！

35 2 2

来自：开源大数据平台 E-MapReduce 版块

游客xxffd3jwfjru4

|

13小时前

|

消息中间件运维 NoSQL

|

博文

OpenClaw 微信部署避坑实操：多模式部署+常见故障速解

OpenClaw是专为微信私域运营设计的开源自动化接入工具，支持本地、云端及命令行三模式部署，打通微信客户端与后端服务，兼顾安全、稳定与易用性。本文详解环境校验、部署流程、稳定性优化及高频故障排查，助力中小企业快速落地。

50 1 1

阿里云大数据

|

1天前

|

存储算法定位技术

|

博文

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

面对轨迹数据“高实时、高并发、长周期存储”的典型特征，高德团队以访问跨度为依据完成热/温/冷分层，并以 Apache Paimon + StarRocks 构建统一的数据底座，支撑轨迹数据的近实时写入与高性能查询。

49 4 4

来自：开源大数据平台 E-MapReduce 版块

奔跑的数据

|

1天前

|

数据采集 Rust 网络协议

|

博文

学术文献抓取 OOM 崩溃与 403 风暴

学术文献抓取进程因内存泄漏和代理IP切换问题导致效率下降。通过使用Rust和Reqwest重写核心模块，隔离Cookie Jar，修复后内存稳定，抓取率提高至92%，延迟降低。

40 4 4

winx_19970108018

|

1天前

|

数据采集人工智能自然语言处理

|

博文

快速接入京东商品评论API，商品口碑监测与舆情风控

依托京东官方评价API，融合AI/NLP技术，构建“采集—分析—预警—决策”全链路口碑风控体系：实时监测情感倾向与负面问题，智能分级预警，支持归因分析与工单处置，助力品牌从被动响应转向主动运营。（239字）

54 7 7

小贾嗯嗯

|

1天前

|

SQL 运维监控

|

博文

【生产避坑】Flink CDC + SQL Server 无增量？5分钟定位，直接抄解决方案

【生产避坑】Flink CDC同步SQL Server时增量失效？80%问题源于SQL Server Agent未启动！本文5分钟定位根因：先查CDC开关→再验CT表数据→最终确认Agent状态。附完整排查流程、3种启动方案及监控建议，直击要害，照抄即用，快速恢复实时同步！

43 6 6

刘大猫.

|

2天前

|

Java

|

博文

java工具：《Java 8 引入的 Optional 类型，它可以用来处理可能为空的值》

42 6 6

游客avsawnkvmmxp6

|

2天前

|

SQL 机器学习/深度学习自然语言处理

|

博文

本文剖析企业“智能问数”落地困局：POC惊艳但上线即崩，根源在于技术路径与组织能力错配。对比四类主流方案（预制SQL、Text2SQL+宽表、预定义指标、本体语义），指出前三者“以人力换智能”，而本体路线（如UINO）通过结构化业务语义实现“又泛又准”。揭示三大陷阱：误将单表准确率当可用性、忽视业务知识隐性成本、低估组织协同难度，并给出分阶段落地五原则。强调选型关键不在模型多强，而在是否构建“机器可理解的语义”与“人机协同机制”。

38 2 2

冷言

|

2天前

|

存储算法 BI

|

博文

【图像加密】基于matlab混沌算法图像加密解密

本文提出一种基于逐段线性混沌映射（PWLCM）的图像加密算法。利用混沌系统对初值和参数的极端敏感性、遍历性及伪随机性，生成高安全性密钥流，与图像数据异或加密；通过动态切换控制参数增强抗攻击能力。仿真表明该算法加密效果好、解密准确、密钥空间大、抗初值微扰能力强。（239字）

56 2 2

奔跑的数据

|

2天前

|

数据采集 Rust NoSQL

|

博文

架构视角下的千万级分布式爬虫：Rust + Reqwest 与代理网关的全局设计

本文探讨如何用Rust重构分布式爬虫Worker节点，解决高并发下的内存泄漏、CPU瓶颈与代理调度难题；结合Tokio、Reqwest与企业级隧道代理，实现千万级实时抓取的稳定、安全与高效。

50 2 2

游客7q6odlcu3jr5c

|

2天前

|

JSON 监控 5G

|

博文

某宝店铺商品全量接口-item_search_shop

淘宝item_search_shop_pro接口支持按店铺ID全量获取在售商品，含分页、字段筛选与类目过滤；提供完整参数说明、返回字段详解、Python调用示例及风控规范，开箱即用，适用于竞品监控、ERP同步与选品分析。（239字）

79 2 2

pai_rec_coder

|

3天前

|

存储搜索推荐 PyTorch

|

博文

为什么使用 TorchRec 训练和推理更快

本文结合TorchEasyRec实践，从四大维度解析推荐系统加速：1）KeyedJaggedTensor统一变长特征，实现Embedding批量融合查找；2）自动分布式分片突破单卡显存瓶颈；3）TrainPipelineSparseDist流水线并行，重叠通信与计算；4）fbgemm-gpu融合优化器，减少显存访问。端到端提升训练效率与扩展性。

77 9 9

来自：智能搜索推荐版块

pai_rec_coder

|

3天前

|

搜索推荐调度 C++

|

博文

TorchEasyRec的dbmtl 模型 config 详解

DBMTL（Deep Bayesian Multi-Target Learning）是阿里开源的多任务学习模型，显式建模任务因果依赖（如CTR→CVR）。基于TorchEasyRec实现，采用共享Bottom MLP+双Tower结构，CVR Tower融合CTR中间表征，体现贝叶斯条件关系。

56 5 5

来自：人工智能平台PAI 版块

pai_rec_coder

|

3天前

|

存储搜索推荐 Python

|

博文

TorchRec大量使用Jagged Tensor

Jagged Tensor（锯齿张量）是专为变长序列设计的紧凑存储格式，用values+lengths/offsets替代padding，显著节省内存与计算。广泛应用于推荐系统中用户行为、多值标签等不等长特征处理，如HSTU模型中的拼接、拆分与矩阵乘法操作。

63 8 8

来自：人工智能平台PAI 版块

pai_rec_coder

|

3天前

|

API 开发工具 C++

|

博文

TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？

OdpsDataset（默认）是阿里TorchEasyRec推荐的数据集实现，相比旧版OdpsDatasetV1，其性能更优（批量Arrow读取+LZ4压缩）、支持断点续训、分布式协调精准分片、兼容30+复杂类型；V1仅作旧PAI环境兼容保留。

60 6 6

来自：人工智能平台PAI 版块

pai_rec_coder

|

3天前

|

API C++ Python

|

博文

EasyRec和TorchEasyRec中FG NORMAL 和 FG DAG 的区别

TorchEasyRec提供两种特征生成模式：FG_NORMAL（Python逐特征处理，适合调试）与FG_DAG（C++ DAG引擎批量处理，性能更优、支持依赖、stub_type及自动侧识别）。推荐生产环境优先使用FG_DAG。

54 5 5

来自：人工智能平台PAI 版块

pai_rec_coder

|

3天前

|

机器学习/深度学习搜索推荐 iOS开发

|

博文

TorchEasyRec中INPUT_TILE 环境变量的三个模式

`NPUT_TILE` 是 tzrec 推荐系统在模型导出与在线推理阶段的优化策略，针对“1 用户 → N 商品”场景，避免用户特征重复计算。支持三种模式：`INPUT_TILE=1`（无优化）、`=2`（Embedding前tile）、`=3`（Embedding后tile，计算最优但需拆分Embedding表、依赖FG模式及torchrec，不支持macOS）。

55 6 6

来自：智能搜索推荐版块

pai_rec_coder

|

3天前

|

并行计算算法框架/工具 iOS开发

|

博文

TorchRec在macos ARM芯片（Apple Silicon）上无法安装

JaggedTensor等在macOS ARM芯片上无法运行，主因是ARM64与x86_64架构不兼容，且TorchRec深度依赖CUDA——而Apple Silicon仅支持Metal。fbgemm-gpu缺失、Rosetta 2不支持CUDA指令，导致关键操作失败。建议改用MLX框架或标准PyTorch张量替代。

74 4 4

来自：智能搜索推荐版块

pai_rec_coder

|

3天前

|

Python

|

博文

心脏病预测的F1 Score计算

本项目基于阿里云PAI Designer，对心脏病数据开展二分类预测评估。通过遍历0–1间1000个阈值，计算各阈值下的F1 Score等指标，最终确定最佳阈值0.955，对应F1得分为0.8132，准确率82.47%。

65 2 2

来自：人工智能平台PAI 版块

pai_rec_coder

|

4天前

|

分布式计算 MaxCompute iOS开发

|

博文

TorchEasyRec 在 macOS 上的功能限制总结

本文总结tzrec在macOS上的功能限制：核心依赖（如torchrec、fbgemm-gpu、graphlearn等）无法安装；分布式训练、原生数据管线、Embedding模块、Triton/CUDA算子、TDM树模型等功能完全不可用；优化器与模型导出部分失效；单元测试大多因强依赖而失败。

86 15 15

来自：智能搜索推荐版块

pai_rec_coder

|

5天前

|

机器学习/深度学习自然语言处理 iOS开发

|

博文

Feature Generator（FG）特征算子配置指南

本文档全面介绍Feature Generator（FG）的各类特征算子配置方法，涵盖基础（ID/原始特征）、计算（表达式）、交叉（组合）、查找（Lookup/Match）、文本（重叠/BM25）、序列、预处理（分词/归一化）及字符串处理（正则替换/切片）等9大类算子，附详细配置示例与说明。

170 9 9

来自：智能搜索推荐版块

pai_rec_coder

|

5天前

|

机器学习/深度学习 JSON 自然语言处理

|

博文

PAI-Rec 特征工程全解析：统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec是阿里云智能推荐的特征工程解决方案，支持离线统计、实时及序列特征自动衍生，并通过Feature Generator（17种内置算子）保障离线/在线特征一致性，大幅降低开发与维护成本。

152 9 9

来自：智能搜索推荐版块

pai_rec_coder

|

5天前

|

机器学习/深度学习搜索推荐数据处理

|

博文

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台，集成多路召回、多目标精排（如DBMTL）、GPU加速推理与灵活迭代能力，已助力电商、直播、音视频等多行业提升点击率、转化率与ROI，实现高效、低成本、可自主演进的智能推荐。

109 16 16

来自：智能搜索推荐版块

JasonAI爱街舞代码

|

5天前

|

算法调度数据库

|

博文

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

本文系统解析AlphaEvolve——Google DeepMind提出的LLM×EA融合新范式：以语义引导的抽样机制、双模型协同进化（Gemini Flash+Pro）、自动评估闭环，实现算法的自主发现与优化，已突破矩阵乘法纪录并提升训练效率。（239字）

101 15 15

pai_rec_coder

|

5天前

|

机器学习/深度学习分布式计算搜索推荐

|

博文

PAI-Rec 召回引擎：构建高性能推荐系统的核心引擎

PAI-Rec是阿里云智能推荐平台的核心召回引擎，经阿里大规模场景验证。支持多路召回融合（U2I/I2I/向量/随机）、召回即过滤、毫秒级实时更新与分布式弹性架构，开箱即用，助力企业构建毫秒级、高精度、强实时的推荐系统。

88 9 9

来自：智能搜索推荐版块

阿里云大数据

|

6天前

|

SQL 人工智能分布式计算

|

博文

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

EMR Serverless Spark 深度集成 AI Function 能力，并无缝对接阿里云百炼与阿里云人工智能平台 PAI 模型在线服务 PAI-EAS，定义了“SQL 即 AI”的新解决思路，数据分析师只需一行 SQL，即可直接调用世界顶尖的大模型。

92 4 4

来自：开源大数据平台 E-MapReduce 版块

云吞铺子

|

6天前

|

人工智能

|

问答

飞书OpenClaw配置教程，有吗？

72 2 0

来自：人工智能平台PAI 版块

已解决

游客s7fjknmuwki4m

|

7天前

|

JSON 数据安全/隐私保护计算机视觉

|

博文

告别付费套路！PhotoLab：开源免费的全功能桌面图片工作站，解锁所有核心能力

PhotoLab Pro是一款开源免费的桌面图片工作站，集成图像编辑、拼图排版、JPEG批量压缩、高级批量处理、图片转PDF五大模块，无广告、无VIP、无功能阉割，支持宏录制与跨模块协同，开箱即用。

135 2 2

灵杰开发者

|

7天前

|

关系型数据库 MySQL Apache

|

博文

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Apache Flink CDC 3.6.0 正式发布！支持 Flink 1.20.x/2.2.x 与 JDK 11，增强端到端 Schema Evolution（MySQL/PostgreSQL 入湖入流），新增 Oracle Source 与 Hudi Sink 连接器，全面覆盖主流数据湖生态，并优化 Transform 框架、YAML 路由及多连接器能力。（239字）

188 2 2

来自：实时计算 Flink 版块

游客7q6odlcu3jr5c

|

7天前

|

数据采集缓存 Java

|

博文

Python、Java、PHP 三种语言实现爬虫的核心技术对比与示例

本文对比Python、Java、PHP三大语言爬虫技术，涵盖核心工具（如Scrapy/Jsoup/Goutte）、典型代码示例及异步、分布式、缓存等性能优化策略，并给出选型建议与反爬合规实践，助开发者高效构建稳定爬虫系统。

243 3 3

奔跑的数据

|

7天前

|

数据采集消息中间件监控

|

博文

AIGC数据引擎的基石：图库抓取架构从单机到云原生的演进与实战

AIGC领域优化数据采集策略，提升大模型竞争力。初期使用Python脚本搭建单机爬虫，后转向分布式设计，引入代理技术。云原生部署实现弹性伸缩，全链路监控。构建高可用数据采集引擎是关键。

84 4 4

winx_19970108018

|

7天前

|

数据采集人工智能监控

|

博文

快速接入小红书API，市场趋势与热点预测

小红书API+AI已成2026年品牌营销与内容电商核心基建，支持竞品监测、舆情预警、趋势预测等全场景合规数据采集；多模态生成、预测型AI与垂直领域模型加速商业化落地，SaaS工具、代运营、技术基建成三大机遇。（239字）

133 2 2

py世界

|

7天前

|

Python 数据采集

|

问答

做跨境电商，采集数据到底该自己用Python写，还是用现成的数据接口？

49 1 0

py世界

|

7天前

|

问答

网页数据要点了“加载更多”才会出来，用requests抓不到，怎么办？

148 1 0

游客g4gtawsih5gvi

|

8天前

|

存储人工智能安全

|

博文

2026年各大厂商OpenClaw中文生态分析调研汇报

OpenClaw（原Moltbot）是开源AI助手框架，ClaudeCowork为Anthropic官方企业协作工具；生态涵盖轻量版（Pico/NanoClaw）、高性能版（MaxClaw）、行业定制版（MedClaw、ClawWork等）及社区衍生项目（LobsterAI、RedClaw等），以Obsidian为知识库，OpenFang为交互协议。

216 5 5

py世界

|

8天前

|

API 搜索推荐

|

问答

做手机新品的舆情监测，如何采集谷歌等搜索引擎的数据？

63 0 0

py世界

|

8天前

|

问答

采集网页数据时，如何处理经常跳出来的验证码，有图片、滑块等等？

77 1 0

奔跑的数据

|

8天前

|

数据采集中间件 Go

|

博文

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

这是一份专为突发数据需求打造的Go Colly速查表：集成代理轮询、动态UA/Cookie伪装与智能限速，3步复制即用。无需架构设计，5分钟开跑，直面风控抓取竞品活动数据。

82 4 4

py世界

|

9天前

|

数据采集人工智能

|

问答

想采集专利数据来做课题研究，请问用什么爬虫技术好？

69 1 0

py世界

|

9天前

|

数据采集

|

问答

Selenium，Playwright做网页爬虫有什么缺点？

82 1 0

奔跑的数据

|

9天前

|

数据采集 API 调度

|

博文

采集新手必看：选“隧道”还是“API提取”？一文看懂！

文章介绍了Python爬虫的两种代理方式：API提取代理和隧道代理。建议新手或需高并发项目使用隧道代理。提供了Python代码示例，展示如何使用隧道代理和伪装身份。

121 5 5

py世界

|

9天前

|

Python 数据挖掘

|

问答

通过关键词采集亚马逊的商品信息，怎么实现比较稳定？

61 1 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

开启云上 AIGC 动手实践，探索技术创意

java工具：《对Collections.sort排序后我想制定查询几条，比如list有10条，我只想获取前4条》

2026 年企业上云新趋势：从资源上云，到流程全链路智能自动化

相约深圳，全球征集｜Flink Forward Asia 2026 演讲议题征集正式启动

2026年 最值得关注的 6个 开源 AI 工具

Scrapy爬虫大面积报错Timeout/403？彻底解决代理IP失效导致的“丢数据”痛点

基于Flutter3.41+Dart3.11+DeepSeek生成式AI对话应用App助手

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

OpenClaw 微信部署避坑实操：多模式部署+常见故障速解

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

学术文献抓取 OOM 崩溃与 403 风暴

快速接入京东商品评论API，商品口碑监测与舆情风控

【生产避坑】Flink CDC + SQL Server 无增量？5分钟定位，直接抄解决方案

java工具：《Java 8 引入的 Optional 类型，它可以用来处理可能为空的值》

企业数据智能成熟度评估：你的公司处在哪一级？

【图像加密】基于matlab混沌算法图像加密解密

架构视角下的千万级分布式爬虫：Rust + Reqwest 与代理网关的全局设计

某宝店铺商品全量接口-item_search_shop

为什么使用 TorchRec 训练和推理更快

TorchEasyRec的dbmtl 模型 config 详解

TorchRec大量使用Jagged Tensor

TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？

EasyRec和TorchEasyRec中FG NORMAL 和 FG DAG 的区别

TorchEasyRec中INPUT_TILE 环境变量的三个模式

TorchRec在macos ARM芯片（Apple Silicon）上无法安装

心脏病预测的F1 Score计算

TorchEasyRec 在 macOS 上的功能限制总结

Feature Generator（FG）特征算子配置指南

PAI-Rec 特征工程全解析：统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

PAI-Rec 召回引擎：构建高性能推荐系统的核心引擎

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

飞书OpenClaw配置教程，有吗？

告别付费套路！PhotoLab：开源免费的全功能桌面图片工作站，解锁所有核心能力

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Python、Java、PHP 三种语言实现爬虫的核心技术对比与示例

AIGC数据引擎的基石：图库抓取架构从单机到云原生的演进与实战

快速接入小红书API，市场趋势与热点预测

做跨境电商，采集数据到底该自己用Python写，还是用现成的数据接口？

网页数据要点了“加载更多”才会出来，用requests抓不到，怎么办？

2026年各大厂商OpenClaw中文生态分析调研汇报

做手机新品的舆情监测，如何采集谷歌等搜索引擎的数据？

采集网页数据时，如何处理经常跳出来的验证码，有图片、滑块等等？

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

想采集专利数据来做课题研究，请问用什么爬虫技术好？

Selenium，Playwright做网页爬虫有什么缺点？

采集新手必看：选“隧道”还是“API提取”？一文看懂！

通过关键词采集亚马逊的商品信息，怎么实现比较稳定？

大数据与机器学习

活跃用户

相关产品

2026年最值得关注的 6个开源 AI 工具