大数据与机器学习-最新-阿里云开发者社区

阿里云大数据Al技术

|

人工智能算法云栖大会

|

技术作品

置顶

开启云上 AIGC 动手实践，探索技术创意

面向 GenAI 时代，阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践，提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程，覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域，为您带来 AIGC 开发全新体验。

1011 142

来自：人工智能平台PAI 版块

pai_rec_coder

|

机器学习/深度学习 JSON 自然语言处理

|

博文

PAI-Rec 特征工程全解析：统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec是阿里云智能推荐的特征工程解决方案，支持离线统计、实时及序列特征自动衍生，并通过Feature Generator（17种内置算子）保障离线/在线特征一致性，大幅降低开发与维护成本。

7 0 0

来自：智能搜索推荐版块

pai_rec_coder

|

1小时前

|

机器学习/深度学习搜索推荐数据处理

|

博文

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台，集成多路召回、多目标精排（如DBMTL）、GPU加速推理与灵活迭代能力，已助力电商、直播、音视频等多行业提升点击率、转化率与ROI，实现高效、低成本、可自主演进的智能推荐。

22 0 0

来自：智能搜索推荐版块

JasonAI爱街舞代码

|

2小时前

|

算法调度数据库

|

博文

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

本文系统解析AlphaEvolve——Google DeepMind提出的LLM×EA融合新范式：以语义引导的抽样机制、双模型协同进化（Gemini Flash+Pro）、自动评估闭环，实现算法的自主发现与优化，已突破矩阵乘法纪录并提升训练效率。（239字）

21 1 1

pai_rec_coder

|

3小时前

|

机器学习/深度学习分布式计算搜索推荐

|

博文

PAI-Rec 召回引擎：构建高性能推荐系统的核心引擎

PAI-Rec是阿里云智能推荐平台的核心召回引擎，经阿里大规模场景验证。支持多路召回融合（U2I/I2I/向量/随机）、召回即过滤、毫秒级实时更新与分布式弹性架构，开箱即用，助力企业构建毫秒级、高精度、强实时的推荐系统。

21 1 1

来自：智能搜索推荐版块

阿里云大数据

|

1天前

|

SQL 人工智能分布式计算

|

博文

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

EMR Serverless Spark 深度集成 AI Function 能力，并无缝对接阿里云百炼与阿里云人工智能平台 PAI 模型在线服务 PAI-EAS，定义了“SQL 即 AI”的新解决思路，数据分析师只需一行 SQL，即可直接调用世界顶尖的大模型。

33 4 4

来自：开源大数据平台 E-MapReduce 版块

云吞铺子

|

1天前

|

人工智能

|

问答

飞书OpenClaw配置教程，有吗？

32 2 0

来自：人工智能平台PAI 版块

已解决

游客s7fjknmuwki4m

|

1天前

|

JSON 数据安全/隐私保护计算机视觉

|

博文

告别付费套路！PhotoLab：开源免费的全功能桌面图片工作站，解锁所有核心能力

PhotoLab Pro是一款开源免费的桌面图片工作站，集成图像编辑、拼图排版、JPEG批量压缩、高级批量处理、图片转PDF五大模块，无广告、无VIP、无功能阉割，支持宏录制与跨模块协同，开箱即用。

67 2 2

刘大猫.

|

1天前

|

Java

|

博文

java工具：《Long类型转Integer》

38 1 1

灵杰开发者

|

2天前

|

关系型数据库 MySQL Apache

|

博文

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Apache Flink CDC 3.6.0 正式发布！支持 Flink 1.20.x/2.2.x 与 JDK 11，增强端到端 Schema Evolution（MySQL/PostgreSQL 入湖入流），新增 Oracle Source 与 Hudi Sink 连接器，全面覆盖主流数据湖生态，并优化 Transform 框架、YAML 路由及多连接器能力。（239字）

66 2 2

来自：实时计算 Flink 版块

游客7q6odlcu3jr5c

|

2天前

|

数据采集缓存 Java

|

博文

Python、Java、PHP 三种语言实现爬虫的核心技术对比与示例

本文对比Python、Java、PHP三大语言爬虫技术，涵盖核心工具（如Scrapy/Jsoup/Goutte）、典型代码示例及异步、分布式、缓存等性能优化策略，并给出选型建议与反爬合规实践，助开发者高效构建稳定爬虫系统。

84 3 3

奔跑的数据

|

2天前

|

数据采集消息中间件监控

|

博文

AIGC数据引擎的基石：图库抓取架构从单机到云原生的演进与实战

AIGC领域优化数据采集策略，提升大模型竞争力。初期使用Python脚本搭建单机爬虫，后转向分布式设计，引入代理技术。云原生部署实现弹性伸缩，全链路监控。构建高可用数据采集引擎是关键。

45 4 4

winx_19970108018

|

2天前

|

数据采集人工智能监控

|

博文

快速接入小红书API，市场趋势与热点预测

小红书API+AI已成2026年品牌营销与内容电商核心基建，支持竞品监测、舆情预警、趋势预测等全场景合规数据采集；多模态生成、预测型AI与垂直领域模型加速商业化落地，SaaS工具、代运营、技术基建成三大机遇。（239字）

67 2 2

py世界

|

2天前

|

Python 数据采集

|

问答

做跨境电商，采集数据到底该自己用Python写，还是用现成的数据接口？

33 1 0

py世界

|

2天前

|

问答

网页数据要点了“加载更多”才会出来，用requests抓不到，怎么办？

66 1 0

游客g4gtawsih5gvi

|

2天前

|

存储人工智能安全

|

博文

2026年各大厂商OpenClaw中文生态分析调研汇报

OpenClaw（原Moltbot）是开源AI助手框架，ClaudeCowork为Anthropic官方企业协作工具；生态涵盖轻量版（Pico/NanoClaw）、高性能版（MaxClaw）、行业定制版（MedClaw、ClawWork等）及社区衍生项目（LobsterAI、RedClaw等），以Obsidian为知识库，OpenFang为交互协议。

103 5 5

py世界

|

3天前

|

API 搜索推荐

|

问答

采集网页数据时，如何处理经常跳出来的验证码，有图片、滑块等等？

48 1 0

奔跑的数据

|

3天前

|

数据采集中间件 Go

|

博文

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

这是一份专为突发数据需求打造的Go Colly速查表：集成代理轮询、动态UA/Cookie伪装与智能限速，3步复制即用。无需架构设计，5分钟开跑，直面风控抓取竞品活动数据。

56 4 4

Devnullcoffee

|

3天前

|

数据采集存储监控

|

博文

亚马逊卖家数据溺水困局：企业级数据采集与决策架构落地方案

本文提出面向跨境电商的亚马逊数据决策框架，整合BSR、关键词SERP与广告报表三源数据，基于Pangolinfo API实现统一采集，采用阿里云RDS+dbt+Grafana构建“采集-存储-分析-决策”闭环，6周落地，月均节省1.4万–2.9万元，显著提升数据时效性与决策精度。（239字）

40 1 1

py世界

|

4天前

|

数据采集人工智能

|

问答

Selenium，Playwright做网页爬虫有什么缺点？

55 1 0

奔跑的数据

|

4天前

|

数据采集 API 调度

|

博文

采集新手必看：选“隧道”还是“API提取”？一文看懂！

文章介绍了Python爬虫的两种代理方式：API提取代理和隧道代理。建议新手或需高并发项目使用隧道代理。提供了Python代码示例，展示如何使用隧道代理和伪装身份。

85 5 5

py世界

|

4天前

|

Python 数据挖掘

|

问答

Apache Flink Agents 0.2.1 发布公告

Apache Flink Agents 0.2.1发布！修复3个关键缺陷（含MCP连接与Jackson反序列化问题），优化事件日志JSON输出、减小wheel包体积，并增强CI可观测性。推荐所有用户升级。支持OpenAI、Anthropic等多模型集成，附Demo演示智能运维能力。（239字）

82 5 7

来自：实时计算 Flink 版块

灵杰开发者

|

4天前

|

存储消息中间件关系型数据库

|

博文

（二）走进阿里云实时计算Flink版-场景案例篇

阿里云实时计算Flink版产品负责人黄鹏程（马格）介绍：基于Apache Flink打造的企业级全托管实时计算平台，支持批流一体、湖仓融合、实时风控与AI推理等场景，助力满帮、车企等客户降本增效35%，SLA达99.9%。

194 3 4

来自：实时计算 Flink 版块

Echo_Wish

|

4天前

|

自然语言处理搜索推荐机器人

|

博文

词向量还能“边用边学”？手把手教你用 Python 做增量训练，不用重头再来！

63 3 3

Echo_Wish

|

4天前

|

存储安全数据安全/隐私保护

|

博文

数据放云上就安全了？别天真：聊透“云上合规+数据主权”的那些坑与解法

69 3 3

奔跑的数据

|

5天前

|

数据采集网络协议 Java

|

博文

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

本文深入解析 OkHttp 使用隧道代理抓取 HTTPS 网站时频发的 `ProtocolException: Too many tunnel connections attempted: 21` 错误，揭示其根源在于风控触发 302 重定向后 OkHttp 盲目重试隧道连接。通过关闭 `followRedirects(false)` 和 `followSslRedirects(false)`，两行配置即可优雅破局，精准捕获拦截响应，提升爬虫稳定性与调试效率。

96 2 2

刘大猫.

|

5天前

|

Java

|

博文

java工具：《Java 8 Stream实战：一行代码搞定集合对象类型转换》

71 6 6

游客siahc4tdupz7a

|

5天前

|

机器学习/深度学习人工智能自然语言处理

|

博文

AI浪潮下的程序员：如何在变革中寻找新航向

本文探讨AI浪潮下程序员的转型之路：AI是助手而非替代者。面对挑战，应主动学习AI工具、深耕行业领域、提升软技能与问题解决能力，从“码农”蜕变为“AI时代的创造者”。未来属于积极适应者。（239字）

112 8 8

Echo_Wish

|

6天前

|

自然语言处理

|

博文

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

91 6 6

Echo_Wish

|

6天前

|

消息中间件 Prometheus 监控

|

博文

你还在“出问题才查日志”？用 Prometheus + Grafana，把大数据平台变成“会说话”的系统！

99 9 9

GEO优化

|

7天前

|

人工智能

|

博文

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

我是二二得四，专注GEO优化第10天。零基础起步，坚持每日图文输出、多平台分发、AI友好写作，已实现豆包/千问/元宝识别“二二得四”（置信度50%-65%），首篇文章被豆包引用。边学边测、边做边迭代，用真实过程记录普通人可复制的AI时代品牌可见性增长路径。

120 6 6

Echo_Wish

|

7天前

|

分布式计算大数据流计算

|

博文

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

67 4 4

Echo_Wish

|

7天前

|

机器学习/深度学习人工智能缓存

|

博文

一篇新闻太长懒得看？我用 Python + 深度学习，3分钟教你做一个“自动摘要神器”

82 8 8

winx_19970108018

|

8天前

|

数据采集 JSON 监控

|

博文

洞察电商数据：京东商品评论API数据模型

本文详解京东商品评论API数据模型，涵盖SKU精准查询、分页参数、全维度字段（评论/用户/评分/内容/扩展）及合规脱敏规范。JSON结构清晰，开箱即用，助力竞品分析、口碑监测、选品调研与运营优化。（239字）

78 6 6

游客vv4u4wyick5ti

|

8天前

|

SQL 存储人工智能

|

博文

选型必算 ROI：Aloudata CAN 指标平台如何量化降本增效与统一口径价值

通过统一语义层、声明式定义与智能物化技术，实现可量化的降本增效与 100% 口径一致。

93 5 5

winx_19970108018

|

8天前

|

数据采集 JSON 数据挖掘

|

博文

洞察电商数据：淘宝商品评论API数据模型

本文详解淘宝商品评论API数据模型，涵盖请求参数、JSON返回结构及五大核心字段（基础信息、用户、评分、内容、扩展），支持竞品分析、口碑监测与选品调研，适配开发对接与业务分析，合规高效获取全维度评论数据。（239字）

105 3 3

游客odhujb3iura5w

|

8天前

|

测试技术 Go 芯片

|

博文

2A单节锂电池充电芯片PW4213的IC测试应用

PW4213是一款专为单节锂电池（3.7V/4.2V）设计的同步降压型充电管理IC。与常见的5V输入充电芯片不同，PW4213支持宽电压输入（4.5V-15V），可直接使用5V-12V适配器为单节锂电池充电，内部集成同步降压架构，在大压差应用下效率高、发热低。 工作模式：降压（Buck）拓扑，将5V/9V/12V输入降压至4.2V给单节锂电池充电 开关频率：500kHz，可使用小型化电感电容 最大充电电流：2A，可通过外接检流电阻调节 封装形式：SOP8-EP（底部带散热焊盘）

135 5 5

刘大猫.

|

8天前

|

JSON Java fastjson

|

博文

java工具：《json对象转javabean》

78 2 2

Echo_Wish

|

8天前

|

自然语言处理

|

博文

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

84 3 3

Echo_Wish

|

8天前

|

SQL Cloud Native 大数据

|

博文

别再只做“数据仓库苦力”了：聊聊如何用云原生把数据真正做成产品

98 3 3

数据可视化工程

|

9天前

|

设计模式人工智能边缘计算

|

博文

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

本文剖析协同设计面临的“三重枷锁”：信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例，提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术，推动产设研一体化，释放创新效能。（239字）

86 3 3

来自：数据可视化DataV 版块

奔跑的数据

|

9天前

|

数据采集 Web App开发监控

|

博文

极速上手：Puppeteer + 原生代理IP （金融与突发新闻抓取 Cheat Sheet）

本文介绍金融与新闻高频爬虫的实战方案：用 `puppeteer-extra` + `stealth` 插件隐藏自动化指纹，结合高匿代理IP轮换，实现秒级资讯采集。含完整配置、优化代码及生产避坑指南。

77 4 4

游客owiyno3sdoxj4

|

9天前

|

对象存储

|

问答

AGENT平台工作流上传pdf通过图片内容理解识别不了

86 1 0

winx_19970108018

|

9天前

|

JSON API 数据格式

|

博文

洞察电商数据：京东商品详情API 数据模型

该JD商品数据接口提供jd.item_get（基础）与jd.item_get_pro（全量）两大核心服务，支持POST/GET调用，返回JSON格式。无需申请密钥，传入item_id/sku_id及timestamp即可一键获取含图文、价格、库存、规格、销量、售后等7大模块的标准化商品数据，适配批量查询与中小卖家需求。（239字）

73 6 6

GEO优化

|

9天前

|

数据采集人工智能 SEO

|

博文

GEO怎么做？从0开始的五步法

GEO怎么做？从0开始的五步法：先搞懂GEO是什么（让AI在回答时提到你），再选对平台（公众号、问一问、知乎、搜狐号、小红书），然后写AI友好的内容（开头给结论、小标题分段、结尾加FAQ），发出去等收录，最后测效果优化。0成本起步，边学边做。我是二二得四，正在从头学GEO。

251 3 3

Echo_Wish

|

9天前

|

机器学习/深度学习数据采集搜索推荐

|

博文

你还在用关键词匹配？Python 玩转文本聚类 + 相似度搜索，效果直接碾压

88 8 8

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

开启云上 AIGC 动手实践，探索技术创意

PAI-Rec 特征工程全解析：统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

演化计算与抽样方法构造新算法流程：从 AlphaEvolve 看 LLM × EA 融合范式

PAI-Rec 召回引擎：构建高性能推荐系统的核心引擎

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

飞书OpenClaw配置教程，有吗？

告别付费套路！PhotoLab：开源免费的全功能桌面图片工作站，解锁所有核心能力

java工具：《Long类型转Integer》

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Python、Java、PHP 三种语言实现爬虫的核心技术对比与示例

AIGC数据引擎的基石：图库抓取架构从单机到云原生的演进与实战

快速接入小红书API，市场趋势与热点预测

做跨境电商，采集数据到底该自己用Python写，还是用现成的数据接口？

网页数据要点了“加载更多”才会出来，用requests抓不到，怎么办？

2026年各大厂商OpenClaw中文生态分析调研汇报

做手机新品的舆情监测，如何采集谷歌等搜索引擎的数据？

采集网页数据时，如何处理经常跳出来的验证码，有图片、滑块等等？

Go Colly框架高阶技巧：如何在中间件中无缝切换代理IP

亚马逊卖家数据溺水困局：企业级数据采集与决策架构落地方案

想采集专利数据来做课题研究，请问用什么爬虫技术好？

Selenium，Playwright做网页爬虫有什么缺点？

采集新手必看：选“隧道”还是“API提取”？一文看懂！

通过关键词采集亚马逊的商品信息，怎么实现比较稳定？

如何使用openclaw采集跨境电商数据？

Apache Flink Agents 0.2.1 发布公告

（二）走进阿里云实时计算Flink版-场景案例篇

词向量还能“边用边学”？手把手教你用 Python 做增量训练，不用重头再来！

数据放云上就安全了？别天真：聊透“云上合规+数据主权”的那些坑与解法

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

java工具：《Java 8 Stream实战：一行代码搞定集合对象类型转换》

AI浪潮下的程序员：如何在变革中寻找新航向

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

你还在“出问题才查日志”？用 Prometheus + Grafana，把大数据平台变成“会说话”的系统！

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

一篇新闻太长懒得看？我用 Python + 深度学习，3分钟教你做一个“自动摘要神器”

洞察电商数据：京东商品评论API数据模型

选型必算 ROI：Aloudata CAN 指标平台如何量化降本增效与统一口径价值

洞察电商数据：淘宝商品评论API数据模型

2A单节锂电池充电芯片PW4213的IC测试应用

java工具：《json对象转javabean》

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

别再只做“数据仓库苦力”了：聊聊如何用云原生把数据真正做成产品

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

极速上手：Puppeteer + 原生代理IP （金融与突发新闻抓取 Cheat Sheet）

AGENT平台工作流上传pdf通过图片内容理解识别不了

洞察电商数据：京东商品详情API 数据模型

GEO怎么做？从0开始的五步法

你还在用关键词匹配？Python 玩转文本聚类 + 相似度搜索，效果直接碾压

大数据与机器学习

活跃用户

相关产品