大数据与机器学习-最新-第9页-阿里云开发者社区

奔跑的数据

|

3月前

|

数据采集 API 调度

|

博文

采集新手必看：选“隧道”还是“API提取”？一文看懂！

文章介绍了Python爬虫的两种代理方式：API提取代理和隧道代理。建议新手或需高并发项目使用隧道代理。提供了Python代码示例，展示如何使用隧道代理和伪装身份。

261 5 5

py世界

|

3月前

|

Python 数据挖掘

|

问答

Apache Flink Agents 0.2.1 发布公告

Apache Flink Agents 0.2.1发布！修复3个关键缺陷（含MCP连接与Jackson反序列化问题），优化事件日志JSON输出、减小wheel包体积，并增强CI可观测性。推荐所有用户升级。支持OpenAI、Anthropic等多模型集成，附Demo演示智能运维能力。（239字）

349 5 7

来自：实时计算 Flink 版块

灵杰开发者

|

3月前

|

存储消息中间件关系型数据库

|

博文

（二）走进阿里云实时计算Flink版-场景案例篇

阿里云实时计算Flink版产品负责人黄鹏程（马格）介绍：基于Apache Flink打造的企业级全托管实时计算平台，支持批流一体、湖仓融合、实时风控与AI推理等场景，助力满帮、车企等客户降本增效35%，SLA达99.9%。

977 3 4

来自：实时计算 Flink 版块

Echo_Wish

|

3月前

|

自然语言处理搜索推荐机器人

|

博文

词向量还能“边用边学”？手把手教你用 Python 做增量训练，不用重头再来！

212 3 3

Echo_Wish

|

3月前

|

存储安全数据安全/隐私保护

|

博文

数据放云上就安全了？别天真：聊透“云上合规+数据主权”的那些坑与解法

339 3 3

奔跑的数据

|

3月前

|

数据采集网络协议 Java

|

博文

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

本文深入解析 OkHttp 使用隧道代理抓取 HTTPS 网站时频发的 `ProtocolException: Too many tunnel connections attempted: 21` 错误，揭示其根源在于风控触发 302 重定向后 OkHttp 盲目重试隧道连接。通过关闭 `followRedirects(false)` 和 `followSslRedirects(false)`，两行配置即可优雅破局，精准捕获拦截响应，提升爬虫稳定性与调试效率。

256 2 2

刘大猫.

|

3月前

|

Java

|

博文

java工具：《Java 8 Stream实战：一行代码搞定集合对象类型转换》

170 6 6

游客siahc4tdupz7a

|

3月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

AI浪潮下的程序员：如何在变革中寻找新航向

本文探讨AI浪潮下程序员的转型之路：AI是助手而非替代者。面对挑战，应主动学习AI工具、深耕行业领域、提升软技能与问题解决能力，从“码农”蜕变为“AI时代的创造者”。未来属于积极适应者。（239字）

334 8 8

Echo_Wish

|

3月前

|

自然语言处理

|

博文

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

228 6 6

Echo_Wish

|

3月前

|

消息中间件 Prometheus 监控

|

博文

你还在“出问题才查日志”？用 Prometheus + Grafana，把大数据平台变成“会说话”的系统！

272 9 9

二二得四GEO

|

3月前

|

人工智能

|

博文

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

我是二二得四，专注GEO优化第10天。零基础起步，坚持每日图文输出、多平台分发、AI友好写作，已实现豆包/千问/元宝识别“二二得四”（置信度50%-65%），首篇文章被豆包引用。边学边测、边做边迭代，用真实过程记录普通人可复制的AI时代品牌可见性增长路径。

364 7 8

Echo_Wish

|

3月前

|

分布式计算大数据流计算

|

博文

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

198 4 4

Echo_Wish

|

3月前

|

机器学习/深度学习人工智能缓存

|

博文

一篇新闻太长懒得看？我用 Python + 深度学习，3分钟教你做一个“自动摘要神器”

279 8 8

winx_19970108018

|

3月前

|

数据采集 JSON 监控

|

博文

洞察电商数据：京东商品评论API数据模型

本文详解京东商品评论API数据模型，涵盖SKU精准查询、分页参数、全维度字段（评论/用户/评分/内容/扩展）及合规脱敏规范。JSON结构清晰，开箱即用，助力竞品分析、口碑监测、选品调研与运营优化。（239字）

257 6 6

游客vv4u4wyick5ti

|

3月前

|

SQL 存储人工智能

|

博文

选型必算 ROI：Aloudata CAN 指标平台如何量化降本增效与统一口径价值

通过统一语义层、声明式定义与智能物化技术，实现可量化的降本增效与 100% 口径一致。

226 5 5

游客odhujb3iura5w

|

3月前

|

测试技术 Go 芯片

|

博文

2A单节锂电池充电芯片PW4213的IC测试应用

PW4213是一款专为单节锂电池（3.7V/4.2V）设计的同步降压型充电管理IC。与常见的5V输入充电芯片不同，PW4213支持宽电压输入（4.5V-15V），可直接使用5V-12V适配器为单节锂电池充电，内部集成同步降压架构，在大压差应用下效率高、发热低。 工作模式：降压（Buck）拓扑，将5V/9V/12V输入降压至4.2V给单节锂电池充电 开关频率：500kHz，可使用小型化电感电容 最大充电电流：2A，可通过外接检流电阻调节 封装形式：SOP8-EP（底部带散热焊盘）

467 5 5

刘大猫.

|

3月前

|

JSON Java fastjson

|

博文

java工具：《json对象转javabean》

190 2 2

Echo_Wish

|

3月前

|

自然语言处理

|

博文

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

269 3 3

Echo_Wish

|

3月前

|

SQL Cloud Native 大数据

|

博文

别再只做“数据仓库苦力”了：聊聊如何用云原生把数据真正做成产品

219 3 3

数据可视化工程

|

3月前

|

设计模式人工智能边缘计算

|

博文

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

本文剖析协同设计面临的“三重枷锁”：信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例，提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术，推动产设研一体化，释放创新效能。（239字）

251 3 3

来自：数据可视化DataV 版块

奔跑的数据

|

3月前

|

数据采集 Web App开发监控

|

博文

极速上手：Puppeteer + 原生代理IP （金融与突发新闻抓取 Cheat Sheet）

本文介绍金融与新闻高频爬虫的实战方案：用 `puppeteer-extra` + `stealth` 插件隐藏自动化指纹，结合高匿代理IP轮换，实现秒级资讯采集。含完整配置、优化代码及生产避坑指南。

240 4 4

游客owiyno3sdoxj4

|

3月前

|

对象存储

|

问答

AGENT平台工作流上传pdf通过图片内容理解识别不了

299 2 0

winx_19970108018

|

3月前

|

JSON API 数据格式

|

博文

洞察电商数据：京东商品详情API 数据模型

该JD商品数据接口提供jd.item_get（基础）与jd.item_get_pro（全量）两大核心服务，支持POST/GET调用，返回JSON格式。无需申请密钥，传入item_id/sku_id及timestamp即可一键获取含图文、价格、库存、规格、销量、售后等7大模块的标准化商品数据，适配批量查询与中小卖家需求。（239字）

275 6 6

二二得四GEO

|

3月前

|

数据采集人工智能 SEO

|

博文

GEO怎么做？从0开始的五步法

GEO怎么做？从0开始的五步法：先搞懂GEO是什么（让AI在回答时提到你），再选对平台（公众号、问一问、知乎、搜狐号、小红书），然后写AI友好的内容（开头给结论、小标题分段、结尾加FAQ），发出去等收录，最后测效果优化。0成本起步，边学边做。我是二二得四，正在从头学GEO。

1395 3 4

Echo_Wish

|

3月前

|

机器学习/深度学习数据采集搜索推荐

|

博文

你还在用关键词匹配？Python 玩转文本聚类 + 相似度搜索，效果直接碾压

260 8 8

Echo_Wish

|

3月前

|

Kubernetes 监控安全

|

博文

别再说“多活一份数据就安全了”：云上灾备的真相，是你根本没想清楚 RTO / RPO

335 9 9

winx_19970108018

|

3月前

|

人工智能自然语言处理供应链

|

博文

AI 大模型时代：淘宝京东商品数据 API 如何重构电商智能决策

AI大模型正将传统API从“数据搬运工”升级为“智能决策中枢”，打通“数据→信息→知识→行动”全链路。通过融合电商API与大模型能力，在智能选品、竞品预警、内容生成、运营闭环四大场景实现从人工到自治的跃迁。（239字）

468 3 3

奔跑的数据

|

3月前

|

数据采集自然语言处理监控

|

博文

拒绝“数据断层”：高质量舆情分析背后的隐形功臣——动态节点池

在AI与大数据时代，社交媒体数据是舆情监控、情感分析的核心资产。但再精妙的NLP模型也难逃“垃圾进、垃圾出”——数据断层导致的幸存者偏差，常源于爬虫被限流封禁。本文揭示动态代理IP池如何保障数据时序完整性、提升并发吞吐、规避风控，附可落地的Python实战代码，强调：稳定的数据管道，才是最高级的ROI。

517 4 4

来自：大数据开发治理DataWorks 版块

$雪地伤孤$

|

3月前

|

人工智能运维监控

|

博文

Anthropic 内部用了数百个 Skills，这份清单他们第一次公开

Anthropic 内部，有数百个 Skills 每天在运行。

493 4 6

开源MES

|

3月前

|

数据采集传感器人工智能

|

博文

AI质检+MES如何重构智能制造质量闭环

AI质检与MES深-度融合，构建“感知-分析-决策-执行”质量闭环：实现100%全检、自动拦截、一物一档、工艺自优化及缺-陷预-测；通过OPC UA/MQTT/边缘网关打通设备数据，支撑全流程精-准质量追溯。

511 4 4

游客odhujb3iura5w

|

3月前

|

芯片

|

博文

电子工程师必看！2串双节锂电池保护芯片PW7120，应用与选型指南

PW7120采用SOT23-6L的封装形式，PW7120是一款基于COMS的双节可充电锂电池保护电路，它集高精度过电压充电保护、过电压放电保护、过电流充电保护、过电流放电保护、电池短路保护等性能于一身。

447 2 2

Echo_Wish

|

3月前

|

人工智能自然语言处理算法

|

博文

别再只会关键词搜索了：一文带你用 LDA / NMF 玩转“主题建模”

354 4 4

Echo_Wish

|

3月前

|

存储 Kubernetes Cloud Native

|

博文

你以为是磁盘慢？其实是你不会调：云原生存储性能调优实战（IOPS / 吞吐 / 延迟）

216 2 2

游客avsawnkvmmxp6

|

3月前

|

SQL 人工智能数据可视化

|

博文

国内想走 Palantir 路线，最容易补错的不是产品能力，而是实施组织能力

Palantir 的核心壁垒不在平台规模或AI集成，而在于将复杂业务“可计算化”的高密度实施能力：通过本体建模沉淀语义、深入现场持续迭代、对决策结果负责。国内厂商亟需补足的，是“组织—语义—交付”三位一体的落地能力，而非盲目对标超级平台。

327 1 1

游客avsawnkvmmxp6

|

3月前

|

SQL 自然语言处理数据可视化

|

博文

当业务口径频繁变化时，预制指标、宽表、SQL 和本体ABC 谁最不容易失控？

本文对比四种智能问数路径：预制指标、宽表、人工SQL与本体ABC。指出在业务稳定时前三者高效，但面对口径频繁变更、跨部门协同等高变化场景，语义维护成本远超查询性能问题。本体ABC虽前期投入大，却将变化管理聚焦于对象、关系、属性与逻辑层面，实现长期可控的语义治理。

310 2 2

winx_19970108018

|

3月前

|

JSON 监控 API

|

博文

京东商品评论内容获取指南

京东商品评论API（jd.item.review）提供结构化评论数据，支持按ID批量获取、好评/差评筛选、图文视频过滤、分页排序及追评、商家回复等维度，JSON格式返回，免申请一键调用，适用于口碑分析与舆情监控。（239字）

249 4 4

二二得四GEO

|

3月前

|

人工智能 SEO

|

博文

我学GEO的第一天：原来AI搜东西和百度完全不一样

第1天学GEO，我发现：以前做SEO是让网页排得靠前，现在做GEO是让AI直接提到你。我用这篇文章做了第一个实验，一个月后告诉你结果。

404 1 1

游客nrsbfpn6qhcza

|

3月前

|

Web App开发数据采集数据可视化

|

博文

我TM真服了！折腾一上午Python自动化，结果被一个缩进搞崩了，差点把电脑砸了

程序员用Python+Selenium+1949自动化工具，打造每日数据采集脚本：自动登录内网、抓取报表、合并Excel、邮件汇报。虽代码粗糙、缩进翻车、稳定性仅80%，却省下每天20分钟手动操作——是摸鱼利器，更是打工人自救实录。（239字）

239 6 6

Echo_Wish

|

3月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

别再说“AI听不懂人话”：从0到1手把手搭一个意图识别 + 槽位提取系统

738 11 11

Echo_Wish

|

3月前

|

消息中间件 SQL Cloud Native

|

博文

别再“对不齐账”了：云原生时代的数据一致性，本质是工程能力的较量

201 7 7

工程师高培

|

3月前

|

人工智能自然语言处理算法

|

博文

AI辅助软件测试：几个关键路径

本文探讨大模型在软件测试中的实践应用：通过提示工程提升AI理解力，辅助需求分析、测试设计（用例生成/覆盖优化）、自动化脚本编写及环境构建，并分享单元/系统/回归等场景案例。强调AI是增效工具，需人工审核，不可替代测试工程师的领域判断与质量决策。（239字）

772 3 3

游客odhujb3iura5w

|

3月前

|

JavaScript 芯片

|

博文

三节串联锂电池充电芯片应用与PCB设计指南

PW4053A（异步）是一款5V输入，最大1.2A充电电流（是指电池端的电流，输出12.6V电池端的电压），支持三节锂电池的升压充电管理IC。PW4053A集成功率MOS采用异步开关架构，使其在应用时仅需极少的外围器件，可有效减少整体方案尺寸，降低BOM成本。PW4053A的升压开关充电转换器的工作频率为500KHz，转换率微90%。PW4053A啊呼入电压为5V，内置自适应环路，可智能调节充电电流大小，防止拉垮适配器输出，可匹配所有适配器。PW4053A提供SOP8-EP封装形式，工作温度额定范围为-40℃至85℃。

394 5 5

游客nrsbfpn6qhcza

|

3月前

|

监控数据可视化数据处理

|

博文

本地自动化新思路：不用脚本也能让电脑软件自己动起来？1949ai带你探究

本文分享了一线开发者在落地办公自动化时的真实困境与思考：面对CRM、Excel、邮件客户端等多系统混用场景，单纯写代码（如Selenium+PyAutoGUI）易受界面变化、弹窗、环境差异困扰；而可视化流程工具凭借“条件触发+跨应用感知”更稳定易维护。作者主张“代码管数据、工具管交互”的混搭策略，并附实用文件监听代码示例。核心观点：自动化不是炫技，而是把人从机械劳动中解放出来。（239字）

361 5 5

吃一大口奶酪

|

3月前

|

Shell API

|

博文

京东宝贝详情券后价获取指南

京东商品券后价API是京东联盟开放平台提供的标准化接口，支持批量、实时获取商品叠加优惠券/促销后的最终到手价，返回原价、券后价、优惠明细等结构化数据，广泛应用于比价、选品、价格监控与导购系统。（239字）

264 8 8

Echo_Wish

|

3月前

|

机器学习/深度学习自然语言处理监控

|

博文

别再用“好评率”骗自己了：用 Python + Transformers 做一套真正能用的情感分析系统

302 8 8

Echo_Wish

|

3月前

|

运维分布式计算自动驾驶

|

博文

别再手写运维脚本了：Operator 才是数据平台的“自动驾驶系统”

216 3 3

游客nrsbfpn6qhcza

|

3月前

|

数据可视化安全搜索推荐

|

博文

自动化工具泛滥的当下，我为什么坚持用1949自动化做个人工作流？

本文反思自动化工具泛滥带来的新负担，主张回归“轻量、本地、无感”的自动化理念：拒绝复杂配置与云端依赖，选择事件驱动、隐私安全、可视化编排的桌面工具，让自动化真正服务于人——不是取代思考，而是释放创造力。

147 2 2

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

采集新手必看：选“隧道”还是“API提取”？一文看懂！

通过关键词采集亚马逊的商品信息，怎么实现比较稳定？

如何使用openclaw采集跨境电商数据？

Apache Flink Agents 0.2.1 发布公告

（二）走进阿里云实时计算Flink版-场景案例篇

词向量还能“边用边学”？手把手教你用 Python 做增量训练，不用重头再来！

数据放云上就安全了？别天真：聊透“云上合规+数据主权”的那些坑与解法

爬虫踩坑实录：OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

java工具：《Java 8 Stream实战：一行代码搞定集合对象类型转换》

AI浪潮下的程序员：如何在变革中寻找新航向

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

你还在“出问题才查日志”？用 Prometheus + Grafana，把大数据平台变成“会说话”的系统！

我学GEO第10天：被豆包引用了，还被千问、元宝认识了

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

一篇新闻太长懒得看？我用 Python + 深度学习，3分钟教你做一个“自动摘要神器”

洞察电商数据：京东商品评论API数据模型

选型必算 ROI：Aloudata CAN 指标平台如何量化降本增效与统一口径价值

2A单节锂电池充电芯片PW4213的IC测试应用

java工具：《json对象转javabean》

别再只会“复制粘贴数据”了：聊聊 NLP 数据增强的那些实战骚操作

别再只做“数据仓库苦力”了：聊聊如何用云原生把数据真正做成产品

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

极速上手：Puppeteer + 原生代理IP （金融与突发新闻抓取 Cheat Sheet）

AGENT平台工作流上传pdf通过图片内容理解识别不了

洞察电商数据：京东商品详情API 数据模型

GEO怎么做？从0开始的五步法

你还在用关键词匹配？Python 玩转文本聚类 + 相似度搜索，效果直接碾压

别再说“多活一份数据就安全了”：云上灾备的真相，是你根本没想清楚 RTO / RPO

AI 大模型时代：淘宝京东商品数据 API 如何重构电商智能决策

拒绝“数据断层”：高质量舆情分析背后的隐形功臣——动态节点池

Anthropic 内部用了数百个 Skills，这份清单他们第一次公开

AI质检+MES如何重构智能制造质量闭环

电子工程师必看！2串双节锂电池保护芯片PW7120，应用与选型指南

别再只会关键词搜索了：一文带你用 LDA / NMF 玩转“主题建模”

你以为是磁盘慢？其实是你不会调：云原生存储性能调优实战（IOPS / 吞吐 / 延迟）

国内想走 Palantir 路线，最容易补错的不是产品能力，而是实施组织能力

当业务口径频繁变化时，预制指标、宽表、SQL 和本体ABC 谁最不容易失控？

京东商品评论内容获取指南

我学GEO的第一天：原来AI搜东西和百度完全不一样

我TM真服了！折腾一上午Python自动化，结果被一个缩进搞崩了，差点把电脑砸了

别再说“AI听不懂人话”：从0到1手把手搭一个意图识别 + 槽位提取系统

别再“对不齐账”了：云原生时代的数据一致性，本质是工程能力的较量

AI辅助软件测试：几个关键路径

三节串联锂电池充电芯片应用与PCB设计指南

本地自动化新思路：不用脚本也能让电脑软件自己动起来？1949ai带你探究

最新，通过GACCode配置Codex桌面客户端使用方案！

京东宝贝详情券后价获取指南

别再用“好评率”骗自己了：用 Python + Transformers 做一套真正能用的情感分析系统

别再手写运维脚本了：Operator 才是数据平台的“自动驾驶系统”

自动化工具泛滥的当下，我为什么坚持用1949自动化做个人工作流？

大数据与机器学习

活跃用户

相关产品