大数据与机器学习-最热-第46页-阿里云开发者社区

Echo_Wish

|

4月前

|

自然语言处理

|

博文

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

285 6 6

Echo_Wish

|

4月前

|

分布式计算大数据流计算

|

博文

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

235 4 4

Echo_Wish

|

4月前

|

存储运维安全

|

博文

数据放云上就安全了？混合云时代，90%的人都忽略了这件事

244 2 2

实时数仓Hologres团队

|

4月前

|

SQL 搜索推荐数据挖掘

|

博文

检索的终局是决策：OLAP 如何重塑 Hologres 多模混合检索的价值边界

HSAP 2.0是Hologres提出的混合搜索与实时分析架构，首次将全文/向量检索与OLAP能力深度集成，实现“边查边算”。支持一条SQL完成语义匹配、结构化过滤与多维聚合，消除ETL延迟，保障强一致性，让检索系统从信息工具跃升为驱动商业决策的实时洞察引擎。

274 2 2

来自：实时数仓 Hologres 版块

Echo_Wish

|

4月前

|

消息中间件运维 Kafka

|

博文

别再堆机器了：无服务器流处理，才是实时数据的“降维打击”

239 11 11

刘大猫.

|

4月前

|

Java

|

博文

java工具：《检测一个字符串是否是时间格式》

187 4 4

奔跑的数据

|

4月前

|

数据采集监控 JavaScript

|

博文

Node.js Axios代理配置指南与内存泄漏排查

本文讨论了如何优化Node.js+Axios+爬虫代理链路，解决高并发下的TCP握手开销和内存溢出问题。通过使用连接池、复用Agent、优化Axios配置等策略，显著提升了爬虫性能和稳定性。

298 0 1

Echo_Wish

|

4月前

|

人工智能 TensorFlow 算法框架/工具

|

博文

别只会 `model.fit()`：聊聊 TensorFlow 2.x 的性能优化与生产部署那些事

318 6 6

刘大猫.

|

4月前

|

Java

|

博文

java工具：《获取指定日期23时59分59秒》

232 4 4

Echo_Wish

|

4月前

|

数据采集人工智能数据处理

|

博文

别只盯着模型参数了：聊聊多模态时代最容易被忽视的一件事——训练数据准备

474 4 4

小攻云攻略

|

4月前

|

Serverless

|

博文

阿里云产品二月刊来啦

千问 Qwen3.5-Plus 重磅登场，百炼 Coding Plan 支持多款开闭源模型，桌面 Agent 工具 CoPaw 开源，函数计算 AgentRun 重磅上线知识库功能｜产品二月刊

428 6 7

游客vv4u4wyick5ti

|

4月前

|

SQL 人工智能自然语言处理

|

博文

.md 编译了个人认知，什么来编译企业的认知？

在蚂蚁的时候，我们喊的口号是“让数据像水一样流动”，让每个念头都能被数据灌溉。现在我觉得这句话应该更新一下：让认知像代码一样流动。

211 3 3

游客ioy3bh5cxb3jw

|

5月前

|

人工智能自然语言处理机器人

|

博文

2026数字助理时代真的要来临了——直接自然语言操作AI助理，马斯克预言真的来了

AI自动开浏览器抢12306车票！这不仅是聊天机器人，而是能“看屏、点鼠、敲键”的数字员工——绕过API限制，直接操作任何GUI软件。马斯克力推的MacroHard（Digital Optimus），正颠覆传统软件逻辑，宣告“数字助理时代”真正来临。

316 1 1

奔跑的数据

|

5月前

|

数据采集 Go 开发者

|

博文

Go语言高并发采集：Goroutine配合隧道代理的极致性能体验

本文探讨了使用Go语言和隧道代理技术实现高并发数据采集的方法。Go的轻量级并发和非阻塞I/O特性，结合隧道代理的IP轮换优势，可大幅提升采集效率并降低维护成本。文章提供了Go代码示例，展示了如何配置http客户端使用隧道代理，并强调了性能优化技巧，如连接池复用、Channel限流、错误重试和上下文控制

220 2 2

一只小鲁班

|

5月前

|

流计算关系型数据库 Oracle

|

问答

flink cdc 的oracle xstream监听不到数据，增删改查完全没有，只打印了见建语句

246 0 0

来自：实时计算 Flink 版块

Davidham3

|

5月前

|

Rust 并行计算算法

|

博文

从130倍性能提升看Python的批量计算和并行化策略：traj-dist-rs的并行策略实现

本文以traj-dist-rs为例，讲解使用rust与rayon在python的计算密集型任务中的性能提升方案。

308 6 6

AI未闻花名

|

5月前

|

算法数据挖掘测试技术

|

博文

大模型应用：向量数据库智能化索引优化：基于数据特征的最优算法自适应选择.32

本文介绍向量数据库的智能化索引优化方案：通过自动分析向量数据的维度、规模、分布与稀疏性四大特征，结合专家规则与轻量模型，动态匹配最优索引算法（如HNSW、IVF-PQ等），并经基准测试验证召回率、QPS与延迟，实现“分析—匹配—验证—部署”闭环，显著降低人工调参成本。

422 3 3

墨祤

|

5月前

|

存储运维分布式计算

|

博文

诗悦游戏基于DLF与EMR StarRocks降本38%

诗悦网络（2014年成立）是千人规模的研运一体手游公司，代表作有《长安幻想》《永夜降临》等。为支撑PB级开放世界新游《望月》，其原半托管StarRocks数据平台面临高成本、难运维、稳定性差等痛点。阿里云以Serverless StarRocks+DLF Paimon数据湖方案实现存算分离、多租户隔离与全托管运维，总成本降38%，查询性能提升40%+，RPO=0，全面赋能实时/近实时/离线场景。

468 3 4

来自：开源大数据平台 E-MapReduce 版块

大模型玩家七七

|

5月前

|

安全算法测试技术

|

博文

PPO / DPO 对安全边界的影响：压制还是迁移风险

本文揭示对齐训练（PPO/DPO）的深层误区：它不降低风险总量，而是迁移风险形态——压制显性违规，却强化灰区输出的稳定性与隐蔽性。风险未被消除，只是从“直白越界”变为“委婉越界”，更难检测、评估与拦截。安全不能只靠对齐，需模型、系统、策略三层协同。

269 5 6

大模型玩家七七

|

5月前

|

安全

|

博文

RAG 里，什么时候该让模型“少看一点”

本文揭示RAG系统常见误区：盲目扩大TopK、增加文档量，实则导致“证据过载”，诱发模型强行综合、自信出错。核心观点：**“多看”不等于“更准”，反会稀释判断力；成熟RAG的关键，在于懂得何时主动“少看”**——守住模型的犹豫权与判断阈值。

292 1 1

大模型玩家七七

|

5月前

|

C++

|

博文

共享 backbone 的多任务微调，什么时候该拆开

本文剖析多任务共享backbone的拆分时机，指出其本质是阶段性策略而非永久架构。当模型行为难以归因、梯度冲突加剧、任务目标相悖、评估失焦或团队畏惧训练时，共享即成负担。理性拆分的关键，在于守护系统长期可控性。

228 1 1

Echo_Wish

|

5月前

|

SQL 人工智能运维

|

博文

人机共生时代：AI 不是敌人，而是一起扛活的伙伴

279 7 8

你的橙来啦

|

5月前

|

人工智能自然语言处理人机交互

|

博文

智能体来了：2026AI元年，如何抓住时代机遇？

2026年，AI正跨越临界点：智能体从实验走向系统化应用，呈现三大演进——由工具升级为协作伙伴、领域专业化深化、多智能体分布式协同。人机关系、工作流程与交互范式随之重构。机遇不在技术速胜，而在理解复杂性、保持判断力、构建可持续共处能力。

415 1 2

智能体来了小锅

|

5月前

|

博文

智能体来了时代，领航员如何共建智创未来

智能化时代重在“系统协同”而非单点突破。“共建”成为关键——领航员需动态界定人机分工：哪些全交智能体、哪些人机协作、哪些人类终审。这要求组织兼具技术理解力与治理耐心，在平衡中释放智创潜能。（239字）

130 0 2

智能体来了小锅

|

5月前

|

博文

当智能体来了，领航员如何驱动智创未来？

智能体加速执行，但不判断目标合理性；真正的“驱动”正转向方向把控与治理能力。领航员通过规则、流程与责任机制，决定智能体“往哪跑、跑多快、何时停”，实现技术与治理双轮驱动的稳健智能化。（239字）

150 1 1

游客vv4u4wyick5ti

|

5月前

|

SQL 存储关系型数据库

|

博文

数据治理决策指南：元数据平台自研与采购的真实成本账单

采购成熟产品，本质上是为“确定性”付费——确定性的高精度、确定性的高效率和确定性的风险规避能力。

212 0 1

你的橙来啦

|

5月前

|

传感器人工智能供应链

|

博文

智能体来了：传统行业的新心脏

在景德镇百年瓷坊，全息“陶瓷导师”远程传授釉料奥秘；苏州绣娘指尖化为数字模块，山西醋师经验凝成23项参数——智能体正以“伙伴”身份融入传统行业：不替代人，而激活隐性知识、延伸技艺生命、重塑价值链。这是技术与匠心的共生复兴。

180 5 5

大模型玩家七七

|

5月前

|

自然语言处理算法安全

|

博文

PPO 在真实业务里的 3 种典型用法

本文揭示PPO在真实业务中的核心定位：非能力提升工具，而是行为校正利器。聚焦三大高价值用法——收敛回答风格、压制低频高危越界、调整默认行为偏好，并明确其边界：不学新知识、不修事实错误、不替代规则。PPO是精准的“手术刀”，而非万能药。

273 8 8

大模型玩家七七

|

5月前

|

自然语言处理安全

|

博文

当客服系统开始稳定运行，模型往往已经退居二线

客服系统演进本质是责任回归：初期依赖“模型驱动”快速验证，但长期稳定必经“策略驱动”转型——通过规则引擎、风险拦截与人工兜底，将决策权从模型手中收回，让模型专注语言理解与表达。成熟系统的标志，不是模型多强大，而是它只做该做的事。

201 10 11

Echo_Wish

|

5月前

|

人工智能算法

|

博文

AGI 的临界点：机器究竟什么时候，才算“真的理解了这个世界”？

262 2 3

大模型玩家七七

|

5月前

|

物联网 C++

|

博文

不是调不动了，而是该停了：微调止损时刻

本文揭示微调项目失败的真相：非“调不好”，而是“停太晚”。当参数调整不再提升核心能力，仅改变错误形式、降低可复现性、掩盖风险时，即应果断停止。提出六大停调信号与实用判断流程，强调“敢于放手”才是工程成熟的关键。

265 2 2

大模型玩家七七

|

5月前

|

安全物联网测试技术

|

博文

为什么 loss 看起来很好，模型却更危险了

本文揭示大模型微调中一个关键陷阱：loss持续下降≠模型更安全。相反，当loss“好看”时，模型可能因过度拟合训练数据中的偏差、模板或错误表达而变得更危险——回答更笃定、拒答率下降、边界问题越界更隐蔽。根本原因在于：loss衡量的是“复现训练文本”的能力，而非“行为是否可靠/合规”。工程上应转向以事实正确率、拒答率、自信度、越界率等为核心的行为评估体系，将loss仅作为训练健康度的辅助信号。

476 1 1

大模型玩家七七

|

6月前

|

博文

切分 + TopK：最容易被一起调坏的一对参数

RAG系统“慢性失效”常源于切分与TopK的错误联动：切分过碎导致语义碎片化，盲目调大TopK则放大噪声与冲突，而非提升效果。二者非独立参数，而是相互放大的风险组合——切分决定知识完整性，TopK决定坏信息进入决策层的数量。

244 1 1

刻舟未必求剑

|

6月前

|

问答

当使用selenium采集跨境电商数据时，如何处理人机验证问题？

194 1 0

刻舟未必求剑

|

6月前

|

人工智能 Python

|

问答

向量数据库项目，什么时候该止损

本文探讨向量数据库项目中常被忽视的关键决策：何时该及时止损。指出许多项目失败并非技术问题，而是因沉没成本心理、误用场景或盲目调优（如TopK膨胀）导致不可控复杂度。提出五大止损信号与实用诊断法，强调“停”是工程成熟的表现——真正负责的是系统稳定性与长期成本，而非工具本身。

224 16 16

py世界

|

6月前

|

数据采集

|

问答

如何使用cursor构建一个舆情监测系统，涉及到谷歌搜索的实时数据采集？

180 1 0

阿里云大数据

|

6月前

|

分布式计算 Serverless 测试技术

|

博文

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark，体验“实时分析冠军”与“批处理之神”的极致性能表现！

810 2 2

来自：开源大数据平台 E-MapReduce 版块

py世界

|

6月前

|

问答

做电商竞品分析时，想批量采集多个站点的商品数据，但总是跳出验证码，怎么解决？

232 0 0

智能体来了小锅

|

6月前

|

搜索推荐机器人 API

|

博文

市场调研：智能体助力，智创未来客户转化率提升 70%

在CAC飙升时代，传统MA难破转化瓶颈。智能体（Agent）以意图识别、情绪共鸣、24/7个性化服务与工具调用能力，实现从“骚扰”到“服务”的跃迁，实测转化率提升70%+，打造触达→成交无缝闭环。（239字）

224 0 0

1隔壁老陈

|

6月前

|

人工智能自然语言处理 Serverless

|

博文

破解 AI Agent 搭建师职业焦虑：从 “搬砖式搭建” 到 “资产化架构” 的升维路径

AI Agent搭建师正面临“沙城困境”：模型快速迭代使外挂逻辑失效，低代码工具普及压缩职业空间。破解焦虑需转型为“数字化资产构建者”，通过逻辑蒸馏、轻量行为编排与意志资产沉淀，将行业直觉转化为可复用、排他性的智能体核心竞争力，在AGI黎明期锚定不可替代价值。（238字）

250 5 5

游客i3vs243rqyvl2

|

6月前

|

数据安全/隐私保护流计算

|

问答

pyflink在读取hdfs文件的时候如何使用通配符？

661 0 0

来自：实时计算 Flink 版块

智能体来了小锅

|

6月前

|

人工智能 Rust 算法

|

博文

趁智能体之势，融入智创未来，书写精彩人生

开发者如何抓住AI Agent红利？告别焦虑，从“码农”进阶“指挥官”。智能体不是替代你，而是放大你的创造力。未来属于善用Agent、构建数字员工团队的超级个体。融入浪潮，用智慧解决真问题，书写属于技术人的精彩人生。

146 0 0

智能体来了小锅

|

6月前

|

人工智能架构师 API

|

博文

智能体来了，智创未来背后隐藏着哪些新趋势？

2024年迈入AI Agent时代：从单体大模型走向多智能体协作、端侧轻量化部署与Agent即操作系统。告别“单打独斗”，开发者需掌握Multi-Agent架构、SLM优化及Agent-OS范式，主动参与智能生产力重构。（239字）

227 1 1

yxx112358

|

6月前

|

人工智能

|

博文

当智能体开始长期运行，AI智能体运营工程师在系统中负责哪些关键决策？

在智能体逐步进入真实业务并开始长期运行的背景下，问题不再是是否需要智能体，而是如何保障其作为系统的稳定与可持续运行。随着运行周期拉长，目标调整、任务规划失效、成本与收益评估、异常处理以及能力复用等问题不断显现，这些问题往往无法通过一次性开发或模型训练解决。在此过程中AI智能体运营工程师承担着关键的系统决策职责，其核心工作并非持续开发新功能，而是在智能体生命周期的多个关键节点上，对目标边界、执行路径、运行价值和风险进行判断与调整。通过这些系统层面的决策，运营工程师保障智能体从短期试验走向长期可用，避免因失控、低效或高成本而被淘汰。该角色的价值体现在对智能体整体运行质量的把控，是智能体实现规模化

184 4 4

Echo_Wish

|

6月前

|

数据采集机器学习/深度学习自然语言处理

|

博文

别再迷信“参数越大越牛了”，大模型真正的分水岭，其实在数据准备

321 10 10

游客fxfcnqx6ob4yg

|

6月前

|

数据可视化 BI 定位技术

|

博文

选择合适的工具

选择合适工具（如Excel、Tableau、Python等）进行数据可视化，确保数据清洁、结构合理。根据分析目标选用折线图、柱状图、散点图等图表类型，设计时优化颜色、字体、标签等视觉元素，提升可读性。通过代码示例实现图表并验证效果，确保信息准确传达。

189 8 8

阿里云大数据

|

6月前

|

人工智能分布式计算 DataWorks

|

博文

阿里云大数据AI产品月刊-2025年12月

大数据& AI 产品技术月刊【2025年 12 月】，涵盖 12 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

580 2 2

灵杰开发者

|

6月前

|

存储人工智能运维

|

博文

真实案例复盘：从“三套烟囱”到 All in ES，这家企业如何砍掉 40%运维成本

某泛娱乐平台面临搜索架构复杂、成本高企难题，通过阿里云Elasticsearch实现日志、搜索、向量一体化重构。借助Serverless化与混合存储，成本降60%，运维统一，查询效率倍增，验证了“All in ES”极简架构在AI时代的高效与可扩展性。

426 1 1

来自：检索分析服务 Elasticsearch版版块

Echo_Wish

|

6月前

|

消息中间件 SQL OLAP

|

博文

别再迷信离线数仓了，用流处理把实时指标平台（实时 OLAP）真正“跑起来”

206 7 7

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

为什么你的 NLP 模型一换语言就“智商归零”？多语言 NLP 的坑，比你想的深得多

你还在手动发包？容器镜像一上，大数据部署直接“起飞”！

数据放云上就安全了？混合云时代，90%的人都忽略了这件事

检索的终局是决策：OLAP 如何重塑 Hologres 多模混合检索的价值边界

别再堆机器了：无服务器流处理，才是实时数据的“降维打击”

java工具：《检测一个字符串是否是时间格式》

Node.js Axios代理配置指南与内存泄漏排查

别只会 `model.fit()`：聊聊 TensorFlow 2.x 的性能优化与生产部署那些事

java工具：《获取指定日期23时59分59秒》

别只盯着模型参数了：聊聊多模态时代最容易被忽视的一件事——训练数据准备

阿里云产品二月刊来啦

.md 编译了个人认知，什么来编译企业的认知？

2026数字助理时代真的要来临了——直接自然语言操作AI助理，马斯克预言真的来了

Go语言高并发采集：Goroutine配合隧道代理的极致性能体验

flink cdc 的oracle xstream监听不到数据，增删改查完全没有，只打印了见建语句

从130倍性能提升看Python的批量计算和并行化策略：traj-dist-rs的并行策略实现

大模型应用：向量数据库智能化索引优化：基于数据特征的最优算法自适应选择.32

诗悦游戏基于DLF与EMR StarRocks降本38%

PPO / DPO 对安全边界的影响：压制还是迁移风险

RAG 里，什么时候该让模型“少看一点”

共享 backbone 的多任务微调，什么时候该拆开

人机共生时代：AI 不是敌人，而是一起扛活的伙伴

智能体来了：2026AI元年，如何抓住时代机遇？

智能体来了时代，领航员如何共建智创未来

当智能体来了，领航员如何驱动智创未来？

数据治理决策指南：元数据平台自研与采购的真实成本账单

智能体来了：传统行业的新心脏

PPO 在真实业务里的 3 种典型用法

当客服系统开始稳定运行，模型往往已经退居二线

AGI 的临界点：机器究竟什么时候，才算“真的理解了这个世界”？

不是调不动了，而是该停了：微调止损时刻

为什么 loss 看起来很好，模型却更危险了

切分 + TopK：最容易被一起调坏的一对参数

当使用selenium采集跨境电商数据时，如何处理人机验证问题？

如何使用python进行采集youtube视频评论数据？

向量数据库项目，什么时候该止损

如何使用cursor构建一个舆情监测系统，涉及到谷歌搜索的实时数据采集？

有奖实践：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

做电商竞品分析时，想批量采集多个站点的商品数据，但总是跳出验证码，怎么解决？

市场调研：智能体助力，智创未来客户转化率提升 70%

破解 AI Agent 搭建师职业焦虑：从 “搬砖式搭建” 到 “资产化架构” 的升维路径

pyflink在读取hdfs文件的时候如何使用通配符？

趁智能体之势，融入智创未来，书写精彩人生

智能体来了，智创未来背后隐藏着哪些新趋势？

当智能体开始长期运行，AI智能体运营工程师在系统中负责哪些关键决策？

别再迷信“参数越大越牛了”，大模型真正的分水岭，其实在数据准备

选择合适的工具

阿里云大数据AI产品月刊-2025年12月

真实案例复盘：从“三套烟囱”到 All in ES，这家企业如何砍掉 40%运维成本

别再迷信离线数仓了，用流处理把实时指标平台（实时 OLAP）真正“跑起来”

大数据与机器学习

活跃用户

相关产品