大数据与机器学习-最新-阿里云开发者社区

阿里云大数据Al技术

|

人工智能算法云栖大会

|

技术作品

置顶

开启云上 AIGC 动手实践，探索技术创意

面向 GenAI 时代，阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践，提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程，覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域，为您带来 AIGC 开发全新体验。

1113 168

来自：人工智能平台PAI 版块

阿里云大数据

|

12小时前

|

人工智能分布式计算 DataWorks

|

博文

阿里云大数据 AI 产品月刊-2026年6月

阿里云大数据& AI 产品技术月刊【2026 年 6 月】，涵盖 6 月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

37 0 0

阿里云大数据

|

13小时前

|

SQL 人工智能 Serverless

|

博文

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

阿里云 EMR Serverless StarRocks 在统一数据、一致语义和系统级优化之上，构建了面向 AI Data、AI Agent 和多模态应用的下一代湖仓架构。

43 0 0

来自：开源大数据平台 E-MapReduce 版块

游客z6vhyeapk57be

|

13小时前

|

JSON 缓存自然语言处理

|

博文

大模型长文本处理实践：基于分段提取与结果合并生成结构化摘要

本文提出一种高效、稳定的长文本处理方案：通过智能分段（支持句子级切分与上下文重叠）、并行结构化提取（JSON格式事实抽取）、多级去重（精确匹配+语义相似度）、冲突识别与溯源校验，最终生成可追溯、低成本、高可控的摘要。适用于录音转写、会议纪要等场景，显著提升准确性与可解释性。（

33 0 0

来自：大数据计算 MaxCompute 版块

游客z6vhyeapk57be

|

13小时前

|

数据采集存储 JSON

|

博文

基于录音转写与大模型的家装客户概览生成实践

针对家装行业长录音（常超万字）设计客户概览系统：通过语音转写、角色区分、语义分段、结构化事实提取、历史数据融合及多层校验，精准提炼家庭情况、需求、预算、顾虑等关键信息，确保每项结论可追溯、无混淆，赋能销售与设计高效决策。

44 1 1

奔跑的数据

|

14小时前

|

数据采集网络协议 JavaScript

|

博文

为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战

本文探讨了高并发环境下数据采集和爬虫扩容的挑战，强调了提高并发量可能不会提升吞吐量，反而可能导致系统变慢。文章介绍了排查单机资源瓶颈的方法，并讨论了代理隧道的瓶颈。提供了一个Python asyncio + aiohttp的生产级爬虫代码示例，整合了连接池控制、隧道代理接入等，以解决高并发下的吞吐抖动和429报错。最后，总结了爬虫调优的分层治理法则，强调了在遇到问题时，应遵循迭代路径，找准真正的瓶颈层进行优化。

41 0 0

winx_19970108018

|

19小时前

|

人工智能文字识别监控

|

博文

taobao.item.search.img（拍立淘图片搜索 API)全业务场景手册

拍立淘按图搜商品（taobao.item.search.img）是阿里视觉AI接口，支持图片URL或Base64输入，精准返回同款/相似商品ID、标题、价格、销量等结构化数据，广泛应用于跨境铺货、比价导购、竞品监控、品牌维权、智能选品等六大场景。（239字）

30 0 0

V哥AI增长

|

21小时前

|

人工智能搜索推荐算法

|

博文

AI搜索引擎引用源选择机制的数据分析：2026年趋势与技术解析

本文系统剖析AI搜索引擎引用源选择机制，提出目标、投入、周期、产出、风险五维分析框架，揭示其“新鲜度偏好、权威性加权、语义匹配优先”技术特征；明确3–6个月见效周期，强调内容质量、结构化程度与持续产出能力的核心作用，并提供可量化的自检与分级建设路径。

32 0 0

来自：智能搜索推荐版块

网渡科技

|

21小时前

|

消息中间件调度数据挖掘

|

博文

基于规则引擎与异步任务调度的定投策略系统架构设计实践

本文介绍网渡科技研发的自动化策略执行平台，基于规则引擎、异步调度与分布式架构，集成策略管理、智能调度、风控体系与数据分析模块，解决传统定时任务在扩展性、可靠性及运维上的瓶颈，支撑高并发、大规模、强管控的自动化业务场景。

28 0 0

Echo_Wish

|

22小时前

|

数据采集人工智能算法

|

博文

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

43 1 1

1075529324452879

|

1天前

|

人工智能搜索推荐安全

|

博文

你发了那么多文章，DeepSeek可能连看你一眼都没有

本文深度拆解DeepSeek联网搜索的答案生成机制：它不自建搜索引擎，而是调用Bing API；答案生成含7步——判断联网、需求拆解、语义扩词、Bing检索、精读筛选（重标题具体度/域名信任度/时效性）、交叉验证（仅逻辑可信，非事实核查）、整合输出。揭示GEO优化必须先确保内容被Bing收录，结构化、多源一致、Schema标记等动作才有效。知其所以然，方能精准优化。

72 3 3

来自：智能搜索推荐版块

游客oyfhbj5ifoihc

|

1天前

|

人工智能安全决策智能

|

博文

数学周刊第25期(2026年07月06日-07月12日)韦东奕获奖中科院发布全流程数学研究智能体MMAT

99 2 2

晓子文集

|

2天前

|

存储

|

博文

Tushare接口文档：交易日历（trade_cal）

本文旨在对Tushare的交易日历trade_cal数据接口进行介绍，提供更多参考示例和使用说明。交易日历可以用来作为获取其他数据的关键（迭代）参数，也可以进行其他的应用。本文还基于交易日介绍了如何获取每周及每月最后一个交易日。

123 1 1

V哥AI增长

|

2天前

|

数据采集人工智能搜索推荐

|

博文

AI搜索时代内容匹配机制：从关键词匹配到语义匹配的范式转换

本文剖析AI搜索引擎（如豆包、Kimi）依赖RAG技术实现语义匹配的底层逻辑，揭示其以向量相似度替代BM25关键词匹配的本质。指出关键词堆砌已失效，并提出四大语义时代内容策略：覆盖多元问法的语义覆盖、结构化段落提升可引用性、权威引用增强可信度、FAQ打造天然语义锚点。

63 0 0

来自：智能搜索推荐版块

nick4936601387

|

3天前

|

存储人工智能程序员

|

问答

# 项目思路求打脸 —— AI 可能忽视的问题与我的非主流路线

85 0 0

游客vv4u4wyick5ti

|

3天前

|

SQL 人工智能自然语言处理

|

博文

企业需要的不是会写 SQL 的 AI 问数工具，而是懂业务语义的 AI 分析搭档

只有建立在统一语义层之上的 AI 分析搭档，才能提供可信、可解释、可复用的分析能力。

48 0 0

V哥AI增长

|

3天前

|

人工智能搜索推荐算法

|

博文

AI搜索引擎引用源选择机制的数据分析：2026年趋势与技术解析

本文系统剖析AI搜索引擎引用源选择机制，提出目标、投入、周期、产出、风险五维分析框架，揭示其“新鲜度偏好、权威性加权、语义匹配优先”特征；指出3–6个月为典型见效周期，强调内容质量、结构化程度与持续产出能力是关键，并提供分级建设策略与三步自检法。

53 0 0

来自：智能搜索推荐版块

Echo_Wish

|

3天前

|

Prometheus 监控 Cloud Native

|

博文

本文提出AI搜索“引用→点击→咨询”三层转化漏斗模型，基于45条引用记录发现：首位引用点击率15%–25%，第5位后不足3%；内容完整度70%时咨询率最高（超15%），过高反致用户自助流失；决策型关键词转化率是学习型的10倍。实证优化60天，咨询量增长约10倍。

68 0 0

来自：智能搜索推荐版块

Echo_Wish

|

4天前

|

数据可视化前端开发小程序

|

博文

看得见，不代表人人都看得懂：数据可视化为什么越来越需要“无障碍设计”？

56 1 1

Alan_751

|

5天前

|

人工智能自然语言处理前端开发

|

博文

AI 时代的 API：大模型如何重塑接口设计

本文探讨大模型时代API设计的范式变革：从REST/GraphQL/gRPC的结构化契约，转向意图理解、生成响应与Agent编排。涵盖三大演进方向——自然语言意图解析、流式生成+函数调用、有状态多轮对话，并提供可落地的FastAPI工程示例。（239字）

67 1 1

V哥AI增长

|

5天前

|

数据采集人工智能供应链

|

博文

GEO岗位数据分析：20份JD拆解与AI搜索优化师能力模型解析

本文基于20份GEO岗位JD数据分析，从名称分布、薪资区间（8K–25K）、核心能力（内容策略/平台分发/数据追踪）及可持续性四维度拆解AI搜索优化岗。结论：非技术岗，是内容运营的AI升级版，无需编程，但需懂AI引擎偏好；当前供需失衡带来20%–30%薪资溢价，能力将成未来标配。

140 1 1

来自：智能搜索推荐版块

Echo_Wish

|

5天前

|

机器学习/深度学习缓存数据可视化

|

博文

为什么别人用 Jupyter 一天搞定数据分析，而你却越写越乱？

69 1 1

s4puj2y4jsam4

|

6天前

|

监控调度

|

博文

煤炉自动代拍系统开发——从轮询到事件驱动的架构演进

煤炉（Mercari）是日本最大中古交易平台，商品丰富但上新秒空。传统轮询代拍易漏单、响应慢。本系统采用事件驱动架构+异步监控+智能下单队列，实现毫秒级感知与自动抢拍，大幅提升捡漏成功率，支持24小时无人值守代拍。

57 0 0

SelectDB

|

6天前

|

存储 JSON Apache

|

博文

Apache Doris 在 AgentLogsBench 中领先，支撑 Agent 可观测性生产负载

AgentLogsBench 是面向AI Agent可观测性的新型混合负载基准，聚焦trace回放、大文本搜索、动态JSON过滤与实时看板四大真实场景，2026年5月测试显示Apache Doris综合性能领先。（239字）

57 3 3

来自：大数据运维SREWorks 版块

V哥AI增长

|

6天前

|

人工智能搜索推荐数据库

|

博文

3个技术特征：向量数据库如何驱动AI搜索引擎的内容引用选择

本文从技术角度解析AI搜索引擎（如豆包、Kimi、DeepSeek）的内容引用机制，揭示其依赖向量数据库进行语义检索的本质。基于2026年实测数据，指出内容被引用的三大关键指标：结构化层级清晰度、数据密度、权威来源可追溯性，并阐明其与传统关键词检索的根本差异。（239字）

68 1 1

来自：智能搜索推荐版块

奔跑的数据

|

6天前

|

数据采集 JavaScript 前端开发

|

博文

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

这篇文档讨论了单页应用（SPA）数据抓取的挑战和策略。SPA与传统服务端渲染不同，数据由JS生成，导致传统爬虫失效。难点包括路由切换时机、动态接口定位、鉴权、反爬等。解决方案包括直接复现接口和浏览器自动化渲染。核心是保持会话和IP一致性。文档提供了技术解决方案和代码示例。

114 1 1

Echo_Wish

|

6天前

|

SQL 数据挖掘大数据

|

博文

132 2 2

游客jxehurku7icd6

|

7天前

|

问答

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

188 1 0

游客tg2jszfthwlu2

|

9天前

|

存储人工智能 NoSQL

|

博文

基于GB/T 42131的艾索四标融合GEO方法论知识图谱技术实现

本文面向阿里云开发者，深度解读GB/T 42131国家标准与RAG架构融合的GEO（生成式引擎优化）工程化实践，详解知识图谱建模、四级信源分级、图+向量双引擎存储等关键技术，提供可复用、可验收的标准化落地方案。（239字）

95 1 1

来自：智能搜索推荐版块

ABI学习家

|

10天前

|

人工智能数据可视化数据挖掘

|

博文

连续7年！阿里云凭借Quick BI成为中国唯一上榜Gartner® ABI魔力象限的BI厂商

阿里云Quick BI第七次入选Gartner分析与BI魔力象限挑战者象限，是中国唯一连续七年上榜的BI厂商。作为AI-native智能分析平台，它集多源接入、归因分析、生态协同、按需计费于一体，已服务万家客户，覆盖全球8大区域。（239字）

109 1 1

游客vv4u4wyick5ti

|

10天前

|

SQL 人工智能数据挖掘

|

博文

传统 ChatBI vs 企业级数据分析智能体：差别不只是“能不能聊天”

企业应将 ChatBI 视为数据能力演进的早期阶段，而不是终点。长期来看，应逐步构建语义层与数据整合能力，将数据能力从查询工具升级为分析系统。

69 1 1

AB客

|

10天前

|

人工智能 JSON 搜索推荐

|

博文

精密加工GEO实操：让ChatGPT读懂制造能力

精密加工企业常因官网信息“AI不可读”而被ChatGPT等工具忽略。本文详解GEO（生成式引擎优化）：将设备、工艺、材料、检测等能力结构化为AI可理解的知识原子，重构FAQ、案例页与Schema数据，让企业从“普通供应商”升级为AI精准识别的“高可信精密制造伙伴”。

124 2 2

来自：智能搜索推荐版块

游客j5xt5y4p6is2u

|

10天前

|

存储 SQL 数据可视化

|

博文

基于阿里云IoT平台的Cat.1电表工厂用电监测方案实践

本文介绍阿里云IoT方案解决工厂用电管理“盲区”：通过Cat.1电表+IoT平台实现分钟级异常用电告警，Lindorm存储46维时序数据，函数计算执行恶性负载检测，DataV可视化分租户独立计费，电费纠纷下降87%。（239字）

83 1 1

游客vv4u4wyick5ti

|

10天前

|

SQL 人工智能 BI

|

博文

正当红的 Context Layer 到底是什么？

给 AI 更多上下文并不是目的，让 AI 在更小、更可信的范围里把事情做对，才是。

94 0 0

Echo_Wish

|

10天前

|

缓存前端开发数据挖掘

|

博文

2026年GEO已非简单“多发文”，而是以真实、可溯、一致、适配、可纠错为根基的品牌认知资产建设。央视3·15曝光“AI数据投毒”警示：虚假内容终致信任崩塌。合规GEO，始于信息准确，成于长期治理。

123 1 1

游客5m7dlkowulvh6

|

11天前

|

博文

阿里云新用户服务器特惠，年付低价，一对一协助注册配置

61 0 0

祁木CAD

|

11天前

|

存储弹性计算 Cloud Native

|

博文

云原生协同落地：祁木 CAD Translator + 阿里云，破解外贸工程图纸翻译与统一管控难题

祁木CAD Translator联合阿里云，打造“本地翻译+云端协同”混合方案：依托ECS弹性算力、OSS安全存储、RAM精细权限，实现DWG图纸离线解析、多端术语统一、译后自动归档与全程审计，破解外贸图纸翻译成本高、标准不一、资产分散、涉密风险四大难题。

82 1 1

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

开启云上 AIGC 动手实践，探索技术创意

阿里云大数据 AI 产品月刊-2026年6月

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

大模型长文本处理实践：基于分段提取与结果合并生成结构化摘要

基于录音转写与大模型的家装客户概览生成实践

为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战

taobao.item.search.img（拍立淘图片搜索 API)全业务场景手册

AI搜索引擎引用源选择机制的数据分析：2026年趋势与技术解析

基于规则引擎与异步任务调度的定投策略系统架构设计实践

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

你发了那么多文章，DeepSeek可能连看你一眼都没有

数学周刊第25期(2026年07月06日-07月12日)韦东奕获奖中科院发布全流程数学研究智能体MMAT

Tushare接口文档：交易日历（trade_cal）

AI搜索时代内容匹配机制：从关键词匹配到语义匹配的范式转换

# 项目思路求打脸 —— AI 可能忽视的问题与我的非主流路线

企业需要的不是会写 SQL 的 AI 问数工具，而是懂业务语义的 AI 分析搭档

AI搜索引擎引用源选择机制的数据分析：2026年趋势与技术解析

为什么你的监控总是“事后诸葛亮”？聊聊 InfluxDB、Prometheus 与可视化的正确打开方式

基于阿里云DataV的智慧园区能耗可视化大屏实践

【淘宝API】商品列表采集

AR智能眼镜安防应用核心指标：识别距离筑牢防线

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

Agentic AI 的预算，不能只花在模型上

AI搜索引用转化链路的数据分析：三层漏斗与优化方法

看得见，不代表人人都看得懂：数据可视化为什么越来越需要“无障碍设计”？

AI 时代的 API：大模型如何重塑接口设计

GEO岗位数据分析：20份JD拆解与AI搜索优化师能力模型解析

为什么别人用 Jupyter 一天搞定数据分析，而你却越写越乱？

煤炉自动代拍系统开发——从轮询到事件驱动的架构演进

Apache Doris 在 AgentLogsBench 中领先，支撑 Agent 可观测性生产负载

3个技术特征：向量数据库如何驱动AI搜索引擎的内容引用选择

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

数据明明没问题，为什么领导还是看不懂？聊聊 Data Storytelling（数据故事）的底层逻辑

爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？

从Excel、ERP到MES：制造业智能体如何打通数据与业务流程？

Temu店铺上新1688商品详情数据采集项目总结

大屏做得越炫越好？错！数据实时性和展示性能，才是真正决定项目成败的关键

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

基于GB/T 42131的艾索四标融合GEO方法论知识图谱技术实现

连续7年！阿里云凭借Quick BI成为中国唯一上榜Gartner® ABI魔力象限的BI厂商

传统 ChatBI vs 企业级数据分析智能体：差别不只是“能不能聊天”

精密加工GEO实操：让ChatGPT读懂制造能力

基于阿里云IoT平台的Cat.1电表工厂用电监测方案实践

正当红的 Context Layer 到底是什么？

为什么你的 BI 项目没人用？把 BI 嵌入业务系统，才是真正的数据价值！

淘宝商品评论 API 接口技术文档（完整 JSON 返回样例）

怎样的 PoC，才能支撑分析 Agent 的采购决策？

2026年企业做GEO，为什么真实性比发稿数量更重要

阿里云新用户服务器特惠，年付低价，一对一协助注册配置

云原生协同落地：祁木 CAD Translator + 阿里云，破解外贸工程图纸翻译与统一管控难题

大数据与机器学习

活跃用户

相关产品