大数据与机器学习-博文-第16页-阿里云开发者社区

游客7q6odlcu3jr5c

|

10月前

|

JSON API 数据格式

|

博文

1688 满足跨境业务需求而提供的一组 API 接口

1688跨境属性接口系列是1688开放平台为满足跨境业务需求提供的API接口，核心接口1688.item_get用于查询商品的跨境属性，帮助开发者和商家获取关键信息，更好地开展跨境贸易。公共参数包括key、secret等，支持多种返回格式，默认json。Python示例代码展示了如何调用该接口获取海关编码、税率等信息。使用步骤包括注册、构建请求、发送请求和处理响应。

419 0 0

来自：大数据开发治理DataWorks 版块

灵杰开发者

|

11月前

|

消息中间件 JSON 数据库

|

博文

本文由杭州银行大数据工程师唐占峰、欧阳武林撰写，介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库，支持在不重启服务的情况下动态更新规则，适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用，并展示了某金融机构的实际应用案例。通过动态CEP，用户可以实时调整规则，提高系统的灵活性和响应速度，降低维护成本。文中还提供了具体的代码示例和技术细节，帮助读者理解和使用Flink动态CEP。

1213 2 2

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

12月前

|

人工智能 JSON 算法

|

博文

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式、 AI Native 的大模型与 AIGC 工程平台，为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例，详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

1445 30 30

来自：人工智能平台PAI 版块

游客g3kj37zphwb2s

|

人工智能

|

博文

掌握写歌词的技巧和方法，轻松踏上创作之路，妙笔生词AI智能写歌词软件

写歌词是充满魅力与挑战的创作活动。掌握灵感捕捉、主题明确、结构合理和语言生动等关键技巧至关重要。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化、歌词分析等功能，助你轻松创作出优秀的歌词作品，实现音乐梦想。

672 0 0

Deephub

|

机器学习/深度学习存储算法

|

博文

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中，我们将探讨一种方法来解决这个问题，称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘，使神经网络在获得新技能的同时保留先前学习任务的知识。

1008 1 1

aliyun0925406400-41188

|

机器学习/深度学习数据采集算法

|

博文

Python实现支持向量机SVM回归模型(SVR算法)项目实战

963 4 4

来自：人工智能平台PAI 版块

kng32f3vbngrm

|

SQL 分布式计算 Java

|

博文

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度，但稳定性受内存限制。相比之下，Hive虽较慢，因使用MapReduce，其稳定性更高，对内存需求较小。在Shuffle方式上，Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上，Spark在处理速度和Shuffle上占优，Hive则在稳定性和资源管理上更胜一筹。

872 0 0

灵杰开发者

|

Cloud Native Apache 流计算

|

博文

福利「Flink Forward Asia 2023 」PPT 阅读合集！

3783 1 4

来自：实时计算 Flink 版块

theonegis

|

Python

|

博文

阿里 DSW 试用心得——用 PAI-DSW 修复老照片

通过试用阿里 DSW 了解了命令行和 SD WebUI 两种方式进行老照片修复的相关知识

1295 1 1

来自：人工智能平台PAI 版块

逆境清醒

|

人工智能算法 Ubuntu

|

博文

【朱颜不曾改，芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

952 2 2

小窗幽记机器学习

|

机器学习/深度学习存储人工智能

|

博文

模型推理加速系列 | 03：Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

本文主要简要介绍Pytorch模型量化相关，并以ResNet18模型为例进行量化实践。

3369 0 0

工程师U

|

存储分布式计算搜索推荐

|

博文

OpenSearch图搜图、文搜图向量检索最佳实践

本文介绍如何通过OpenSearch【向量检索版】帮助企业在没有向量数据的情况下快速搭建图像搜索服务，解决图片向量化、向量搜索等检索难题，实现以图搜图、以文搜图等多种图像检索能力。并通过数据压缩功能，降低存储空间，降低业务成本，为企业提供效果、性能双保障。

3683 3 4

来自：智能搜索推荐版块

阿里云实时计算Flink

|

机器学习/深度学习存储消息中间件

|

博文

FeatHub：流批一体的实时特征工程平台

本次分享中，将介绍 FeatHub，一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计，已经完成的工作，以及近期的发展计划。

5104 0 0

来自：实时计算 Flink 版块

May-Hologres

|

SQL 存储大数据

|

博文

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

6559 2 4

来自：实时数仓 Hologres 版块

温柔的养猫人

|

机器学习/深度学习存储消息中间件

|

博文

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说，典型的风控场景包括：注册风控、登陆风控、交易风控、活动风控等，而风控的最佳效果是防患于未然，所以事前事中和事后三种实现方案中，又以事前预警和事中控制最好。这要求风控系统一定要有实时性。

13747 2 11

来自：实时计算 Flink 版块

金竹

|

关系型数据库 Java Apache

|

博文

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式，介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的，那么再深思一下传统数据库为啥需要有JOIN算子呢？在实现原理上面Apache Flink内部实现和传统.

12090 0 5

来自：实时计算 Flink 版块

Echo_Wish

|

1天前

|

人工智能测试技术 Python

|

博文

AI也有“智商”吗？我们到底该用什么标准来评估它？

33 8 8

阿里云大数据

|

2天前

|

人工智能弹性计算运维

|

博文

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

EMR AI 助手开启公测，通过合理利用 EMR AI 助手的各项功能，可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等，能帮您提升运维效率和操作体验。

33 0 0

来自：开源大数据平台 E-MapReduce 版块

灵杰开发者

|

27天前

|

人工智能 Cloud Native 搜索推荐

|

博文

【2025云栖大会】阿里云AI搜索年度发布：开启Agent时代，重构搜索新范式

2025云栖大会阿里云AI搜索专场上，发布了年度AI搜索技术与产品升级成果，推出Agentic Search架构创新与云原生引擎技术突破，实现从“信息匹配”到“智能问题解决”的跨越，支持多模态检索、百亿向量处理，助力企业降本增效，推动搜索迈向主动服务新时代。

223 22 22

来自：向量检索服务 Milvus 版版块

蒋星熠Jaxonic

|

1月前

|

数据采集运维监控

|

博文

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

本文系统解析爬虫与自动化核心技术，涵盖HTTP请求、数据解析、分布式架构及反爬策略，结合Scrapy、Selenium等框架实战，助力构建高效、稳定、合规的数据采集系统。

347 0 0

蒋星熠Jaxonic

|

1月前

|

JavaScript 前端开发安全

|

博文

Vue 3 + TypeScript 现代前端开发最佳实践（2025版指南）

每日激励：“如果没有天赋，那就一直重复”。我是蒋星熠Jaxonic，一名执着于代码宇宙的星际旅人。用Vue 3与TypeScript构建高效、可维护的前端系统，分享Composition API、状态管理、性能优化等实战经验，助力技术进阶。

274 1 1

delacroix_xu-15509

|

2月前

|

机器学习/深度学习数据可视化数据挖掘

|

博文

香烟品牌识别和规格识别设计思路

基于YOLOv8实现香烟品牌与规格（条装/单盒装）识别，采用“品牌+规格”组合为60类的复合类别方案，结合充足标注数据（每类300-500张）、数据增强与反例优化，进行端到端联合训练，提升模型在复杂场景下的检测与分类精度。

427 6 6

DuHz

|

2月前

|

机器学习/深度学习负载均衡网络架构

|

博文

Mixture of Experts架构的简要解析

Mixture of Experts（MoE）架构起源于1991年，其核心思想是通过多个专门化的“专家”网络处理输入的不同部分，并由门控网络动态组合输出。这种架构实现了稀疏激活，仅激活部分专家，从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计，如线性门控、噪声Top-K门控等，确保模型能根据输入特征自适应选择专家。

286 8 8

探索云世界

|

4月前

|

数据采集人工智能大数据

|

博文

10倍处理效率提升！阿里云大数据AI平台发布智能驾驶数据预处理解决方案

阿里云大数据AI平台推出智能驾驶数据预处理解决方案，助力车企构建高效稳定的数据处理流程。相比自建方案，数据包处理效率提升10倍以上，推理任务提速超1倍，产能翻番，显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企，支持多模态数据处理与百万级任务调度，全面赋能智驾技术落地。

354 0 0

delacroix_xu-15509

|

4月前

|

SQL 人工智能数据可视化

|

博文

开源AI BI可视化工具-WrenAI

Wren AI 是一款开源的 SQL AI 代理，支持数据、产品及业务团队通过聊天、直观界面和与 Excel、Google Sheets 的集成获取洞察。它结合大型语言模型（LLM）与检索增强生成（RAG）技术，助力用户高效处理复杂数据分析任务。

829 5 5

游客wkqymr43luqiu

|

5月前

|

SQL 存储消息中间件

|

博文

Trino权威指南

Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用，适合交互式分析与BI场景。Trino采用无共享架构，通过列式内存格式和动态代码生成优化性能，并提供丰富的连接器实现计算存储分离，最大化下推优化以提升效率。

897 3 3

Deephub

|

5月前

|

机器学习/深度学习数据可视化算法

|

博文

数据分布不明确？5个方法识别数据分布，快速找到数据的真实规律

本文深入探讨了数据科学中分布识别的重要性及其实践方法。作为数据分析的基础环节，分布识别影响后续模型性能与分析可靠性。文章从直方图的可视化入手，介绍如何通过Python代码实现分布特征的初步观察，并系统化地讲解参数估计、统计检验及distfit库的应用。同时，针对离散数据、非参数方法和Bootstrap验证等专题展开讨论，强调业务逻辑与统计结果结合的重要性。最后指出，正确识别分布有助于异常检测、数据生成及预测分析等领域，为决策提供可靠依据。作者倡导在实践中平衡模型复杂度与实用性，重视对数据本质的理解。

401 3 3

小白学大数据

|

6月前

|

数据采集 Web App开发 JavaScript

|

博文

Python爬虫如何获取JavaScript动态渲染后的网页内容？

562 6 8

DataWorks@佳里

|

8月前

|

人工智能自然语言处理 Cloud Native

|

博文

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

阿里云向量检索服务Milvus版是一款云原生向量检索引擎。目前Milvus提供了milvus-mcp-server来对接各种AI Agent，支持包括：更新向量数据、创建索引、混合检索（向量+全文）、多向量列检索等多种能力。本文介绍了如何使用Milvus-mcp-server来搭建智能搜索Agent，并分别使用Cline和Cursor进行部署展示。

997 6 6

来自：向量检索服务 Milvus 版版块

Echo_Wish

|

8月前

|

数据采集存储 SQL

|

博文

从零开始搭建大数据平台：屌丝逆袭指南

789 1 1

我是小白同学

|

9月前

|

机器学习/深度学习自然语言处理算法

|

博文

Transformer 学习笔记 | Decoder

本文记录了笔者学习Transformer的过程，重点介绍了填充（padding）和掩码（masking）机制。掩码确保解码器只依赖于之前的位置，避免信息泄露，保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率，并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。

765 2 2

Echo_Wish

|

9月前

|

存储机器学习/深度学习数据挖掘

|

博文

数据湖与数据仓库：初学者的指南

605 4 4

Echo_Wish

|

9月前

|

安全区块链数据安全/隐私保护

|

博文

区块链技术在跨境支付中的应用：打破传统，畅行全球支付新时代

1248 12 13

Echo_Wish

|

10月前

|

存储搜索推荐大数据

|

博文

数据大爆炸：解析大数据的起源及其对未来的启示

499 15 15

阿里云大数据Al技术

|

10月前

|

存储人工智能安全

|

博文

面向法律场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点，从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例，为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向法律场景的大模型 RAG 检索增强解决方案，应用构建更简便，开发环境更直观。此外，PAI 平台同样发布了面向医疗、金融和教育领域的 RAG 解决方案。

1691 10 10

来自：人工智能平台PAI 版块

爱专研的技术土狗

|

编译器 API 定位技术

|

博文

API和SDK的区别

API 和 SDK 的区别在于：API 是一组定义了软件组件之间交互规范的接口，用于实现不同软件组件之间的通信；而 SDK 是一个全面的工具集合，包含 API、编译器、调试器、文档等，用于特定平台的应用程序开发。SDK 范围更广，内容更丰富，更具体和具象化，适合复杂的开发需求；API 则更加抽象，侧重于功能的定义和调用方式。

1005 2 2

郑小健

|

数据采集自然语言处理算法

|

博文

优化与扩展：高级GraphRAG模型调优策略及跨领域应用案例分析

【10月更文挑战第11天】

1002 1 1

奔跑的数据

|

数据采集文字识别数据安全/隐私保护

|

博文

轻松抓取：用 requests 库处理企业招聘信息中的联系方式

本文详细介绍如何利用Python的`requests`库结合代理IP技术，突破Boss直聘的登录验证与反爬虫机制，抓取企业招聘信息中的联系方式。文章首先阐述了Boss直聘数据抓取面临的挑战，随后介绍了代理IP轮换、登录会话保持及请求头伪装等关键技术。通过一个完整的示例代码，展示了从配置代理、模拟登录到解析HTML获取联系方式的具体步骤。此方法不仅适用于Boss直聘，还可扩展至其他需登录权限的网站抓取任务。

1173 0 0

郑小健

|

消息中间件 Prometheus 监控

|

博文

RabbitMQ性能调优指南

【8月更文第28天】RabbitMQ 是一个非常流行的消息队列中间件，它支持多种消息协议，并且可以轻松集成到各种系统中。随着应用的扩展，确保 RabbitMQ 在高负载环境下能够高效稳定地运行变得至关重要。本文将深入探讨如何通过配置、监控以及最佳实践来优化 RabbitMQ 的性能。

2123 1 1

郑小健

|

机器学习/深度学习 PyTorch TensorFlow

|

博文

ONNX 与量化：提高模型效率

【8月更文第27天】随着人工智能技术的广泛应用，模型部署变得越来越重要。为了在资源受限的设备上运行复杂的机器学习模型，模型量化技术成为了一种有效的手段。Open Neural Network Exchange (ONNX) 作为一种开放格式，支持在不同框架之间交换训练好的模型，同时也支持模型量化。本文将探讨如何结合 ONNX 和模型量化技术来提高模型的效率，减少模型大小并加快推理速度。

2213 2 2

游客zlfw7nsm3b47m

|

数据采集监控大数据

|

博文

不限量住宅IP代理指南2024版

住宅IP代理是一种特别的代理形式，它通过互联网服务提供商（ISP）池获取真实住宅用户的IP地址。在此背景下，住宅IP通常与特定的物理位置绑定，从而在网络上看起来像是真实用户。该服务为企业及个人执行数据密集型活动时提供了可靠的支持

827 1 1

aliyun0925406400-41188

|

机器学习/深度学习数据采集运维

|

博文

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

1308 0 0

来自：人工智能平台PAI 版块

AIGC小王子

|

机器学习/深度学习人工智能安全

|

博文

「随笔」开源大模型与闭源大模型，你更看好哪一方？

开源与闭源AI模型各有利弊。开源促进创新、透明度和学习，但可能有安全风险和质量不一；闭源则保护IP、提供定制服务，但可能限制创新和透明度。混合策略，如基础开源加高级服务闭源，成为平衡点。选择取决于创新、产权、透明度和商业目标。

693 0 0

wusp1994

|

机器学习/深度学习自然语言处理数据可视化

|

博文

文本挖掘与可视化：生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具，显示单词频率，直观、美观，适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云，`wordcloud`负责生成，`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词（使用`jieba`库）、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

1772 1 1

Deephub

|

机器学习/深度学习存储编解码

|

博文

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

IBM研究人员提出Tiny Time Mixers (TTM)，这是一个轻量级、基于mlp的TS模型，参数量小于1M，在M4数据集上表现优于大型SOTA模型，且具备优秀的零样本预测能力。TTM无注意力机制，利用TSMixer进行多级建模，自适应补丁和频率前缀调整等创新特性提升性能。预训练和微调阶段各有独特设计，预训练仅用单变量序列，微调时学习多变量依赖。TTM在某些任务中证明了小模型的优越性，且模型已开源。

737 1 1

夹心789

|

SQL DataWorks 监控

|

博文

DataWorks产品使用合集之如何创建一个函数并使用JAR包里面的方法

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

317 3 3

来自：大数据开发治理DataWorks 版块

kng32f3vbngrm

|

SQL HIVE

|

博文

【Hive SQL】字符串操作函数你真的会用吗？

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项，而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置，用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配，常与通配符配合使用。注意`IN`并非用于判断子串包含。

1214 3 3

奔跑的数据

|

数据采集 Web App开发 JavaScript

|

博文

爬虫技术升级：如何结合DrissionPage和Auth代理插件实现数据采集

本文介绍了在Python中使用DrissionPage库和Auth代理Chrome插件抓取163新闻网站数据的方法。针对许多爬虫框架不支持代理认证的问题，文章提出了通过代码生成包含认证信息的Chrome插件来配置代理。示例代码展示了如何创建插件并利用DrissionPage进行网页自动化，成功访问需要代理的网站并打印页面标题。该方法有效解决了代理认证难题，提高了爬虫的效率和安全性，适用于各种需要代理认证的网页数据采集。

1077 0 0

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

1688 满足跨境业务需求而提供的一组 API 接口

探索Flink动态CEP：杭州银行的实战案例

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

掌握写歌词的技巧和方法，轻松踏上创作之路，妙笔生词AI智能写歌词软件

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

Python实现支持向量机SVM回归模型(SVR算法)项目实战

Spark 为什么比 Hive 快

福利「Flink Forward Asia 2023 」PPT 阅读合集！

相关系数 r 和决定系数 R2 的那些事

阿里 DSW 试用心得——用 PAI-DSW 修复老照片

【朱颜不曾改，芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

模型推理加速系列 | 03：Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

OpenSearch图搜图、文搜图向量检索最佳实践

FeatHub：流批一体的实时特征工程平台

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

推荐系统基本概念和架构

基于Flink和规则引擎的实时风控解决方案

Apache Flink 漫谈系列(09) - JOIN 算子

AI也有“智商”吗？我们到底该用什么标准来评估它？

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

【2025云栖大会】阿里云AI搜索年度发布：开启Agent时代，重构搜索新范式

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

Vue 3 + TypeScript 现代前端开发最佳实践（2025版指南）

香烟品牌识别和规格识别设计思路

Mixture of Experts架构的简要解析

10倍处理效率提升！阿里云大数据AI平台发布智能驾驶数据预处理解决方案

开源AI BI可视化工具-WrenAI

Trino权威指南

数据分布不明确？5个方法识别数据分布，快速找到数据的真实规律

Python爬虫如何获取JavaScript动态渲染后的网页内容？

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

从零开始搭建大数据平台：屌丝逆袭指南

Transformer 学习笔记 | Decoder

数据湖与数据仓库：初学者的指南

区块链技术在跨境支付中的应用：打破传统，畅行全球支付新时代

数据大爆炸：解析大数据的起源及其对未来的启示

面向法律场景的大模型 RAG 检索增强解决方案

API和SDK的区别

优化与扩展：高级GraphRAG模型调优策略及跨领域应用案例分析

轻松抓取：用 requests 库处理企业招聘信息中的联系方式

RabbitMQ性能调优指南

ONNX 与量化：提高模型效率

不限量住宅IP代理指南2024版

Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

「随笔」开源大模型与闭源大模型，你更看好哪一方？

文本挖掘与可视化：生成个性化词云的Python实践【7个案例】

Tiny Time Mixers (TTM)轻量级时间序列基础模型：无需注意力机制，并且在零样本预测方面表现出色

DataWorks产品使用合集之如何创建一个函数并使用JAR包里面的方法

【Hive SQL】字符串操作函数你真的会用吗？

爬虫技术升级：如何结合DrissionPage和Auth代理插件实现数据采集

大数据与机器学习

活跃用户

相关产品