大数据与机器学习-博文-第17页-阿里云开发者社区

theMilkyWay`

|

数据安全/隐私保护 iOS开发 MacOS

|

博文

免费压缩解压软件神器：Bandizip

791 0 0

derek武汉

|

机器学习/深度学习算法决策智能

|

博文

选址问题-精确重心法和遗传算法

2210 0 1

Deephub

|

存储机器学习/深度学习人工智能

|

博文

向量数据库简介和5个常用的开源项目介绍

在人工智能领域，有大量的数据需要有效的处理。随着我们对人工智能应用，如图像识别、语音搜索或推荐引擎的深入研究，数据的性质变得更加复杂。这就是向量数据库发挥作用的地方。与存储标量值的传统数据库不同，向量数据库专门设计用于处理多维数据点(通常称为向量)。这些向量表示多个维度的数据，可以被认为是指向空间中特定方向和大小的箭头。

4197 1 1

小窗幽记机器学习

|

机器学习/深度学习人工智能自然语言处理

|

博文

LLM 系列 | 18：如何基于LangChain打造联网版ChatGPT？

今天这篇小作文是LangChain实践专题的第2篇，简单介绍LangChain的用途及如何利用LangChain将ChatGPT和搜索引擎(Google)结合起来，从而实现一个极简的联网版ChatGPT。

6239 2 2

亢海鹏

|

存储分布式计算 DataWorks

|

博文

阿里云云原生一体化数仓 — 数据治理新能力解读

本文介绍大数据开发治理平台DataWorks在数据治理领域的最新产品进展，包括基于事前、事中、事后的全链路理念构建的核心产品功能和数据治理量化评估机制解读，以及围绕降本增效的成本治理最佳实践。

3934 0 4

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

存储机器学习/深度学习人工智能

|

博文

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

3632 0 1

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

存储 SQL 分布式计算

|

博文

Delta Lake，让你从复杂的Lambda架构中解放出来

Linux 基金会的 Delta Lake（Delta.io）是一个给数据湖提供可靠性的开源存储层软件。在 QCon 全球软件开发大会（上海站）2019 的演讲中，Databricks 公司的 Engineering Manager 李潇带我们了解了 Delta Lake 在实际生产中的应用与实践以及未来项目规划，本文便整理自此次演讲。

4955 0 1

来自：开源大数据平台 E-MapReduce 版块

Echo_Wish

|

1天前

|

人工智能测试技术 Python

|

博文

AI也有“智商”吗？我们到底该用什么标准来评估它？

34 8 8

Echo_Wish

|

2天前

|

人工智能自然语言处理搜索推荐

|

博文

数据拍好戏：内容创作不再靠“拍脑袋”时代来了

34 5 5

winx_19970108018

|

13天前

|

存储数据采集搜索推荐

|

博文

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

本文介绍淘宝商品评论爬取技术，涵盖环境配置、接口分析、反爬破解及数据存储。使用Python模拟请求，动态代理与签名绕过风控，结合Flask中转降低封禁风险，实现高效合规的数据采集，适用于竞品分析与用户画像构建。（238字）

164 1 2

计算机程序设计Y2013070224

|

14天前

|

机器学习/深度学习大数据关系型数据库

|

博文

基于python大数据的台风灾害分析及预测系统

针对台风灾害预警滞后、精度不足等问题，本研究基于Python与大数据技术，构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率，结合Django框架实现动态可视化与实时预警，为防灾决策提供科学支持，显著提高应急响应效率，具有重要社会经济价值。

130 3 3

winx_19970108018

|

3月前

|

JSON 监控 API

|

博文

抖音视频列表API秘籍！轻松获取视频列表数据

抖音视频列表API是抖音开放平台提供的核心接口，支持按关键词、分类、排序方式筛选视频，适用于内容推荐、趋势分析等场景。接口返回含视频ID、标题、播放量等50+字段，支持分页获取，通过HTTP GET请求调用，返回JSON格式数据，便于开发者快速集成与处理。需注册平台账号获取访问权限。

648 56 57

探索云世界

|

4月前

|

数据采集人工智能大数据

|

博文

10倍处理效率提升！阿里云大数据AI平台发布智能驾驶数据预处理解决方案

阿里云大数据AI平台推出智能驾驶数据预处理解决方案，助力车企构建高效稳定的数据处理流程。相比自建方案，数据包处理效率提升10倍以上，推理任务提速超1倍，产能翻番，显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企，支持多模态数据处理与百万级任务调度，全面赋能智驾技术落地。

355 0 0

啦啦啦191

|

5月前

|

前端开发 Java 数据库连接

|

博文

一个完整 Java 项目常包含的各层次详解与全面解析

本内容介绍了Java项目的典型分层架构，涵盖开放接口层、终端显示层、Web层、Service层、Manager层、Mapper层及常用辅助层次，如实体层、DTO层、VO层等。通过合理划分各层职责，结合Spring Boot等框架，实现系统的高内聚、低耦合，提升可维护性与扩展性，适用于微服务与MVC架构设计。

535 0 0

游客wkqymr43luqiu

|

5月前

|

SQL 分布式计算 API

|

博文

Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Java/Python/R），并拥有强大的 Catalyst 优化器和类型安全的 Dataset API，广泛应用于大数据分析和处理场景。

701 8 8

小白学大数据

|

5月前

|

数据采集机器学习/深度学习 Web App开发

|

博文

Python爬虫如何应对贝壳网的IP封禁与人机验证？

369 5 6

Echo_Wish

|

7月前

|

传感器人工智能物联网

|

博文

智能鞋：从脚下开始的科技革命

436 6 7

DataWorks@佳里

|

8月前

|

人工智能自然语言处理 Cloud Native

|

博文

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

阿里云向量检索服务Milvus版是一款云原生向量检索引擎。目前Milvus提供了milvus-mcp-server来对接各种AI Agent，支持包括：更新向量数据、创建索引、混合检索（向量+全文）、多向量列检索等多种能力。本文介绍了如何使用Milvus-mcp-server来搭建智能搜索Agent，并分别使用Cline和Cursor进行部署展示。

998 6 6

来自：向量检索服务 Milvus 版版块

winx_19970108018

|

8月前

|

数据采集监控 API

|

博文

淘宝淘口令 API 接口全攻略

### 淘口令 API 及相关服务简介 **一、淘口令 API（item_password）** - **功能**：将淘口令转换为商品链接或获取商品信息，支持生成自定义淘口令。 - **申请流程**：注册账号、创建应用、获取凭证、申请权限。 - **调用示例（Python）**：通过签名和请求参数调用接口，生成淘口令。 **二、第三方 API 服务** - **适用场景**：简化开发流程，支持高佣转链、淘口令解析等功能。 - **推荐接口**：万能淘口令生成、淘口令解析真实 URL。

467 4 4

赵渝强老师

|

8月前

|

XML 存储分布式计算

|

博文

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

HDFS（Hadoop分布式文件系统）由三个核心组件构成：NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求，维护元数据文件fsimage和edits；DataNode存储实际的数据块，默认大小为128MB；SecondaryNameNode定期合并edits日志到fsimage中，但不作为NameNode的热备份。通过这些组件的协同工作，HDFS实现了高效、可靠的大规模数据存储与管理。

810 70 75

来自：大数据计算 MaxCompute 版块

小白学大数据

|

9月前

|

数据采集 Web App开发 iOS开发

|

博文

使用 User-Agent 模拟浏览器行为的技巧

1080 4 4

灵杰开发者

|

11月前

|

消息中间件 JSON 数据库

|

博文

探索Flink动态CEP：杭州银行的实战案例

本文由杭州银行大数据工程师唐占峰、欧阳武林撰写，介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库，支持在不重启服务的情况下动态更新规则，适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用，并展示了某金融机构的实际应用案例。通过动态CEP，用户可以实时调整规则，提高系统的灵活性和响应速度，降低维护成本。文中还提供了具体的代码示例和技术细节，帮助读者理解和使用Flink动态CEP。

1213 2 2

来自：实时计算 Flink 版块

阿里云大数据Al技术

|

12月前

|

人工智能 JSON 算法

|

博文

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式、 AI Native 的大模型与 AIGC 工程平台，为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例，详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。

1445 30 30

来自：人工智能平台PAI 版块

游客g3kj37zphwb2s

|

人工智能

|

博文

掌握写歌词的技巧和方法，轻松踏上创作之路，妙笔生词AI智能写歌词软件

写歌词是充满魅力与挑战的创作活动。掌握灵感捕捉、主题明确、结构合理和语言生动等关键技巧至关重要。《妙笔生词智能写歌词软件》提供 AI 智能写词、押韵优化、歌词分析等功能，助你轻松创作出优秀的歌词作品，实现音乐梦想。

672 0 0

郑小健

|

机器学习/深度学习 PyTorch TensorFlow

|

博文

ONNX 与量化：提高模型效率

【8月更文第27天】随着人工智能技术的广泛应用，模型部署变得越来越重要。为了在资源受限的设备上运行复杂的机器学习模型，模型量化技术成为了一种有效的手段。Open Neural Network Exchange (ONNX) 作为一种开放格式，支持在不同框架之间交换训练好的模型，同时也支持模型量化。本文将探讨如何结合 ONNX 和模型量化技术来提高模型的效率，减少模型大小并加快推理速度。

2214 2 2

Deephub

|

机器学习/深度学习存储算法

|

博文

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中，我们将探讨一种方法来解决这个问题，称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘，使神经网络在获得新技能的同时保留先前学习任务的知识。

1008 1 1

aliyun0925406400-41188

|

机器学习/深度学习数据采集算法

|

博文

Python实现支持向量机SVM回归模型(SVR算法)项目实战

963 4 4

来自：人工智能平台PAI 版块

kng32f3vbngrm

|

SQL HIVE

|

博文

【Hive SQL】字符串操作函数你真的会用吗？

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项，而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置，用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配，常与通配符配合使用。注意`IN`并非用于判断子串包含。

1215 3 3

kng32f3vbngrm

|

SQL 分布式计算 Java

|

博文

Spark 为什么比 Hive 快

Spark与Hive在数据处理上有显著区别。Spark以其内存计算和线程级并行提供更快的速度，但稳定性受内存限制。相比之下，Hive虽较慢，因使用MapReduce，其稳定性更高，对内存需求较小。在Shuffle方式上，Spark的内存 Shuffle 比Hive的磁盘 Shuffle 更高效。综上，Spark在处理速度和Shuffle上占优，Hive则在稳定性和资源管理上更胜一筹。

872 0 0

Echo_Wish

|

机器学习/深度学习监控算法

|

博文

OpenAI Gym 高级教程——深度强化学习库的高级用法

1177 0 0

icngor

|

消息中间件安全 Kafka

|

博文

2024年了，如何更好的搭建Kafka集群？

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

3509 2 6

灵杰开发者

|

Cloud Native Apache 流计算

|

博文

福利「Flink Forward Asia 2023 」PPT 阅读合集！

3783 1 4

来自：实时计算 Flink 版块

theonegis

|

Python

|

博文

阿里 DSW 试用心得——用 PAI-DSW 修复老照片

通过试用阿里 DSW 了解了命令行和 SD WebUI 两种方式进行老照片修复的相关知识

1295 1 1

来自：人工智能平台PAI 版块

逆境清醒

|

人工智能算法 Ubuntu

|

博文

【朱颜不曾改，芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

952 2 2

工程师U

|

存储分布式计算搜索推荐

|

博文

OpenSearch图搜图、文搜图向量检索最佳实践

本文介绍如何通过OpenSearch【向量检索版】帮助企业在没有向量数据的情况下快速搭建图像搜索服务，解决图片向量化、向量搜索等检索难题，实现以图搜图、以文搜图等多种图像检索能力。并通过数据压缩功能，降低存储空间，降低业务成本，为企业提供效果、性能双保障。

3683 3 4

来自：智能搜索推荐版块

阿里云实时计算Flink

|

机器学习/深度学习存储消息中间件

|

博文

FeatHub：流批一体的实时特征工程平台

本次分享中，将介绍 FeatHub，一个由阿里云自研并开源的实时特征平台。我们将介绍 FeatHub 的架构设计，已经完成的工作，以及近期的发展计划。

5104 0 0

来自：实时计算 Flink 版块

May-Hologres

|

SQL 存储大数据

|

博文

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

6559 2 4

来自：实时数仓 Hologres 版块

灵杰开发者

|

消息中间件存储 SQL

|

博文

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

本文介绍网约车模拟数据从产生，发布到流数据服务 Confluent，通过Databricks Structured Streaming进行实时数据处理，存储到LakeHouse，并使用spark和spark sql进行分析的应用实践。

1165 0 0

来自：开源大数据平台 E-MapReduce 版块

温柔的养猫人

|

机器学习/深度学习存储消息中间件

|

博文

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景？

人工智能应用场景中，Flink 在包括特征工程，在线学习，在线预测等方面都有一些独特优势，为了更好的支持人工智能的使用场景，Flink 社区以及各个生态都在努力。

3399 0 0

来自：实时计算 Flink 版块

付空

|

流计算 NoSQL Redis

|

博文

基于Flink和规则引擎的实时风控解决方案

对一个互联网产品来说，典型的风控场景包括：注册风控、登陆风控、交易风控、活动风控等，而风控的最佳效果是防患于未然，所以事前事中和事后三种实现方案中，又以事前预警和事中控制最好。这要求风控系统一定要有实时性。

13747 2 11

来自：实时计算 Flink 版块

金竹

|

关系型数据库 Java Apache

|

博文

Apache Flink 漫谈系列(09) - JOIN 算子

聊什么在《Apache Flink 漫谈系列 - SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式，介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的，那么再深思一下传统数据库为啥需要有JOIN算子呢？在实现原理上面Apache Flink内部实现和传统.

12090 0 5

来自：实时计算 Flink 版块

阿里云大数据

|

2天前

|

人工智能弹性计算运维

|

博文

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

EMR AI 助手开启公测，通过合理利用 EMR AI 助手的各项功能，可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等，能帮您提升运维效率和操作体验。

33 0 0

来自：开源大数据平台 E-MapReduce 版块

刘大猫.

|

4天前

|

NoSQL Redis

|

博文

Redis 搭建主从复用-读写分离和主备切换,及重要的关键词解释部分2

33 3 3

灵杰开发者

|

27天前

|

人工智能 Cloud Native 搜索推荐

|

博文

【2025云栖大会】阿里云AI搜索年度发布：开启Agent时代，重构搜索新范式

2025云栖大会阿里云AI搜索专场上，发布了年度AI搜索技术与产品升级成果，推出Agentic Search架构创新与云原生引擎技术突破，实现从“信息匹配”到“智能问题解决”的跨越，支持多模态检索、百亿向量处理，助力企业降本增效，推动搜索迈向主动服务新时代。

223 22 22

来自：向量检索服务 Milvus 版版块

蒋星熠Jaxonic

|

1月前

|

数据采集运维监控

|

博文

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

本文系统解析爬虫与自动化核心技术，涵盖HTTP请求、数据解析、分布式架构及反爬策略，结合Scrapy、Selenium等框架实战，助力构建高效、稳定、合规的数据采集系统。

347 0 0

蒋星熠Jaxonic

|

1月前

|

JavaScript 前端开发安全

|

博文

Vue 3 + TypeScript 现代前端开发最佳实践（2025版指南）

每日激励：“如果没有天赋，那就一直重复”。我是蒋星熠Jaxonic，一名执着于代码宇宙的星际旅人。用Vue 3与TypeScript构建高效、可维护的前端系统，分享Composition API、状态管理、性能优化等实战经验，助力技术进阶。

274 1 1

delacroix_xu-15509

|

2月前

|

机器学习/深度学习数据可视化数据挖掘

|

博文

香烟品牌识别和规格识别设计思路

基于YOLOv8实现香烟品牌与规格（条装/单盒装）识别，采用“品牌+规格”组合为60类的复合类别方案，结合充足标注数据（每类300-500张）、数据增强与反例优化，进行端到端联合训练，提升模型在复杂场景下的检测与分类精度。

427 6 6

DuHz

|

2月前

|

机器学习/深度学习负载均衡网络架构

|

博文

Mixture of Experts架构的简要解析

Mixture of Experts（MoE）架构起源于1991年，其核心思想是通过多个专门化的“专家”网络处理输入的不同部分，并由门控网络动态组合输出。这种架构实现了稀疏激活，仅激活部分专家，从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计，如线性门控、噪声Top-K门控等，确保模型能根据输入特征自适应选择专家。

286 8 8

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

免费压缩解压软件神器：Bandizip

选址问题-精确重心法和遗传算法

向量数据库简介和5个常用的开源项目介绍

LLM 系列 | 18：如何基于LangChain打造联网版ChatGPT？

阿里云云原生一体化数仓 — 数据治理新能力解读

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

Delta Lake，让你从复杂的Lambda架构中解放出来

AI也有“智商”吗？我们到底该用什么标准来评估它？

数据拍好戏：内容创作不再靠“拍脑袋”时代来了

Python+淘宝API：3步爬取10万条商品评论（附反爬破解技巧）

基于python大数据的台风灾害分析及预测系统

抖音视频列表API秘籍！轻松获取视频列表数据

10倍处理效率提升！阿里云大数据AI平台发布智能驾驶数据预处理解决方案

一个完整 Java 项目常包含的各层次详解与全面解析

Apache Spark详解

Python爬虫如何应对贝壳网的IP封禁与人机验证？

智能鞋：从脚下开始的科技革命

快速使用Milvus MCP Server，0代码搭建智能搜索Agent

淘宝淘口令 API 接口全攻略

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

使用 User-Agent 模拟浏览器行为的技巧

探索Flink动态CEP：杭州银行的实战案例

Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

掌握写歌词的技巧和方法，轻松踏上创作之路，妙笔生词AI智能写歌词软件

ONNX 与量化：提高模型效率

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

Python实现支持向量机SVM回归模型(SVR算法)项目实战

【Hive SQL】字符串操作函数你真的会用吗？

Spark 为什么比 Hive 快

OpenAI Gym 高级教程——深度强化学习库的高级用法

2024年了，如何更好的搭建Kafka集群？

福利「Flink Forward Asia 2023 」PPT 阅读合集！

相关系数 r 和决定系数 R2 的那些事

阿里 DSW 试用心得——用 PAI-DSW 修复老照片

【朱颜不曾改，芳菲万户香。AIGC人物图片创作---InsCode Stable Diffusion 美图活动一期】

OpenSearch图搜图、文搜图向量检索最佳实践

FeatHub：流批一体的实时特征工程平台

10亿+/秒！看阿里如何搞定实时数仓高吞吐实时写入与更新

使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】

推荐系统基本概念和架构

Flink 如何支持特征工程、在线学习、在线预测等 AI 场景？

基于Flink和规则引擎的实时风控解决方案

Apache Flink 漫谈系列(09) - JOIN 算子

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

Redis 搭建主从复用-读写分离和主备切换,及重要的关键词解释 部分2

【2025云栖大会】阿里云AI搜索年度发布：开启Agent时代，重构搜索新范式

爬虫与自动化技术深度解析：从数据采集到智能运维的完整实战指南

Vue 3 + TypeScript 现代前端开发最佳实践（2025版指南）

香烟品牌识别和规格识别设计思路

Mixture of Experts架构的简要解析

大数据与机器学习

活跃用户

相关产品

Redis 搭建主从复用-读写分离和主备切换,及重要的关键词解释部分2