大数据与机器学习-博文-第40页-阿里云开发者社区

Deephub

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。

1249 9 9

Echo_Wish

|

数据库索引 Python

|

博文

NumPy 高级教程——结构化数组

253 1 1

yafengliang

|

自然语言处理算法

|

博文

向量检索服务的优缺点

使用向量检索服务的好处是它可以将文本信息转化为向量表示，并进行相似度计算。这使得能够高效地搜索与查询进行语义匹配的文本

1181 3 3

来自：智能搜索推荐版块

tommy_tl

|

机器学习/深度学习人工智能弹性计算

|

博文

阿里云GPU V100 4卡：高效AI推理的领航者

随着人工智能的发展，AI推理在各种应用中扮演着越来越重要的角色。本文将详细介绍如何利用阿里云GPU产品中的V100 4卡完成高效的AI推理。我们将涵盖什么是AI推理、V100 4卡的产品介绍、程序代码以及具体使用流程，带你一步步了解和应用这一先进的技术。

1474 0 0

Echo_Wish

|

算法搜索推荐 Python

|

博文

Python高级数据结构——堆（Heap）

423 2 2

theMilkyWay`

|

Linux 数据安全/隐私保护 C++

|

博文

如何使用Cython对python脚本加密成pyd/so

564 0 0

derek武汉

|

算法决策智能 Python

|

博文

Pulp求解TSP问题介绍及程序实现

770 0 0

游客abjvtlmk3s7yk

|

编解码

|

博文

「4K Ultra HD蓝光」与普通蓝光有何区别？

本文将介绍 4K Ultra HD蓝光的特征并总结它与普通蓝光的区别，如果您对蓝光光盘的知识有兴趣，或者计划购买新的蓝光播放机，那么可以参考本文。

1916 0 0

阿里云大数据Al技术

|

机器学习/深度学习 JSON 自然语言处理

|

博文

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源！

随着深度学习大语言模型的不断发展，其模型结构和量级在快速演化，依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗的算力发挥出来，还要应对大模型的持续迭代。开发简单易用的大模型训练工具就成了应对以上问题广受关注的技术方向，让开发者专注于大模型解决方案的开发，降低大模型训练加速性能优化和训练/推理全流程搭建的人力开发成本。阿里云机器学习平台PAI开源了业内较早投入业务应用的大模型训练工具Pai-Megatron-Patch，本文将详解Pai-Megatron-Patch的设计原理和应用。

2955 86 87

来自：人工智能平台PAI 版块

疯狂学习GIS

|

存储数据可视化数据挖掘

|

博文

如何为多个变量绘制联合分布图（pairplot）？

本文介绍基于Python中seaborn模块，实现联合分布图绘制的方法~

699 1 1

扬流

|

分布式计算 DataWorks 对象存储

|

博文

全链路数据湖开发治理解决方案2.0重磅升级，全面增强数据入湖、调度和治理能力

阿里云全链路数据湖开发治理解决方案能力持续升级，发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) ，一站式大数据数据开发治理平台DataWorks ，数据湖构建DLF，对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群（on ECS）、自定义集群（on ECS）、Spark集群（on ACK）三种形态，对接阿里云一站式大数据开发治理平台DataWorks，沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。

1719 1 2

来自：开源大数据平台 E-MapReduce 版块

小窗幽记机器学习

|

机器学习/深度学习移动开发知识图谱

|

博文

论文解读系列| 03：【NER】FGN模型详解

汉字作为象形文字有其潜在的特殊字形信息，而这一点经常被忽视。FGN是一种将字形信息融入网络结构的中文NER方法。除了用一个新型CNN对字形信息进行编码外，该方法可以通过融合机制提取字符分布式表示和字形表示之间的交互信息。

632 0 0

编程达人

|

SQL 消息中间件数据采集

|

博文

《Apache Flink 案例集（2022版）》——2.数据分析——美团-Flink 的实时数仓平台建设（1）

883 0 0

来自：实时计算 Flink 版块

灵杰开发者

|

SQL 测试技术 Apache

|

博文

Flink SQL 的数据脱敏解决方案

Flink SQL 的数据脱敏解决方案，支持面向用户级别的数据脱敏访问控制，即特定用户只能访问到脱敏后的数据。

7826 0 1

来自：实时计算 Flink 版块

扬流

|

存储缓存算法

|

博文

数据湖存储的安全写入之道

本文以 Hadoop 社区中的 S3A Connector 的实现为切入，分析了数据湖写入路径的安全性。

11783 5 6

来自：开源大数据平台 E-MapReduce 版块

工程师U

|

机器学习/深度学习自然语言处理达摩院

|

博文

跨境电商多语言搜索最佳实践

本文详细介绍智能开放搜索OpenSearch行业版在跨境电商领域的智能搜索应用。

1860 0 0

来自：智能搜索推荐版块

elasticstack

|

监控 Ubuntu 安全

|

博文

【Elastic Engineering】Observability：使用 Elastic Agent 来摄入日志及指标 - Elastic Stack 8.0

如果你已经安装过最近的 Elastic Stack 的话，你可能已经发现 Beats 已经不是推荐的数据摄入方式，取而代之的是 Elastic Agent。

1791 0 0

来自：检索分析服务 Elasticsearch版版块

项羽@阿里云大数据

|

存储 SQL 分布式计算

|

博文

一文读懂云原生一体化数仓

阿里云云原生一体化数仓产品技术深度解读。

71124 16 39

来自：大数据计算 MaxCompute 版块

May-Hologres

|

SQL 存储 Cloud Native

|

博文

Hologres揭秘：如何支持超高QPS在线服务（点查）场景

本期我们将揭秘Hologres如何支持超高QPS在线服务（点查）场景。

3977 2 2

来自：实时数仓 Hologres 版块

dataworks_demo21

|

SQL 分布式计算关系型数据库

|

博文

DataWorks百问百答69：有哪些数据集成报错（数据集成报错归类）？

数据集成报错归类

10585 5 5

来自：大数据开发治理DataWorks 版块

dataworks_demo21

|

DataWorks 分布式计算 MaxCompute

|

博文

DataWorks OpenAPI 示例（元数据模块）

DataWorks OpenAPI 示例

5516 0 0

来自：大数据开发治理DataWorks 版块

dataworks_demo21

|

人工智能自然语言处理分布式计算

|

博文

您身边的AI管家-58到家人工智能实践

本文详述了58到家业务上的难点和挑战，包括在智能营销、到店分流和登记、多元匹配、销售、业务与社会安全等方面，以及他们是如何通过阿里云大数据平台去应对家庭服务行业在互联网化过程当中的痛点和挑战。

5671 0 0

来自：大数据开发治理DataWorks 版块

工程师甲

|

存储网络协议固态存储

|

博文

运用 geoip 处理器来丰富 Elasticsearch 数据

Geoip 处理器可以解析 IPv4 和 IPv6 地址，根据来自 Maxmind 数据库的数据添加有关 IP 地址地理位置的信息，并将此信息添加到 geoip 字段下。

2821 0 1

来自：检索分析服务 Elasticsearch版版块

开源大数据EMR

|

人工智能分布式计算大数据

|

博文

Spark + AI Summit 2020 中文议题有奖征集

北美 Spark + AI Summit 2020 盛会在即，Apache Spark 中国技术交流社区在此诚邀各位，代表国内开发者选择您最希望听到的主题，届时社区将联合国内顶尖技术专家一一展开中文形式分享。

1179 0 1

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

SQL 分布式计算大数据

|

博文

SparkSQL DatasourceV2 之 Multiple Catalog

SparkSQL DatasourceV2作为Spark2.3引入的特性，在Spark 3.0 preview(2019/12/23)版本中又有了新的改进以更好的支持各类数据源。本文将从catalog角度，介绍新的数据源如何和Spark DatasourceV2进行集成。

5624 0 0

来自：开源大数据平台 E-MapReduce 版块

黯灭_邓彬

|

机器学习/深度学习存储人工智能

|

博文

阿里巴巴开源GNN框架Graph-Learn

项目地址：https://github.com/alibaba/graph-learn 阿里巴巴近期开源了面向图神经网络（GNN）的框架Graph-Learn（GL，原AliGraph）。框架由阿里内部团队研发，研发同学分别来自计算平台事业部-PAI团队，新零售智能引擎事业群-智能计算实验室，以及安全部-数据与算法团队。

4316 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 运维监控

|

博文

Apache Flink 进阶（八）：详解 Metrics 原理与实战

本文由 Apache Flink Contributor 刘彪分享，本文对两大问题进行了详细的介绍，即什么是 Metrics、如何使用 Metrics，并对 Metrics 监控实战进行解释说明。

5472 0 0

来自：实时计算 Flink 版块

刘-建伟

|

分布式计算 Java MaxCompute

|

博文

如何跨项目工作空间访问MaxCompute资源和函数

在项目开发过程中，相同云账号之下所创建的不同项目工作空间的资源和函数需要实现互相访问，需要授予什么权限呢？怎么去操作才可以去访问其他工作空间所创建的资源和函数。本文通过三种方式来介绍如何去授权访问跨工作空间的资源和函数。

2939 0 1

来自：大数据计算 MaxCompute 版块

寒沙牧

|

资源调度测试技术 Apache

|

博文

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

10305 1 2

来自：开源大数据平台 E-MapReduce 版块

洪阳lambert

|

编解码

|

博文

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

用Logstash实现Elasticsearch集群快速迁移，解读Logstash中metadata的功效，避免踩坑

6936 0 1

来自：检索分析服务 Elasticsearch版版块

FISSPACE

|

19天前

|

人工智能缓存并行计算

|

博文

用数学重构 AI的设想：流形注意力 + 自然梯度优化的最小可行落地

本文提出两个数学驱动的AI模块：流形感知注意力（D-Attention）与自然梯度优化器（NGD-Opt）。前者基于热核偏置，在局部邻域引入流形结构，降低计算开销；后者在黎曼流形上进行二阶优化，仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径，兼顾性能与工程可行性，助力几何感知的模型设计与训练。

178 1 1

Echo_Wish

|

23天前

|

人工智能算法大数据

|

博文

159 8 8

winx_19970108018

|

3月前

|

JSON 数据挖掘 API

|

博文

小红书笔记评论API数据解析（附代码）

本资源介绍如何通过小红书官方API获取笔记评论数据，包含评论内容、用户信息、点赞数等关键字段。支持分页请求，适用于舆情分析、用户研究及市场调研。提供完整Python调用示例，涵盖请求签名、响应解析等核心流程，助力高效获取结构化评论数据。

227 0 0

Deephub

|

3月前

|

算法 Linux

|

博文

数据分布平滑化技术：核密度估计KDE解决直方图不连续问题

核密度估计（KDE）通过平滑处理解决直方图密度估计中的不连续问题，提供连续密度函数。其核心在于使用核函数对数据点进行加权，避免区间划分带来的信息丢失。带宽参数h影响估计效果，过小导致波动大，过大则过度平滑。常用核函数包括高斯核与Epanechnikov核，实际应用中可借助Statsmodels或Seaborn库快速实现。

164 0 0

winx_19970108018

|

3月前

|

JSON 缓存供应链

|

博文

1688图片搜索API秘籍！轻松获取相似商品数据

1688图片搜索API基于图像识别技术，支持通过上传商品图片搜索同款或相似商品，适用于电商选品、供应链管理等场景。提供多种搜索模式与结果过滤条件，支持Python等开发语言，提升采购效率。

335 0 0

winx_19970108018

|

3月前

|

JSON 搜索推荐 API

|

博文

京东图片搜索相似商品API响应数据解析

京东图片搜索API（拍立淘）基于图像识别技术，支持通过图片或URL搜索相似商品，提供多维度筛选与商品详情提取功能，广泛应用于商品检索场景。

122 0 0

阿里云大数据Al技术

|

3月前

|

人工智能分布式计算 DataWorks

|

博文

大数据AI产品月刊-2025年7月

大数据& AI 产品技术月刊【2025年7月】，涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

449 0 0

游客xxjxjupycky5i

|

3月前

|

机器学习/深度学习人工智能搜索推荐

|

博文

文生图关键问题探索

文生图（Text-to-Image Generation）是AIGC的重要方向，近年来模型效果显著提升，受到投资界与研究界高度关注。本文从评测体系、可控生成、个性化模型及高质量数据集四个角度探讨该领域面临的关键问题与研究进展。尽管生成模型如Diffusion Model和Stable Diffusion在效果与效率上突破显著，但在文本理解、生成控制、模型定制及数据质量等方面仍存在挑战。如何建立统一的评价标准、提升生成与文本的一致性、实现个性化定制及构建高质量多语言数据集，是未来研究与应用的关键方向。文生图的发展有望推动人机交互方式变革，成为人工智能迈向“人性化”的重要一步。

183 0 0

Deephub

|

4月前

|

人工智能 JSON 开发工具

|

博文

解决提示词痛点：用AI智能体自动检测矛盾、优化格式的完整方案

本文介绍了一种基于用户意图的提示词优化系统，利用多智能体架构实现自动化优化，提升少样本学习场景下的提示词质量与模型匹配度。系统通过专用智能体协同工作，识别并修复逻辑矛盾、格式不清及示例不一致等问题，结合Pydantic结构化数据模型与OpenAI评估框架，实现高效、可扩展的提示词优化流程。该方案显著减少了人工干预，增强了系统效率与输出一致性，适用于复杂研究任务与深度AI应用。

525 0 0

青云交（Java大数据AI云原生Python）

|

4月前

|

机器学习/深度学习分布式计算 Java

|

博文

Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用（199）

本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题，结合Hadoop、Spark与深度学习框架，实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力，推动遥感图像分类迈向新高度。

162 0 0

Deephub

|

4月前

|

机器学习/深度学习自然语言处理搜索推荐

|

博文

搜索结果太乱？5种重排序模型让你的搜索系统准确率提升40%

本文将系统性地分析重排序模型的技术原理，深入探讨从传统学习排序方法到基于Transformer架构的前沿解决方案。

459 0 0

Echo_Wish

|

4月前

|

程序员区块链开发工具

|

博文

真正属于玩家的游戏经济？区块链说：“这次我来做主！”

120 1 1

Deephub

|

4月前

|

机器学习/深度学习人工智能算法

|

博文

最大熵逆强化学习：理论基础、数学推导与工程实现

本文重点讨论逆强化学习（Inverse Reinforcement Learning, IRL），这是模仿学习的重要分支，其核心目标是基于演示数据学习能够最大化期望奖励的最优策略。

114 0 0

游客bf36tzzmodicc

|

4月前

|

编解码

|

博文

【2025更新】视频压缩神器！视频体积瞬间缩小80%，可以指定大小压缩、批量压缩，超级良心免费使用！

Moo0视频压缩器是一款免费、高效的视频压缩工具，支持AVI、MP4等多种格式。可按文件大小、比例或屏幕尺寸智能压缩，兼顾画质与效率，操作简便，批量处理更省心，是2025年必备的视频压缩神器！

310 2 2

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

NumPy 高级教程——结构化数组

向量检索服务的优缺点

阿里云GPU V100 4卡：高效AI推理的领航者

Python高级数据结构——堆（Heap）

如何使用Cython对python脚本加密成pyd/so

Pulp求解TSP问题介绍及程序实现

「4K Ultra HD蓝光」与普通蓝光有何区别？

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源！

如何为多个变量绘制联合分布图（pairplot）？

全链路数据湖开发治理解决方案2.0重磅升级，全面增强数据入湖、调度和治理能力

论文解读系列| 03：【NER】FGN模型详解

《Apache Flink 案例集（2022版）》——2.数据分析——美团-Flink 的实时数仓平台建设（1）

Flink SQL 的数据脱敏解决方案

数据湖存储的安全写入之道

跨境电商多语言搜索最佳实践

【Elastic Engineering】Observability：使用 Elastic Agent 来摄入日志及指标 - Elastic Stack 8.0

一文读懂云原生一体化数仓

Hologres揭秘：如何支持超高QPS在线服务（点查）场景

DataWorks百问百答69：有哪些数据集成报错（数据集成报错归类）？

DataWorks OpenAPI 示例（元数据模块）

您身边的AI管家-58到家人工智能实践

运用 geoip 处理器来丰富 Elasticsearch 数据

Spark + AI Summit 2020 中文议题有奖征集

SparkSQL DatasourceV2 之 Multiple Catalog

阿里巴巴开源GNN框架Graph-Learn

Apache Flink 进阶（八）：详解 Metrics 原理与实战

如何跨项目工作空间访问MaxCompute资源和函数

YARN中的CPU资源隔离-CGroups

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

用数学重构 AI的设想：流形注意力 + 自然梯度优化的最小可行落地

别让“热搜”骗了你：大数据如何让新闻更真实？

Kubeflow-Spark-Operator-架构学习指南

（Pandas）Python做数据处理必选框架之一！（二）：附带案例分析；刨析DataFrame结构和其属性；学会访问具体元素；判断元素是否存在；元素求和、求标准值、方差、去重、删除、排序...

京东商品 SKU 信息接口（jingdong.ware.sku.get）技术干货：数据拉取、规格解析与字段治理（附踩坑总结 + 可运行代码）

建议用API来获取电商的商品数据，但还是需要用爬虫

阿里云大数据AI产品月刊-2025年8月

当无人机遇上5G：远程控制再也不卡了

小红书笔记评论API数据解析（附代码）

数据分布平滑化技术：核密度估计KDE解决直方图不连续问题

1688图片搜索API秘籍！轻松获取相似商品数据

京东图片搜索相似商品API响应数据解析

大数据AI产品月刊-2025年7月

文生图关键问题探索

解决提示词痛点：用AI智能体自动检测矛盾、优化格式的完整方案

Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用（199）

搜索结果太乱？5种重排序模型让你的搜索系统准确率提升40%

真正属于玩家的游戏经济？区块链说：“这次我来做主！”

最大熵逆强化学习：理论基础、数学推导与工程实现

【2025更新】视频压缩神器！视频体积瞬间缩小80%，可以指定大小压缩、批量压缩，超级良心免费使用！

大数据与机器学习

活跃用户

相关产品