大数据与机器学习-博文-第14页-阿里云开发者社区

Deephub

|

8月前

|

机器学习/深度学习存储算法

|

博文

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

本文系统讲解从基本强化学习方法到高级技术（如PPO、A3C、PlaNet等）的实现原理与编码过程，旨在通过理论结合代码的方式，构建对强化学习算法的全面理解。

2120 10 11

站大爷

|

存储 Python

|

博文

如何使用Python实现“猜数字”游戏

本文介绍了使用Python实现“猜数字”游戏的过程。游戏规则是玩家在给定范围内猜一个由计算机随机生成的整数，猜对则获胜。代码中，首先导入random模块生成随机数，然后在循环中获取玩家输入并判断大小，提供猜小、猜大提示。通过增加猜测次数限制、难度选择、优化输入提示和图形化界面等方式可优化游戏。这篇文章旨在帮助初学者通过实际操作学习Python编程。

1146 2 2

derek武汉

|

存储人工智能算法

|

博文

聚类的k值确定之轮廓系数

3419 0 0

aliyun3816472094

|

3天前

|

数据采集 Web App开发安全

|

博文

爬虫专栏：破解网站检测selenium反爬——“当前环境正在被调试“”

本文记录了一次Selenium爬虫被Gitee安全验证拦截的排查经历。爬虫运行一周后突然失效，频繁触发“安全验证”弹窗，尝试隐藏webdriver特征、更换IP、模拟人工操作等均无效。最终发现：手动访问Gitee完成验证后，环境风险标记解除，爬虫自动恢复正常。表明反爬机制针对的是“访问环境”而非工具本身，人工验证可快速解锁，为同类问题提供简洁高效的解决思路。

62 4 4

Deephub

|

3月前

|

人工智能数据可视化数据处理

|

博文

AI智能体框架怎么选？7个主流工具详细对比解析

大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架，从RelevanceAI、smolagents到LangGraph，涵盖技术门槛、任务复杂度、社区生态等选型关键因素，助你根据项目需求选择最合适的开发工具，构建高效、可扩展的智能系统。

912 3 3

aliyun4381607004

|

7月前

|

缓存并行计算测试技术

|

博文

阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试

1698 12 12

来自：人工智能平台PAI 版块

李麒麟

|

机器学习/深度学习人工智能自然语言处理

|

博文

自然语言处理（NLP）是计算机科学的交叉领域，涉及语言学、计算机科学和人工智能，用于让计算机理解、生成和处理人类语言。核心任务包括文本预处理、语言模型、文本分类、信息提取和机器翻译。常用工具有NLTK、spaCy和Hugging Face Transformers。深度学习，尤其是Transformer模型，极大地推动了NLP的进步。应用场景广泛，如搜索引擎、智能助手和医疗分析。未来趋势将聚焦多模态学习、跨语言理解和情绪识别，同时追求模型的可解释性和公平性。

1013 1 1

Java开发者

|

IDE Java 编译器

|

博文

Java“找不到符号” 错误怎么查找解决

“找不到符号”是Java编程中常见的编译错误，通常表明代码试图访问未声明或不可见的符号（如类、方法或变量）。解决此问题需检查拼写、导入包是否正确及作用域是否合适。确保使用正确的类路径和库，可有效避免此类错误。若问题依旧，查阅官方文档或使用调试工具定位错误亦为良策。

6717 10 10

ly~

|

供应链监控搜索推荐

|

博文

大数据的应用场景

大数据在众多行业中的应用场景广泛，涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业，大数据用于风险评估、精准营销、反欺诈以及决策支持；零售业则应用于商品推荐、供应链管理和门店运营优化等；医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估；交通物流业通过大数据优化物流配送、交通管理和运输安全；制造业则在生产过程优化、设备维护和供应链协同方面受益；能源行业运用大数据提升智能电网管理和能源勘探效率；政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全；教育行业通过大数据实现个性化学习和资源优化配置；体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。

2852 2 2

icngor

|

消息中间件安全 Kafka

|

博文

如何为Kafka加上账号密码（二）

本小节我们就为Kafka添加最简单的认证方式，也就是SASL_PLAINTEXT（即SASL/PLAIN+ 非加密通道）。

1987 5 5

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习消息中间件

|

博文

十大行业经典案例！Apache Flink 的 40 个最佳实践

如今，Apache Flink 行业应用几何？在降本增效的需求驱动下，企业如何实现数据与算力价值最大化？本文整理了 Flink 社区近一年的社区案例，并按照行业进行分类，供大家参考！

17972 1 3

来自：实时计算 Flink 版块

Deephub

|

2月前

|

缓存运维监控

|

博文

vLLM推理加速指南：7个技巧让QPS提升30-60%

GPU资源有限，提升推理效率需多管齐下。本文分享vLLM实战调优七招：请求塑形、KV缓存复用、推测解码、量化、并行策略、准入控制与预热监控。结合代码与数据，助你最大化吞吐、降低延迟，实现高QPS稳定服务。

722 7 7

Deephub

|

4月前

|

存储测试技术开发者

|

博文

NVFP4量化技术深度解析：4位精度下实现2.3倍推理加速

本文深入解析NVIDIA推出的NVFP4量化技术，探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法，分析NVFP4在精度、内存和推理吞吐量方面的表现，结合LLM-Compressor与vLLM框架展示量化与部署实践，验证其在消费级与企业级应用中的高效性与实用性。

746 15 16

ly~

|

Ubuntu Linux C语言

|

博文

SDL 图形库安装常见错误及解决方法

SDL（Simple DirectMedia Layer）图形库安装过程中可能会遇到编译错误、运行时错误、依赖库缺失等问题。本文总结了在 Linux 和 Windows 系统上常见的错误及解决方法，包括检查和安装依赖库、配置 SDL 子系统、处理 X11 错误等，帮助用户顺利完成 SDL 的安装和配置。

2620 8 8

wusp1994

|

Linux 开发工具 git

|

博文

pip的常用命令和常见问题的解决

当使用pip命令安装Python包时，有时候可以通过使用镜像地址来加速下载速度或解决访问限制的问题。以下是一些常用的pip命令和常见的镜像地址：

1847 3 3

一颗小树x

|

机器学习/深度学习网络协议 Docker

|

博文

基于docker搭建conda深度学习环境（支持GPU加速）

在Ubuntu系统，创建一个docker，然后搭建conda深度学习环境，这样可以用conda或pip安装相关的依赖库了。

3862 0 0

阿里云实时计算Flink

|

SQL 存储消息中间件

|

博文

Apache Flink X Apache Doris 构建极速易用的实时数仓架构

在本次分享中，将为大家介绍如何基于 Apache Doris 和 Apache Flink 构建极速易用的实时数仓架构。

4866 0 4

来自：实时计算 Flink 版块

工程师甲

|

固态存储 Java 弹性计算

|

博文

【最佳实践】简单配置，实现Filebeat多行日志传送

在解决应用程序问题时，多行日志为开发人员提供了宝贵的信息。堆栈跟踪就是一个例子。堆栈跟踪是引发异常时应用程序处于中间的一系列方法调用。堆栈跟踪包括遇到错误的相关行以及错误本身。

9968 0 0

来自：检索分析服务 Elasticsearch版版块

awesimon

|

8月前

|

人工智能自然语言处理运维

|

博文

让搜索引擎“更懂你”：AI × Elasticsearch MCP Server 开源实战

本文介绍基于Model Context Protocol (MCP)标准的Elasticsearch MCP Server，它为AI助手（如Claude、Cursor等）提供与Elasticsearch数据源交互的能力。文章涵盖MCP概念、Elasticsearch MCP Server的功能特性及实际应用场景，例如数据探索、开发辅助。通过自然语言处理，用户无需掌握复杂查询语法即可操作Elasticsearch，显著降低使用门槛并提升效率。项目开源地址：<https://github.com/awesimon/elasticsearch-mcp>，欢迎体验与反馈。

2149 1 1

来自：智能搜索推荐版块

Echo_Wish

|

9月前

|

存储机器学习/深度学习数据建模

|

博文

数据建模入门指南：从懵懂小白到高手的第一步

1527 15 17

翻滚的樱桃肉

|

9月前

|

数据可视化固态存储图形学

|

博文

解锁3D创作新姿势！Autodesk 3ds Max 2022中文版安装教程（附官方下载渠道）

Autodesk 3ds Max 2022 是一款专业三维建模、动画和渲染软件，广泛应用于影视、游戏、建筑等领域。其特点包括智能建模工具、高效Arnold渲染引擎、跨平台协作及多语言支持。安装需满足Win10/11系统、i5以上处理器、8GB内存等要求。正版安装流程包括下载官方程序、配置组件、激活许可证并验证功能。常见问题如安装失败、中文乱码等提供了解决方案。扩展学习资源推荐Forest Pack、V-Ray等插件，助力用户深入掌握软件功能。

2097 24 24

Deephub

|

10月前

|

机器学习/深度学习算法 PyTorch

|

博文

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（RL）是提升大型语言模型（LLM）推理能力的重要手段，尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化（GRPO）方法，在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果，显著增强了数学推理和问题解决能力。GRPO无需价值网络，采用群组采样和相对优势估计，有效解决了传统RL应用于语言模型时的挑战，提升了训练效率和稳定性。实际应用中，DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析，进一步拓展语言模型的能力边界。

1692 8 9

Echo_Wish

|

11月前

|

机器学习/深度学习人工智能算法

|

博文

机器学习算法的优化与改进：提升模型性能的策略与方法

2048 13 13

derek武汉

|

自然语言处理并行计算算法

|

博文

cp-sat求解器介绍及使用案例

cp-sat求解器介绍及使用案例更多文章欢迎关注我的微信公众号：Python学习杂记

3147 1 2

winx_19970108018

|

4月前

|

JSON 监控 API

|

博文

抖音视频列表API秘籍！轻松获取视频列表数据

抖音视频列表API是抖音开放平台提供的核心接口，支持按关键词、分类、排序方式筛选视频，适用于内容推荐、趋势分析等场景。接口返回含视频ID、标题、播放量等50+字段，支持分页获取，通过HTTP GET请求调用，返回JSON格式数据，便于开发者快速集成与处理。需注册平台账号获取访问权限。

962 56 57

Deephub

|

8月前

|

存储人工智能项目管理

|

博文

人工智能的三大主义之一——符号主义，通过数学和逻辑符号构建表达式以模拟人类思维。其代表性成果包括1956年的“逻辑理论家”程序和上世纪80年代的专家系统。1997年，“深蓝”计算机击败国际象棋冠军卡斯帕罗夫，是符号主义在博弈领域的巅峰之作。然而，由于人类智能的复杂性和广泛性，符号主义难以完全模拟人类感知和潜智能，逐渐走向衰落。

2217 0 0

灵杰开发者

|

算法 API Apache

|

博文

Flink CDC：新一代实时数据集成框架

本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享，涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成框架，能高效完成全量和增量数据的实时同步。自 2020 年以来，Flink CDC 经过多次迭代，已成为功能强大的实时数据集成工具，支持多种数据库和数据湖仓系统。未来将进一步扩展生态并提升稳定性。

4398 3 4

来自：实时计算 Flink 版块

网络新的开始-49026

|

机器学习/深度学习人工智能自然语言处理

|

博文

人工智能（AI）技术的发展史

人工智能 (AI) 的发展历程从20世纪50年代起步，历经初始探索、早期发展、专家系统兴起、机器学习崛起直至深度学习革命。1950年图灵测试提出，1956年达特茅斯会议标志着AI研究开端。60-70年代AI虽取得初步成果但仍遭遇困境。80年代专家系统如MYCIN展现AI应用潜力。90年代机器学习突飞猛进，1997年深蓝战胜国际象棋冠军。21世纪以来，深度学习技术革新了AI，在图像、语音识别等领域取得重大成就。尽管AI已广泛应用，但仍面临数据隐私、伦理等挑战。未来AI将加强人机协作、增强学习与情感智能，并在医疗、教育等领域发挥更大作用。

5009 0 0

来自：人工智能平台PAI 版块

阿里云大数据Al技术

|

机器学习/深度学习人工智能算法

|

博文

通义千问Qwen-72B-Chat大模型在PAI平台的微调实践

本文将以Qwen-72B-Chat为例，介绍如何在PAI平台的快速开始PAI-QuickStart和交互式建模工具PAI-DSW中高效微调千问大模型。

150329 88 102

来自：人工智能平台PAI 版块

智能引擎技术

|

并行计算 TensorFlow 调度

|

博文

推荐场景GPU优化的探索与实践：CUDA Graph与多流并行的比较与分析

RTP 系统(即 Rank Service)，是一个面向搜索和推荐的 ranking 需求，支持多种模型的在线 inference 服务，是阿里智能引擎团队沉淀多年的技术产品。今年，团队在推荐场景的GPU性能优化上又做了新尝试——在RTP上集成了Multi Stream，改变了TensorFlow的单流机制，让多流的执行并行，作为增加GPU并行度的另一种选择。本文详细介绍与比较了CUDA Graph与多流并行这两个方案，以及团队的实践成果与心得。

3862 1 2

一颗小树x

|

机器学习/深度学习并行计算 Shell

|

博文

docker 获取Nvidia 镜像 | cuda |cudnn

本文分享如何使用docker获取Nvidia 镜像，包括cuda10、cuda11等不同版本，cudnn7、cudnn8等，快速搭建深度学习环境。

7542 0 0

阿里云社区

|

自然语言处理机器人人机交互

|

博文

智能语音交互概述（一）

1228 0 0

游客bf2dyeishczoc

|

缓存安全生物认证

|

博文

什么是代理ip？代理ip的工作原理？代理ip有哪些类型？

当您在互联网上浏览或访问网站时，您的IP地址是您的设备在网络上的唯一标识。通过IP地址，网站和其他在线服务可以追踪您的位置、活动和访问历史。但是，使用IP代理可以帮助您代理本地IP地址，从而增加您的在线隐私和安全。

2075 0 0

游客vv4u4wyick5ti

|

6天前

|

SQL 人工智能自然语言处理

|

博文

业务人员也能用的 AI 数据分析工具？Aloudata Agent “开箱即用”体验报告

不仅提升了个人工作效率，更推动了企业数据民主化进程，让数据真正成为驱动业务增长的核心引擎

76 1 1

Deephub

|

11月前

|

机器学习/深度学习

|

博文

知识蒸馏技术原理详解：从软标签到模型压缩的实现机制

**知识蒸馏**是一种通过性能与模型规模的权衡来实现模型压缩的技术。其核心思想是将较大规模模型（称为教师模型）中的知识迁移到规模较小的模型（称为学生模型）中。本文将深入探讨知识迁移的具体实现机制。

1254 12 12

郑小健

|

存储安全算法

|

博文

三种常见的加密算法：MD5、对称加密与非对称加密的比较与应用

网络安全聚焦加密算法：MD5用于数据完整性校验，易受碰撞攻击；对称加密如AES快速高效，密钥管理关键；非对称加密如RSA提供身份验证，速度慢但安全。三种算法各有所长，适用场景各异，安全与效率需权衡。【6月更文挑战第17天】

3049 2 2

一颗小树x

|

存储算法机器人

|

博文

卡尔曼滤波 KF | 扩展卡尔曼滤波 EKF （思路流程和计算公式）

本文分析卡尔曼滤波和扩展卡尔曼滤波，包括：思路流程、计算公式、简单案例等。滤波算法，在很多场景都有应用，感觉理解其思路和计算过程比较重要。

3781 0 0

楚国玉

|

机器学习/深度学习运维算法

|

博文

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

本文介绍了四种常见的物理量：加速度，速度，位移和力学功。详细介绍了它们的定义、计算以及在物理学和工程学领域中的应用。此外，本文还介绍了四种与物理量相关的概念：向量、标量、质量和密度。数学，物理，机器学习领域常见概念区分

3026 0 0

dataworks_demo21

|

DataWorks

|

博文

DataWorks售前咨询

14465 8 10

来自：大数据开发治理DataWorks 版块

晋恒

|

存储 SQL 分布式计算

|

博文

数据湖 VS 数据仓库之争？阿里提出大数据架构新概念：湖仓一体

随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么，是技术路线之争？是数据管理方式之争？二者是水火不容还是其实可以和谐共存，甚至互为补充？本文作者来自阿里巴巴计算平台部门，深度参与阿里巴巴大数据/数据中台领域建设，将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析，来阐述两者融合演进的新方向——湖仓一体，并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

29140 2 5

来自：大数据计算 MaxCompute 版块

aliyun3816472094

|

11天前

|

存储传感器人工智能

|

博文

AI 十大论文精讲（八）：知识蒸馏如何让大模型 “瘦身不减能”

本篇解读DistilBERT，一篇解决大模型落地难题的里程碑论文。面对BERT等大模型参数多、耗能高、部署难的问题，DistilBERT提出预训练阶段知识蒸馏，结合三重损失与轻量化设计，在保留97%性能的同时，模型缩小40%，推理提速60%，推动NLP迈向高效、绿色、边缘化应用。

145 8 8

游客rj7kdyude6p6g

|

2月前

|

机器学习/深度学习数据采集人工智能

|

博文

【机器学习算法篇】K-近邻算法

K近邻（KNN）是一种基于“物以类聚”思想的监督学习算法，通过计算样本间距离，选取最近K个邻居投票决定类别。支持多种距离度量，如欧式、曼哈顿、余弦相似度等，适用于分类与回归任务。结合Scikit-learn可高效实现，需合理选择K值并进行数据预处理，常用于鸢尾花分类等经典案例。（238字）

1206 7 7

delacroix_xu-15509

|

3月前

|

数据采集机器学习/深度学习人工智能

|

博文

YOLOv11浅浅解析：架构创新

YOLOv11是YOLO系列最新升级版，通过C3k2模块、SPPF优化和解耦检测头等创新，显著提升检测精度与速度，mAP提高2-5%，推理更快，支持多平台部署，适用于工业、安防、自动驾驶等场景。

734 1 2

小白学大数据

|

8月前

|

机器学习/深度学习数据采集 API

|

博文

Python自动化解决滑块验证码的最佳实践

1411 2 2

Echo_Wish

|

9月前

|

存储机器学习/深度学习数据挖掘

|

博文

数据湖 vs 数据仓库：你家到底该买冰箱还是建个地下室？

1274 17 17

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

如何使用Python实现“猜数字”游戏

聚类的k值确定之轮廓系数

爬虫专栏：破解网站检测selenium反爬——“当前环境正在被调试“”

AI智能体框架怎么选？7个主流工具详细对比解析

阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试

NLP基础知识

Java“找不到符号” 错误怎么查找解决

大数据的应用场景

如何为Kafka加上账号密码（二）

十大行业经典案例！Apache Flink 的 40 个最佳实践

vLLM推理加速指南：7个技巧让QPS提升30-60%

NVFP4量化技术深度解析：4位精度下实现2.3倍推理加速

SDL 图形库安装常见错误及解决方法

pip的常用命令和常见问题的解决

基于docker搭建conda深度学习环境（支持GPU加速）

Apache Flink X Apache Doris 构建极速易用的实时数仓架构

【最佳实践】简单配置，实现Filebeat多行日志传送

让搜索引擎“更懂你”：AI × Elasticsearch MCP Server 开源实战

数据建模入门指南：从懵懂小白到高手的第一步

解锁3D创作新姿势！Autodesk 3ds Max 2022中文版安装教程（附官方下载渠道）

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

机器学习算法的优化与改进：提升模型性能的策略与方法

cp-sat求解器介绍及使用案例

抖音视频列表API秘籍！轻松获取视频列表数据

2025年GitHub平台上的十大开源MCP服务器汇总分析

ubuntu build install python3.12 and config pip

费德勒权变模型（Fiedler Contingency Model）详解与Python代码示例

数据湖不是湖，是江湖：Delta Lake / Iceberg / Hudi 到底该选谁？

vscode代码推送到github库菜鸡专用教程

人工智能的三大主义

Flink CDC：新一代实时数据集成框架

人工智能（AI）技术的发展史

通义千问Qwen-72B-Chat大模型在PAI平台的微调实践

推荐场景GPU优化的探索与实践：CUDA Graph与多流并行的比较与分析

docker 获取Nvidia 镜像 | cuda |cudnn

智能语音交互概述（一）

什么是代理ip？代理ip的工作原理？代理ip有哪些类型？

业务人员也能用的 AI 数据分析工具？Aloudata Agent “开箱即用”体验报告

知识蒸馏技术原理详解：从软标签到模型压缩的实现机制

三种常见的加密算法：MD5、对称加密与非对称加密的比较与应用

卡尔曼滤波 KF | 扩展卡尔曼滤波 EKF （思路流程和计算公式）

梯度&散度&旋度&峰度&偏度你分得清楚吗？驻点&鞍点你分得清楚吗？曲率&斜率你分得清楚吗？

DataWorks售前咨询

数据湖 VS 数据仓库之争？阿里提出大数据架构新概念：湖仓一体

AI 十大论文精讲（八）：知识蒸馏如何让大模型 “瘦身不减能”

【机器学习算法篇】K-近邻算法

YOLOv11浅浅解析：架构创新

Python自动化解决滑块验证码的最佳实践

数据湖 vs 数据仓库：你家到底该买冰箱还是建个地下室？

大数据与机器学习

活跃用户

相关产品