人工智能平台 PAI的搜索结果_文章_第5页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Math24o：SuperCLUE开源的高中奥数推理测评基准，85.71分屠榜

Math24o是首个针对高中奥林匹克数学竞赛的中文大模型测评基准，采用2024年预赛真题实现自动化评估，为模型数学推理能力提供客观衡量标准。

# 人工智能平台 PAI # 人工智能 # 数据可视化 # C++ # Python

阿里云大数据Al技术

|

8月前

|

博文

|

来自：大数据与机器学习

DistilQwen2.5-R1发布：知识蒸馏助推小模型深度思考

DistilQwen2.5-R1通过知识蒸馏技术，将大规模深度推理模型的知识迁移到小模型中，显著提升了小模型的推理能力。实验结果表明，DistilQwen2.5-R1在数学、代码和科学问题等多个基准测试中表现优异，尤其在7B参数量级上超越了其他开源蒸馏模型。本文将深入阐述 DistilQwen2.5-R1 的蒸馏算法、性能评估，并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。

# 人工智能平台 PAI # 人工智能 # 边缘计算 # 算法 # 测试技术 # 开发者

阿里云大数据Al技术

|

8月前

|

博文

|

来自：大数据与机器学习

【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B

PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型，涵盖了 LLM、AIGC、CV、NLP 等各个领域，用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程，获得更快、更高效、更便捷的 AI 开发和应用体验。现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型，提供企业级部署方案。

# 人工智能平台 PAI # 人工智能 # 自然语言处理 # 运维 # 前端开发 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

BlockDance：扩散模型加速革命！复旦字节联手实现50%无损提速

BlockDance 是复旦大学与字节跳动联合推出的扩散模型加速方法，通过识别重用相邻时间步中的结构相似特征，减少冗余计算，最高可加速50%，同时保持生成质量。

# 人工智能平台 PAI # 机器学习/深度学习 # 人工智能 # 缓存 # 决策智能

wxchyy-39337

|

8月前

|

博文

|

来自：大数据与机器学习

强化学习:时间差分(TD)(SARSA算法和Q-Learning算法)(看不懂算我输专栏)——手把手教你入门强化学习(六)

本文介绍了时间差分法（TD）中的两种经典算法：SARSA和Q-Learning。二者均为无模型强化学习方法，通过与环境交互估算动作价值函数。SARSA是On-Policy算法，采用ε-greedy策略进行动作选择和评估；而Q-Learning为Off-Policy算法，评估时选取下一状态中估值最大的动作。相比动态规划和蒙特卡洛方法，TD算法结合了自举更新与样本更新的优势，实现边行动边学习。文章通过生动的例子解释了两者的差异，并提供了伪代码帮助理解。

# 人工智能平台 PAI # 机器学习/深度学习 # 算法 # 机器人

阿里云大数据Al技术

|

8月前

|

博文

|

来自：大数据与机器学习

如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介

阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型，为用户构建符合应用场景的多维度、细粒度的评测体系，支持单模型评测和双模型竞技两种模式，允许用户自定义参数，实现准确、灵活、高效的模型自动化评测，为模型迭代优化提供数据支撑。相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下，PAI-Judge 系列模型表现优异，可以直接用于大模型的评估与质检。

# 人工智能平台 PAI # 人工智能 # JSON # 自然语言处理 # API # 数据格式

wxchyy-39337

|

8月前

|

博文

|

来自：大数据与机器学习

强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

本文介绍了强化学习中的蒙特卡罗算法，包括其基本概念、两种估值方法（首次访问蒙特卡罗与每次访问蒙特卡罗）及增量平均优化方式。蒙特卡罗法是一种基于完整回合采样的无模型学习方法，通过统计经验回报的平均值估计状态或动作价值函数。文章详细讲解了算法流程，并指出其初期方差较大、估值不稳定等缺点。最后对比动态规划，说明了蒙特卡罗法在强化学习中的应用价值。适合初学者理解蒙特卡罗算法的核心思想与实现步骤。

# 人工智能平台 PAI # 机器学习/深度学习 # 存储 # 算法 # C++

wxchyy-39337

|

8月前

|

博文

|

来自：大数据与机器学习

强化学习:动态规划求解最优状态价值函数——手把手教你入门强化学习(四)

本文介绍了基于模型的强化学习算法，重点讲解动态规划（DP）。动态规划通过分解问题为子问题求解状态价值函数，利用贝尔曼期望方程迭代更新。其核心性质包括最优子结构和重叠子问题，适用于已知转移概率和奖励的MDP场景。文章回顾了前期强化学习基础，并展望了后续内容如蒙特卡罗法。适合初学者系统了解强化学习算法原理与应用。

# 人工智能平台 PAI # 机器学习/深度学习 # 算法 # 关系型数据库 # 语音技术 # C++

wxchyy-39337

|

8月前

|

博文

|

来自：大数据与机器学习

强化学习:实践理解Markov决策过程(MDP)(干中学系列)——手把手教你入门强化学习(三)

本博客以实践为主，带领读者巩固上期关于“Markov决策过程”的核心概念。通过构建学生马尔可夫奖励模型、计算收获值与状态价值，进一步验证贝尔曼方程。详细介绍了转移概率、奖励值及策略概率的设置，并实现了均匀随机策略下的状态价值计算与最优策略的价值评估。结合代码实例，帮助读者深入理解强化学习理论。适合初学者实践与进阶学习。

# 人工智能平台 PAI # 机器学习/深度学习 # C++

wxchyy-39337

|

8月前

|

博文

|

来自：大数据与机器学习

强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)

本文是“手把手教你入门强化学习”系列的第二篇，重点讲解了强化学习的核心数学模型——Markov决策过程（MDP）。文章从马尔可夫性质出发，逐步引入马尔可夫过程、马尔可夫奖励过程，最终深入到马尔可夫决策过程，详细解析了状态转移、奖励机制、价值函数及贝尔曼方程等关键概念。同时，文中还介绍了策略函数、最优价值函数等内容，并指出求解强化学习问题的关键在于寻找最优策略。通过理论推导与实践结合的方式，帮助读者更好地理解强化学习基础原理。

# 人工智能平台 PAI # 机器学习/深度学习 # 开发框架 # .NET # C++

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

人工智能平台 PAI