算法的搜索结果_第3页-阿里云开发者社区

游客2toroqkzdcega

|

23小时前

|

博文

大模型微调PPO原理：让AI学会人类价值观的核心算法

PPO（近端策略优化）是大模型对齐人类价值观的核心强化学习算法。它通过截断重要性采样与KL约束，实现稳定、渐进的策略更新，在ChatGPT、Claude等系统中驱动RLHF训练。原理简洁、工程友好，已成为大模型对齐事实标准。

# 机器学习/深度学习 # 人工智能 # 算法

大模型玩家七七

|

1天前

|

博文

|

来自：大数据与机器学习

第一次跑通 PPO：实战卡点全拆解

PPO实战难点不在算法理解，而在系统性不确定：需先明确对齐目标，以SFT模型为起点，严格使用reference model，设计偏好式reward，聚焦policy更新与KL系数调控，并通过行为变化而非loss曲线评估进展——本质是耐心跑通最小闭环。

# 算法 # 安全 # 物联网 # C++

大模型玩家七七

|

1天前

|

博文

|

来自：大数据与机器学习

热门技术的隐性陷阱：LoRA、PPO、DPO、RAG 的误用边界

本文警示：LoRA、PPO、DPO、RAG等技术是“放大器”，不解决问题，只放大已有对错。当术语取代问题分析——如“该上LoRA吗？”替代“问题本质是什么？”，便已陷入误用陷阱。真正关键，是保持工程判断力：用对时机，更要敢于不用。

# 数据采集 # 安全 # 算法 # 物联网 # C++

北京木奇移动技术

|

1天前

|

博文

AI 软件外包开发流程

AI软件外包流程聚焦数据、算法与模型，涵盖需求评估、数据工程、模型研发、系统集成、测试交付及持续迭代六大环节，强调数据质量、模型鲁棒性与工程化落地能力。（239字）

# 数据采集 # 人工智能 # 监控 # 算法 # 数据处理

陌陌谣

|

1天前

|

博文

公司内网监控软件中的布隆过滤器算法及Node.js实现

本文详解布隆过滤器原理及其在公司内网监控软件中的三大应用：异常IP快速过滤、日志去重与敏感关键词筛选，并提供基于Node.js的高性能实现代码，兼顾空间效率与实时性，助力企业提升安全监控效能。（239字）

# 存储 # 监控 # 算法 # JavaScript # 安全

子昂大仙

|

1天前

|

博文

Vue3二维码生成器实现方案

本文拆解 Vue3/Nuxt3 二维码生成器实战方案，采用「Vue 管结构与状态、独立 JS 负责 Canvas 绘制」的分层架构。通过 `data-*` 属性定义交互协议，实现类型切换、表单联动、实时预览及 PNG/SVG 导出，兼顾可维护性与跨项目复用性。

# 缓存 # JavaScript # 前端开发 # 算法 # 容器

修己xj

|

1天前

|

博文

Anki：让记忆更高效、更智能的开源力量

总之，Anki 是一个集科学、高效、自由于一体的强大工具。它不会让学习本身变得毫不费力，但它会让你付出的每一分努力都更有价值。如果你正苦恼于记忆难题，不妨试试 Anki，让科学的方法为你的学习赋能。

# 算法 # 安全 # Android开发 # iOS开发 # Windows

Deephub

|

1天前

|

博文

一分钟训练搞懂 DPPO：把扩散过程建模为 MDP 的强化学习方法

本文以二维环形环境为简化平台，探究DPPO（扩散策略策略优化）算法的训练机制：将扩散去噪过程建模为MDP，用PPO微调单条轨迹，分析KL约束、微调步数、eps clip与学习率等对行为分布与收敛性的影响，揭示RL+扩散在机器人策略优化中的关键挑战与设计权衡。

# 机器学习/深度学习 # 资源调度 # 算法 # 数据可视化 # 机器人

大模型玩家七七

|

1天前

|

博文

|

来自：大数据与机器学习

PPO / DPO 对安全边界的影响：压制还是迁移风险

本文揭示对齐训练（PPO/DPO）的深层误区：它不降低风险总量，而是迁移风险形态——压制显性违规，却强化灰区输出的稳定性与隐蔽性。风险未被消除，只是从“直白越界”变为“委婉越界”，更难检测、评估与拦截。安全不能只靠对齐，需模型、系统、策略三层协同。

# 安全 # 算法 # 测试技术 # C++

龙蜥社区（OpenAnolis）

|

2天前

|

博文

|

来自：龙蜥操作系统

产学研共话 AI Infra：龙蜥智算联盟探索大模型全场景落地新路径

清晰勾勒出大模型时代 AI 基础设施的演进方向。

# 存储 # 人工智能 # 算法 # Anolis # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

算法