OpenAI及DeepMind两团队令未来的AI机器更安全

简介:

OpenAI和DeepMind的研究人员使用的新算法从人类反馈中学习,他们希望这样做能使人工智能更安全。

两家公司均为强化学习的专家,强化学习是机器学习的一个领域,其基本思想是,如果代理在特定的环境里采取正确的行动完成了任务就给予奖励。该目标是通过一种算法来指定的,代理经过程序后就会追逐奖励,例如游戏中的获胜点。

强化学习在训练机器如何玩如Doom或Pong等游戏或通过模拟驾驶自主驾驶汽车等案例中取得了成功。强化学习是探索代理行为的一个有效的方法,但如果硬编码算法错了或产生不良影响的话,这种方法可能也有危险。

arXiv上发表的一篇论文描述了一种有助于防止此类问题的新方法。首先,代理在其环境中执行随机动作。预测的奖励则是基于人类的判断,而且奖励被反馈到强化学习算法中,以改变代理的行为。

 OpenAI及DeepMind两团队令未来的AI机器更安全

系统在人类指导下制定最佳行动及学习目标

研究人员将这种算法用于训练一个弯曲的灯柱往后仰。代理的两个视频然后再交给人观看,观看者选择哪一个的后仰动作更佳一些。

经过一段时间后,代理就逐渐学习了如何根据奖励函数最有效地解释人类的判断来学习目标。强化学习算法用于指导代理的行为,并可以持续在人类的批准下进行改进。

网上可找到相关的视频。(https://www.youtube.com/watch?v=oC7Cw3fu3gU)

人类评估者花掉的时间不足一个小时。但要完成做饭或发送电子邮件等更复杂的任务就会需要更多的人类反馈,从财务的角度来看则是昂贵的。

文章的作者之一达里奥·阿莫德(Dario Amodei)是OpenAI的一名研究人员,他表示,未来研究的重点会放在减少监督方面。

他告诉记者,“泛泛而言,名为半监督学习的技术在这一块可能有帮助。另一种可能性是提供更信息密集的反馈形式,如语言,或是让人类在屏幕上具体指出表示良好行为的部分。更多的信息密集反馈可能会让人类在更短的时间内更多地与算法进行沟通。“

上述研究人员在其他模拟机器人任务和Atari游戏里测试了他们的算法,结果显示机器有时可以实现超人式的性能。但这在很大程度上取决于人类评估者的判断。

OpenAI在一篇博文里表示,“我们算法的性能只能和人类评估者对于什么是正确行为的直觉一样好,所以,如果人类对一个任务没有很好的把握,那他们可能提供不了太多有用的反馈。”

阿莫德表示,目前的结果仅局限于非常简单的环境。但这种方法大有可能对有些很难学习的任务有用,这些任务的奖励功能很难量化,例如驾驶、组织事件、写作或技术支持的提供。


原文发布时间为: 2017年6月14日


本文作者:杨昀煦

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
27天前
|
人工智能 安全 API
Higress MCP Server 安全再升级:API 认证为 AI 连接保驾护航
Higress MCP Server 新增了 API 认证功能,为 AI 连接提供安全保障。主要更新包括:1) 客户端到 MCP Server 的认证,支持 Key Auth、JWT Auth 和 OAuth2;2) MCP Server 到后端 API 的认证,增强第二阶段的安全性。新增功能如可重用认证方案、工具特定后端认证、透明凭证透传及灵活凭证管理,确保安全集成更多后端服务。通过 openapi-to-mcp 工具简化配置,减少手动工作量。企业版提供更高可用性保障,详情参见文档链接。
328 42
|
17天前
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
127 3
大模型+安全,阿里云发布AI云盾系列产品!
|
2月前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
273 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
2月前
|
云安全 人工智能 安全
|
24天前
|
云安全 人工智能 安全
AI 云盾(Cloud Shield for AI)重磅发布,打造安全新范式
提供大模型应用端到端的安全解决方案
1383 48
|
12天前
|
人工智能 安全 Nacos
MSE 铂金版:全面拥抱 AI,SLA 99.99%,零信任安全
微服务引擎注册配置中心铂金版正式发布,支持Nacos 3.0 MCP服务动态注册与调优,提供比专业版更高的稳定性与安全能力,SLA达99.99%,服务推送性能提升300%。针对关键业务,铂金版通过独享核心资源实现更高规格配额,满足大规模需求。此外,新增MCP动态注册、HTTP服务转换、实时更新调优等功能,并强化数据源管理与安全能力,助力企业应对复杂业务挑战。
|
9天前
|
人工智能 安全 测试技术
信条:阿里云AI攻防安全启示录
解读AI时代下的安全攻防新态势
1111 11
|
29天前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
137 15
|
2月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
本文探讨了中国大模型DeepSeek在全球范围内的成功及其面临的网络安全挑战。DeepSeek以低成本、高性能的特点迅速走红,甚至超越ChatGPT,但同时也遭受了大规模恶意攻击,如DDoS和密码暴力破解。文章分析了这些攻击对AI行业的影响,并提出通过阿里云构建安全可观测体系的解决方案,包括流量监控、日志审计与异常检测等,为AI技术的安全发展提供保障。