OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流

简介: OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流



在生成式 AI 盛行的全新时代,大型科技公司在使用在线内容时正在奉行「照我说的做,而不是做我所做的」策略。在一定程度上,这种策略可以说是一种双标以及话语权的滥用。


同时,随着大语言模型(LLM)成为 AI 发展的主流趋势,无论是大型还是初创公司,都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。


近日,根据 Insider 的报道,微软支持的 OpenAI、谷歌及其支持的 Anthropic 多年来一直在使用其他网站或公司的在线内容来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的,并将构成一场酝酿中的法律斗争的一部分,决定了网络的未来以及版权法在这一新时代的应用方式。



这些大型科技公司可能会争辩说他们是合理使用,是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他 AI 模型。所以不禁要问,为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢?


这些公司很聪明,但也非常虚伪


大型科技公司使用他人在线内容却不允许他人使用自己的,这种说法是否有确切证据,这可以从他们一些产品的服务和使用条款中看出端倪。


首先来看 Claude,它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级,将上下文 token 扩展到了 100k,处理速度大大加快。



Claude 的服务条款是这样的。你不得以下列方式(这里列举出部分)访问或使用本服务,如果这些限制的任何一项与可接受使用政策不一致或不明确,则以后者依从为先:


  • 开发与我们的服务竞争的任何产品或服务,包括开发或训练任何 AI 或机器学习算法或模型
  • 未经条款允许,从我们的服务中抓取、爬取或以任何其他方式获取数据或信息


Claude 服务条款地址:https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms


同样地,谷歌的生成式 AI 使用条款也是如此,「你不得使用本服务来开发机器学习模型或相关技术。」



谷歌生成式 AI 使用条款地址:https://policies.google.com/terms/generative-ai


OpenAI 的使用条款又怎样呢?与谷歌类似,「你不得使用本服务的输出来开发与 OpenAI 竞争的模型。」



OpenAI 使用条款地址:https://openai.com/policies/terms-of-use


这些公司很聪明,他们知道高质量的内容对于训练新的 AI 模型至关重要,所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型,这又该如何解释呢?


目前,OpenAI、谷歌和 Anthropic 拒绝了 Insider 的置评请求,并且没有做出任何回应。


Reddit、推特和其他公司:受够了


实际上,其他公司意识到正在发生的事情时并不高兴。今年 4 月,多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。



Reddit 首席执行官 Steve Huffman 表示,「Reddit 的数据语料库非常有价值,因此我们不能把这些价值免费提供给世界上最大的公司。」

 

同样今年 4 月,马斯克指责 OpenAI 的主要支持者微软非法使用 Twitter 的数据来训练 AI 模型。「诉讼时间到」,他在推特上写道。



不过在回复 Insider 的置评时,微软表示「这个前提有太多的错误,我甚至不知道从何说起。」


OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道,他于近期表示,「我们正在尝试开发新的模式,如果 AI 系统使用了你的内容,或者使用了你的风格,你就会因此获得报酬。」


Sam Altman


出版商(包括 Insider)都会是既得利益获得者。此外,包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练 AI 模型。


目前 AI 模型的训练方式「打破」了网络


有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为,目前 AI 模型的训练方式「打破」了网络。


Steven Sinofsky


他在推特上写道,「过去,爬取数据是用来换取点击率的。但现在只是用来训练一个模型,没有给创作者、版权所有者带来任何价值。」


也许,随着更多公司的觉醒,生成式 AI 时代这一不均衡的数据使用方式会很快被改变。


原文链接:https://www.businessinsider.com/openai-google-anthropic-ai-training-models-content-data-use-2023-6

相关文章
|
1月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
104 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
334 73
|
27天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
1月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
1月前
|
前端开发 开发者
大模型代码能力体验报告之贪吃蛇小游戏《二》:OpenAI-Canvas-4o篇 - 功能简洁的文本编辑器加一点提示词语法糖功能
ChatGPT 的Canvas是一款简洁的代码辅助工具,提供快速复制、版本管理、选取提问、实时编辑、代码审查、代码转写、修复错误、添加日志和注释等功能。相较于 Claude,Canvas 更加简单易用,但缺少预览功能,适合一般开发者使用。
|
2月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
63 7
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
48 0
|
2月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。
下一篇
无影云桌面