OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

简介: OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽



众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。


不难想象,训练 GPT-4 需要海量的数据,这可不是付费购买能解决的问题。大概率,OpenAI 用了网络爬虫。很多用户指控 OpenAI,理由就是这种手段会侵犯用户的版权和隐私权。


刚刚,OpenAI 摊牌了:直接公布从整个互联网爬取数据的网络爬虫 ——GPTBot。


这些数据将被用来训练 GPT-4、GPT-5 等 AI 模型。不过 GPTBot 保证了,爬取内容绝对不包括违反隐私来源和需要付费的内容。


OpenAI 表示:「使用 GPTBot 爬取网络数据是为了改进 AI 模型的准确性、功能性和安全性。」


网站所有者可以根据需要允许和限制 GPTBot 爬取网站数据。接下来,我们来看下 GPTBot 究竟是如何工作的,顺便了解一下屏蔽方法。


首先,GPTBot 的用户代理字符串(User-Agent String)如下:





User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


使用如下方法可以将 GPTBot 添加到网站的 robots.txt,禁止 GPTBot 访问网站:





User-agent: GPTBot
Disallow: /


还可以允许 GPTBot 访问网站特定部分的内容:







User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/


近期,OpenAI 因为未经明确批准而在网站数据上训练 GPT-4 等大型语言模型而遭到强烈反对。批评者们表示,即使内容可以公开访问,像 OpenAI 这样的公司也应该遵循训练协议。人们还担心,内容在输入 AI 系统时会被断章取义。


但即使遵循了 robots 协议,鉴于其并不是规范,而只是约定俗成的,所以并不能保证网站的隐私。


GPTBot 发布之后,这条动态已经在 Hacker News 上引发了一场争论,焦点是使用抓取的网络数据来训练人工智能系统的道德和合法性。


一部分人认为,GPTBot 的推出展示了使用公开数据研发 AI 模型的「灰色地带」:


「在训练完模型后还爬取数据,这真是太好了。根据推测,这些 header 不会影响他们已经抓取来训练 GPT 的任何页面。」


「现在,他们可以游说反抓取的监管并阻碍其他任何的追赶了。」



鉴于 GPTBot 会识别自己的身份,因此网站管理员可以通过 robots.txt 阻止它,但有些人认为允许它这样做没有任何好处,不像搜索引擎爬虫会带来流量。


一个值得关注的问题是,受版权保护的内容会在未注明出处的情况下被使用。ChatGPT 目前没有注明出处。



还有人质疑 GPTBot 如何处理网站上的授权图片、视频、音乐和其他媒体。如果这些媒体在模型训练中用到,则可能构成版权侵权。


另外一些专家认为,如果 AI 编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。


相反,一些人认为 OpenAI 有权自由使用公共网络数据,并将其比作一个人从在线内容中学习。但也有人认为,如果 OpenAI 将网络数据货币化以获取商业利益,那么就应该分享利润。


总之,GPTBot 引发了关于所有权、合理使用和网络内容创建者激励机制的复杂争论。虽然遵循 robots.txt 是一个很好的步骤,但仍然缺乏透明度。


这或许是科技界下一个舆论焦点:随着 AI 产品的快速发展,「数据」到底该怎么用?


参考链接:

https://twitter.com/GPTDAOCN/status/1688704103554359296

https://searchengineland.com/gptbot-openais-new-web-crawler-430360

https://platform.openai.com/docs/gptbot

https://news.ycombinator.com/item?id=37030568

https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restrict-access/493394/#close

相关文章
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
179 60
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
3月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
2月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
52 0
|
4月前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
115 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
3月前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
57 3
|
4月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
4月前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
56 0
OpenAI GPT-4 Code Interpreter测试
|
4月前
|
人工智能 安全 搜索推荐
OpenAI宣布为企业和消费者提供可定制的GPT
OpenAI宣布为企业和消费者提供可定制的GPT
|
5月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
65 4
下一篇
DataWorks