Nature|ChatGPT和生成式AI对科学意味着什么?

简介: Nature|ChatGPT和生成式AI对科学意味着什么?

当 LLM 收到提示时(例如 Greene 和 Pividori 精心设计的重写部分手稿的请求),他们只是逐字吐出任何在文体上似乎合理的方式来继续对话。结果是 LLM 很容易产生错误和误导性信息,特别是对于他们可能没有多少数据可以训练的技术主题。LLM 也不能显示其信息的来源;如果被要求撰写学术论文,他们会编造虚构的引文。「不能相信该工具能够正确处理事实或生成可靠的参考资料,」Nature Machine Intelligence 杂志 1 月份在 ChatGPT 上发表的一篇社论指出。

文章地址:https://www.nature.com/articles/d41586-023-00107-z有了这些注意事项,ChatGPT 和其他 LLM 可以成为研究人员的有效助手,这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案,例如计算机代码的解释或建议是否正确。但是这些工具可能会误导天真的用户。例如,去年 12 月,Stack Overflow 暂时禁止使用 ChatGPT,因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的 LLM 生成的答案所淹没。这对搜索引擎来说可能是一场恶梦。

缺点能克服吗?

一些搜索引擎工具,例如以研究人员为中心的 Elicit,解决了 LLM 的归因问题,首先使用它们的功能来指导对相关文献的查询,然后简要总结引擎找到的每个网站或文档——因此产生明显引用内容的输出(尽管 LLM 可能仍会错误总结每个单独的文档)。建立 LLM 的公司也很清楚这些问题。去年 9 月,DeepMind 发表了一篇关于名为 Sparrow 的「对话智能体」的论文。最近,首席执行官兼联合创始人 Demis Hassabis 告诉《时代》杂志,该论文将在今年以私人测试版的形式发布。报道称,其目标是开发包括引用消息来源的能力在内的功能。其他竞争对手,例如 Anthropic,表示他们已经解决了 ChatGPT 的一些问题。

一些科学家说,目前,ChatGPT 还没有接受足够专业的内容训练,无法对技术课题有所帮助。Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生,当他在工作中试用它时,他感到很失望。「我认为 ChatGPT 很难达到我需要的特异性水平,」他说。(即便如此,Carr 说,当他向 ChatGPT 询问 20 种解决研究问题的方法时,它回复了胡言乱语和一个有用的想法——一个他从未听说过的统计术语,将他引向了学术文献的一个新领域。)一些科技公司正在根据专业科学文献对聊天机器人进行训练——尽管它们也遇到了自己的问题。去年 11 月,拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的 LLM 项目,该项目接受过科学摘要训练,旨在使其特别擅长制作学术内容和回答研究问题。用户让它产生不准确和种族主义之后,该演示已从公共访问中撤出(尽管其代码仍然可用)。「不再可能通过随意滥用它来获得一些乐趣。开心吗?」Meta 的首席人工智能科学家 Yann LeCun在推特上回应批评。

安全与责任


Galactica 遇到了伦理学家多年来一直指出的一个熟悉的安全问题:如果没有输出控制,LLM 很容易被用来生成仇恨言论和垃圾信息,以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害联想。除了直接产生有毒内容外,人们还担心人工智能聊天机器人会从他们的训练数据中嵌入历史偏见或关于世界的想法,例如特定文化的优越性,密歇根大学科学、技术和公共政策项目主任 Shobita Parthasarathy 表示,由于创建大型 LLM 的公司大多处于这些文化中,并且来自这些文化,因此他们可能很少尝试克服这种系统性且难以纠正的偏见。OpenAI 在决定公开发布 ChatGPT 时试图回避其中的许多问题。它将其知识库限制在 2021 年,阻止其浏览互联网并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。然而,要实现这一点,需要人工审核员来标记有毒文本。记者报道说,这些工人的工资很低,有些人还受到了创伤。社交媒体公司也对工人剥削提出了类似的担忧,这些公司雇用人员来训练自动机器人来标记有毒内容。但现实是,OpenAI 的护栏并没有完全成功。去年 12 月,加州大学伯克利分校的计算神经科学家 Steven Piantadosi 在推特上表示,他已要求 ChatGPT 开发一个 Python 程序,以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人回复了代码,邀请用户输入一个国家;如果是某些特定的国家,则输出「这个人应该受到折磨」。(OpenAI 随后关闭了此类问题。)去年,一群学者发布了一个名为 BLOOM 的替代品。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。相关团队还完全开放了其训练数据(与 OpenAI 不同)。研究人员已敦促大型科技公司负责任地效仿这个例子——但尚不清楚他们是否会遵守。一些研究人员表示,学术界应该完全拒绝支持大型商业 LLM。除了偏见、安全问题和受剥削的工人等问题外,这些计算密集型算法还需要大量能量来训练,这引发了人们对其生态足迹的担忧。更令人担忧的是,通过将思维转移给自动聊天机器人,研究人员可能会失去表达自己想法的能力。「作为学者,我们为什么会急于使用和宣传这种产品?」 荷兰奈梅亨 Radboud 大学的计算认知科学家 Iris van Rooij 在博客中写道,敦促学术界抵制他们的吸引力。进一步的混乱是一些 LLM 的法律地位,这些 LLM 是根据从互联网上抓取的内容进行训练的,有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制,但不包括其风格的模仿。当这些通过 AI 生成的模仿品通过摄取原件进行训练时,就会出现问题。包括 Stable Diffusion 和 Midjourney 在内的一些 AI 艺术程序的创作者目前正在被艺术家和摄影机构起诉;OpenAI 和微软(连同其子公司技术网站 GitHub)也因创建其 AI 编码助手 Copilot 而被起诉盗版软件。英国纽卡斯尔大学互联网法专家Lilian Edwards表示,强烈抗议可能会迫使法律发生变化。

强制诚实使用


一些研究人员表示,因此,为这些工具设定界限可能至关重要。Edwards建议,现有的关于歧视和偏见的法律(以及计划中的对 AI 的危险使用的监管)将有助于保持 LLM 的使用诚实、透明和公平。「那里有大量的法律,」她说,「这只是应用它或稍微调整它的问题。」同时,有人推动 LLM 的使用透明公开。学术出版商(包括《自然》)表示,科学家应该在研究论文中披露 LLM 的使用情况;老师们表示,他们希望学生也有类似的行动。《科学》杂志则更进一步,称论文中不能使用由 ChatGPT 或任何其他人工智能工具生成的文本。

文章地址:https://www.nature.com/articles/d41586-023-00191-1一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此,其中心思想是使用 LLM 本身来发现 AI 创建的文本的输出。例如,去年 12 月,新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了GPTZero。这种 AI 检测工具以两种方式分析文本。一个是「困惑度」,衡量LLM对文本的熟悉程度。Tian 的工具使用了一个早期的模型,称为 GPT-2;如果它发现大部分单词和句子都是可预测的,那么文本很可能是人工智能生成的。另一个是「突发性」,用于检查文本的变化。人工智能生成的文本在语气、节奏和困惑度方面往往比人类编写的文本更一致。出于科学家的目的,由反剽窃软件开发商 Turnitin 公司开发的工具可能特别重要,因为 Turnitin 的产品已被世界各地的学校、大学和学术出版商使用。该公司表示,自 GPT-3 于 2020 年发布以来,它一直在开发人工智能检测软件,预计将在今年上半年推出。此外,OpenAI 自己也已经发布了 GPT-2 的检测器,并在 1 月份发布了另一个检测工具。

然而,这些工具中没有一个声称是万无一失的,尤其是在随后编辑 AI 生成的文本的情况下。对此,德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说,检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示,在测试中,其最新工具在 9% 的情况下将人类编写的文本错误地标记为 AI 编写的,并且仅正确识别了 26% 的 AI 编写的文本。Aaronson 说,例如,在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前,可能需要进一步的证据。另一个想法是让人工智能内容带有自己的水印。去年 11 月,Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的方法。虽然它尚未发布,但在 1 月 24 日发布的预印本中,由马里兰大学帕克分校的计算机科学家 Tom Goldstein 领导的团队提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器,以创建 LLM 被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹,这些单词可以通过统计方式识别,但对读者来说并不明显。编辑可能会消除这种痕迹,但 Goldstein 认为这需要更改超过一半的单词。Aaronson 指出,加水印的一个优点是它永远不会产生误报。如果有水印,则文本是用 AI 生成的。不过,它不会是万无一失的,他说。「如果你有足够的决心,肯定有办法击败任何水印方案。」检测工具和水印只会让欺骗性地使用 AI 变得更加困难——并非不可能。与此同时,LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI 有望在今年发布 GPT-4)——包括专门针对学术或医学工作的工具。12 月下旬,谷歌和 DeepMind 发布了一份关于名为 Med-PaLM 的以临床为重点的预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题,尽管它仍然有缺点和不可靠。加利福尼亚州圣地亚哥斯克里普斯研究转化研究所所长 Eric Topol 表示,他希望在未来,包括 LLM 在内的 AI 甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和了解这种疾病。反对身体扫描图像的文学。但他强调,这一切都需要专家的明智监督。生成式人工智能背后的计算机科学发展如此之快,以至于每个月都会出现创新。研究人员如何选择使用它们将决定他们和我们的未来。「认为在 2023 年初,我们已经看到了这一切的结束,这太疯狂了,」Topol 说。「这真的才刚刚开始。」参考资料:https://www.nature.com/articles/d41586-023-00340-6

相关文章
|
1月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
33 1
|
1月前
|
机器学习/深度学习 存储 人工智能
AI与量子计算:推动计算科学的边界
【10月更文挑战第7天】AI与量子计算的融合,标志着计算科学进入了一个全新的时代。在这个时代里,计算能力的边界被不断拓宽,科技创新的速度不断加快。我们有理由相信,在未来的日子里,AI与量子计算将继续携手并进,共同推动计算科学向着更加智能、更加高效的方向发展。让我们期待这一天的到来,共同见证计算科学的无限可能。
|
2月前
|
人工智能 自然语言处理 测试技术
用图灵测试检验AI尤其是大语言模型,真的科学吗?
【9月更文挑战第25天】《Does GPT-4 Pass the Turing Test?》一文评估了先进AI模型GPT-4的图灵测试表现。尽管GPT-4在某些对话中成功迷惑了参与者,但其整体成功率仅为41%,低于人类的63%。图灵测试作为评估AI语言能力的工具依然有效,但存在局限性,如无法评估AI的认知机制且受主观判断影响。此外,测试还引发了关于AI智能及伦理的讨论。
168 6
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
77 6
|
25天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
1月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
50 1
|
1月前
|
人工智能 自然语言处理 数据挖掘
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
利用小蜜蜂AI智能问答ChatGPT+AI高清绘图生成图文故事案例
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
这篇文章是一篇保姆级的教程,旨在全面介绍如何与AI进行高效交流,包括ChatGPT的前世今生、应用场景以及提问的基础技巧。
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
|
2月前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
42 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)
下一篇
无影云桌面