如何让 ChatGPT 干些以前做不到的事?让它自己去写代码解决吧。
当人们问 ChatGPT 问题时,大语言模型(LLM)会通过不断预测下一个单词的方式生成答案。
但当全新的代码解释器(Code Interpreter)启用时,ChatGPT 会编写并运行一段计算机代码来寻找答案,这可以让它完成此前难以企及的新任务,比如执行复杂的计算、根据用户上传的数据生成图表,这些都是由代码完成的。
很多人认为,Code Interpreter 减少了大模型出现幻觉的问题。
几天前,OpenAI 正式开放了其 Code Interpreter 插件。本周四,ChatGPT Plus 的订阅者可以使用它。该插件允许 ChatGPT 分析数据、创建图表、解决数学问题和编辑文件等用途。它还支持上传和下载文件。
一时之间,各路人马都在使用这种新方法解决难题。
但 Code Interpreter 的潜能是不是只在这些领域呢?显然不是。该插件与 ChatGPT 的组合有更广阔的应用空间。
而Code Interpreter ,也成功地为 ChatGPT 带来新的关注与流量。今日,OpenAI CEO Sam Altman 发布 Twitter 表示大家如此喜欢代码解释器,我很高兴。
在这篇文章中,机器之心为大家整理了更多酷炫、神奇的 Code Interpreter 用例,除了数据分析领域,还能在游戏、图像和视频等 CV 领域大放异彩。
几分钟制作一个游戏
推特博主 @icreatelife 表示,ChatGPT Code Interpreter 太不可思议了。
你可以使用任何 AI 生成器来制作自己的游戏资产,然后要求带 Code Interpreter 插件的 GPT-4 来编写代码。五分钟就能搞定了。详细教程依次如下。
第一步:输入这段提示,「为经典电玩游戏 Asteroids 编写 p5.js 代码,其中用鼠标控制飞船,单击鼠标左键射击小行星。如果你的飞船与小行星相撞,你就输了。如果你击落了所有小行星,你就赢了。我想用自己的纹理来制作飞船和小行星。」
第二步:转到 Openprocessing 网站,创建并保存草图(你需要在上传任何纹理文件之前保存下来)。复制粘贴 GPT-4 的代码。
第三步:生成纹理文件并删除背景,例如在 Clip Drop 中。
第四步:用你自己的文件名替换纹理文件名。
第五步:运行程序。
第六步:如果出现问题,要求 GPT-4 进行修复(你可以复制错误并粘贴到 GPT-4 中),就像你要求人类程序员所做的那样。
最后一步,学习一点编程知识,给 GPT-4 写这些提示:「做我的编程老师。详细告诉我 Asteroids 游戏的算法,为函数命名,并解释每个函数的作用。不要只是写这些代码。」
,时长00:10
另一位博主 @aron_brand 同样使用 Code Interpreter 和 Midjourney,在几分钟内创建了一个太空入侵者游戏。数百行代码完美无瑕,令人难以置信。
,时长00:35
图像转换平移短视频
推特博主 @chaseleantj 展示了如何利用 ChatGPT Code Interpreter 将图像转换为短视频。
,时长00:21
第一步:启用 Code Interpreter 插件功能。
第二步:上传想要转换为短视频的图像。
第三步:输入提示,要求从左到右将图像动画化。
静等 30 秒,然后就能得到想要的平移短视频了。
类似例子还有很多,博主 @Web3Brainiac 利用 GPT Code Interpreter 将以下 AI 制作的图像转换成了平移短视频。
转换后是下面这样的。
,时长00:13
同样,博主 @anukaakash 联合使用 ChatGPT Code Interpreter 和 Midjourney 制作了一个平移短视频。
,时长01:16
几秒生成缩放短视频
六月底,Midjourney 发布了 v5.2,新增了「Zoom out」自定义缩放功能,非常适合做短视频。
此次结合 Code Interpreter,推特博主 @minchoi 在几秒内使用多张图像和单个提示生成了下面这个缩放短视频。
,时长00:06
这位博主还详细介绍了教程。首先是多张图像,对使用 Midjourney Zoom Out 功能生成的多张图像进行压缩,这里自定义缩放系数为 1.25。此外按照字母顺序为图像后缀命名,从 image_a.png 到 image_p.png。
接着启用 Code Interpreter,这里确保 ChatGPT 设置中启动了该插件。
然后将压缩的图像文件上传到 Code Interpreter。
下一步是输入单个提示,包括如下内容:根据需要更新图像文件名、Midjourney 中使用的缩放系数、视频时长、FPS 等。
最后一切交给 Code Interpreter,生成缩放短视频。
几秒制作幻灯片
推特博主 @jamesyeung18 利用 Code Interpreter,将 Midjourney 5.2 raw 生成的图像制作成为了连续性的幻灯片 —— 温布尔登(网球公开赛)的众生百态。
制作过程很简单,只需要压缩图像并要求 Code Interpreter 使用自然语言随机显示每张图像 2 秒就行了。
,时长00:25
丰富的 CV 应用:高级视频分析、人脸追踪等
推特博主 @skalskip92 使用 ChatGPT Code Interpreter,对视频中的物体进行检测、追踪和计数。他表示,Code Interpreter 非常擅长创建启发式方法,来基于物体的大小、位置或颜色对它们过滤。
,时长00:09
详细步骤如下。
第一步:隔离浅蓝色物体。
第二步:在蓝色像素簇周围绘制相框。
第三步:过滤掉小的蓝色像素簇。
第四步:应用基于 IoU 的追踪。这里最开始出现了一些检测错误。
第五步:对物体进行计数。
最后一步:删除错误检测。
此外,这位博主还探索了 ChatGPT Code Interpreter 在计算机视觉领域的多个其他用例。比如人脸检测和追踪。
,时长00:03
对 MNIST 数据集的图像分类。
使用 OCR 提取图像中的文本。
在 ChatGPT 中运行 GPT-2
推特博主 @sdand 让 Code Interpreter 在 ChatGPT 中完整地运行具有 GGML 的 1.17 亿参数的 GPT-2。
一,通过展示你知道一些 Code Interpreter 不知道的事情来建立「关系」(文件位于 /mnt/data/<etc> 中)。
二,在失败后建立信任,即不让 Code Interpreter 在第一次尝试时就运行 GPT-2 推理。
三,Code Interpreter 可以运行 MNIST,并希望它很快能运行 Whispher。
四,你可以要求 Code Interpreter 更改文件的权限。这里告诉了它在整个目录上运行 chmod 777。
数据科学,比人还强?
在一篇博客中,宾夕法尼亚大学沃顿商学院副教授 Ethan Mollick 详细介绍了他使用 Code Interpreter 编写代码、执行复杂计算和生成图表的第一印象,称这个新工具使 ChatGPT 可以成为一名高效的数据科学家。
Mollick 在博客中写道:「我在读博期间花了几周时间才能掌握的事情,人工智能在几秒钟内就完成了,而且错误通常比我对人类分析师的预期要少。」
具体来说,Code Interpreter 为 AI 提供了一个解决问题的通用工具箱(用 Python 编写代码),内存足够大(可以上传最大 100MB 的文件,且可以是压缩形式)。这有助于解决以前版本的 ChatGPT 存在的许多问题:
它可以编写 Python 代码来解决大语言模型在数学和语言方面的天然弱点。
降低了幻觉的发生率。代码有助于保持 AI 的「诚实」,因为如果代码不正确,Python 就会生成错误。由于代码操作的是数据,而不是 LLM 本身,因此人工智能不会在数据中插入错误。当然这并不完美,AI 仍然会产生幻觉,但错误不太常见,并且不太可能影响代码或数据本身 。
它使 AI 更加通用化。大量问题可以通过代码解决,GPT-4 非常擅长以新颖有趣的方式确定何时使用代码解释器。例如要求它用代码向怀疑者证明地球是圆的,它提供了多个论证,将文本与代码和图像结合在一起。
Mollick 还强调了该工具类似人类的「推理」能力,因为它足够灵活,可以就分析用户上传数据的不同方式进行对话。因此,该工具「对于那些没有写过代码的人来说可能非常有用,」他写道。
只要想不到,没有做不到。机器之心未来还将继续关注 Code Interpreter 的更多有趣酷炫应用。