OpenAI GPT-4 Code Interpreter测试

简介: 本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。

OpenAI GPT-4 Beta版本Code Interpreter功能分析

OpenAI最近在GPT-4中推出了Code Interpreter功能的Beta版本,它是ChatGPT的一个版本,可以编写和执行Python代码,并处理文件上传。以下是对其表现的基本分析。

GPT-4 Code Interpreter

主要功能

  1. 文件信息获取:Code Interpreter可以从文件名获取相关信息,并使用生成的Python代码对提供的文件类型进行处理。例如,PDF文件将被解析为文本,而PNG图片将被压缩后输入(目前还不清楚输入的具体格式)。
  2. Python代码生成:Code Interpreter会根据输入文件的类型生成相应的代码,输出包括STDOUT和STDERR,以及处理结果RESULT。这些内容都会被折叠展示。
  3. 超出Token Limit的内容处理:Code Interpreter利用生成的外部工具检索和摘取用户所需的内容部分,这部分内容会作为输入,其余内容则作为文件缓存,不会被直接读取。

功能测试

针对不同的文件类型,进行了Code Interpreter功能的测试。

图表(png)

Code Interpreter从文件名获取相关信息,可能有系统提示帮助模型注意到文件名。但是在处理图片过程中,图片被压缩,可能导致复杂视觉表格图片内容无法正确读取。
PNG Test

长文本(pdf)

对于PDF文件,Code Interpreter生成简单的代码并执行,例如使用PyPDF2处理PDF文件,并输出处理后的内容,包括STDOUT、STDERR和结果RESULT。

选取了较靠后的段落(超过Token限制)来检查GPT-4的Token分配情况。测试结果表明,GPT-4并未直接读取整个文件,而是引导用户选择一部分内容。然后,GPT-4会生成外部工具,利用这个工具检索和摘取用户指定的内容,将结果作为Context传入模型,结合用户的Prompt进行处理。

PDF Test
PDF Test - Detailed

短代码(ipynb)

对于短代码文本,GPT-4的Code Interpreter可以生成简单的解析工具获取文本,并将文本作为RESULT输入模型。
ipynb Test

长代码 (C++)

然而,对于长度超过最大Token数量的长文本代码,GPT-4的Code Interpreter未能正确输出完整的代码,只输出了其中一部分,并将这部分代码作为Context载入模型。

这就说明,对于长度超过Token Limit的文本,GPT-4的Code Interpreter功能仍有局限性。
Long Code Test
Long Code Test - Result

目录
相关文章
|
19天前
|
人工智能 自然语言处理 JavaScript
专为 Claude Code 设计的基于 YAML 的 Playwright MCP 自动化测试
YAML配置结合Claude Code与Playwright MCP,将自动化测试变得人人可用。通过简洁的YAML语法替代复杂的JavaScript代码,解决传统测试中冗长、硬编码和复用性差等问题。自然语言描述测试步骤,AI解析执行,支持多环境切换与智能报告生成,极大降低技术门槛,提升团队协作效率。无论是开发、QA还是产品经理,都能轻松参与测试流程,真正实现可读、易维护的自动化测试新范式。
|
3月前
|
机器学习/深度学习 人工智能 编解码
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
GPT-image-1是OpenAI推出的新一代多模态图像生成模型,通过API提供专业级图像生成与编辑能力,支持多种分辨率、格式和艺术风格定制。
365 10
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
|
3月前
|
人工智能 自然语言处理 测试技术
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
Codex CLI是OpenAI推出的轻量级AI编程智能体,基于自然语言指令帮助开发者高效生成代码、执行文件操作和进行版本控制,支持代码生成、重构、测试及数据库迁移等功能。
324 0
自然语言生成代码一键搞定!Codex CLI:OpenAI开源终端AI编程助手,代码重构+测试全自动
|
3月前
|
机器学习/深度学习 人工智能 算法
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
176 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
|
3月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
155 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
4月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
193 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
4月前
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
198 2
|
4月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
194 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
5月前
|
人工智能 并行计算 机器人
D1net阅闻 | OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!
D1net阅闻 | OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!
|
5月前
|
人工智能 机器人 API
D1net阅闻 | OpenAI将在未来几个月内推出GPT-5
D1net阅闻 | OpenAI将在未来几个月内推出GPT-5