OpenAI GPT-4 Code Interpreter测试

简介: 本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。

OpenAI GPT-4 Beta版本Code Interpreter功能分析

OpenAI最近在GPT-4中推出了Code Interpreter功能的Beta版本,它是ChatGPT的一个版本,可以编写和执行Python代码,并处理文件上传。以下是对其表现的基本分析。

GPT-4 Code Interpreter

主要功能

  1. 文件信息获取:Code Interpreter可以从文件名获取相关信息,并使用生成的Python代码对提供的文件类型进行处理。例如,PDF文件将被解析为文本,而PNG图片将被压缩后输入(目前还不清楚输入的具体格式)。
  2. Python代码生成:Code Interpreter会根据输入文件的类型生成相应的代码,输出包括STDOUT和STDERR,以及处理结果RESULT。这些内容都会被折叠展示。
  3. 超出Token Limit的内容处理:Code Interpreter利用生成的外部工具检索和摘取用户所需的内容部分,这部分内容会作为输入,其余内容则作为文件缓存,不会被直接读取。

功能测试

针对不同的文件类型,进行了Code Interpreter功能的测试。

图表(png)

Code Interpreter从文件名获取相关信息,可能有系统提示帮助模型注意到文件名。但是在处理图片过程中,图片被压缩,可能导致复杂视觉表格图片内容无法正确读取。
PNG Test

长文本(pdf)

对于PDF文件,Code Interpreter生成简单的代码并执行,例如使用PyPDF2处理PDF文件,并输出处理后的内容,包括STDOUT、STDERR和结果RESULT。

选取了较靠后的段落(超过Token限制)来检查GPT-4的Token分配情况。测试结果表明,GPT-4并未直接读取整个文件,而是引导用户选择一部分内容。然后,GPT-4会生成外部工具,利用这个工具检索和摘取用户指定的内容,将结果作为Context传入模型,结合用户的Prompt进行处理。

PDF Test
PDF Test - Detailed

短代码(ipynb)

对于短代码文本,GPT-4的Code Interpreter可以生成简单的解析工具获取文本,并将文本作为RESULT输入模型。
ipynb Test

长代码 (C++)

然而,对于长度超过最大Token数量的长文本代码,GPT-4的Code Interpreter未能正确输出完整的代码,只输出了其中一部分,并将这部分代码作为Context载入模型。

这就说明,对于长度超过Token Limit的文本,GPT-4的Code Interpreter功能仍有局限性。
Long Code Test
Long Code Test - Result

目录
相关文章
|
27天前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
58 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
8天前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
20 3
|
19天前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
1月前
|
人工智能 安全 搜索推荐
OpenAI宣布为企业和消费者提供可定制的GPT
OpenAI宣布为企业和消费者提供可定制的GPT
|
2月前
|
人工智能 自然语言处理 测试技术
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
19 4
|
1月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?
|
3月前
|
人工智能 机器人 API
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
OpenAI发布新AI模型GPT-4o和桌面版ChatGPT
|
3月前
|
人工智能 搜索推荐 机器人
OpenAI推出GPT Store,领导层纷争后的新业务
OpenAI推出GPT Store,领导层纷争后的新业务
|
3月前
|
人工智能 测试技术
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
Claude 3正式发布,超越GPT-4,一口气读15万单词,OpenAI最强的大对手!
55 0
|
5天前
|
移动开发 JSON Java
Jmeter实现WebSocket协议的接口测试方法
WebSocket协议是HTML5的一种新协议,实现了浏览器与服务器之间的全双工通信。通过简单的握手动作,双方可直接传输数据。其优势包括极小的头部开销和服务器推送功能。使用JMeter进行WebSocket接口和性能测试时,需安装特定插件并配置相关参数,如服务器地址、端口号等,还可通过CSV文件实现参数化,以满足不同测试需求。
27 7
Jmeter实现WebSocket协议的接口测试方法

热门文章

最新文章