OpenAI GPT-4 Code Interpreter测试

简介: 本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。

OpenAI GPT-4 Beta版本Code Interpreter功能分析

OpenAI最近在GPT-4中推出了Code Interpreter功能的Beta版本,它是ChatGPT的一个版本,可以编写和执行Python代码,并处理文件上传。以下是对其表现的基本分析。

GPT-4 Code Interpreter

主要功能

  1. 文件信息获取:Code Interpreter可以从文件名获取相关信息,并使用生成的Python代码对提供的文件类型进行处理。例如,PDF文件将被解析为文本,而PNG图片将被压缩后输入(目前还不清楚输入的具体格式)。
  2. Python代码生成:Code Interpreter会根据输入文件的类型生成相应的代码,输出包括STDOUT和STDERR,以及处理结果RESULT。这些内容都会被折叠展示。
  3. 超出Token Limit的内容处理:Code Interpreter利用生成的外部工具检索和摘取用户所需的内容部分,这部分内容会作为输入,其余内容则作为文件缓存,不会被直接读取。

功能测试

针对不同的文件类型,进行了Code Interpreter功能的测试。

图表(png)

Code Interpreter从文件名获取相关信息,可能有系统提示帮助模型注意到文件名。但是在处理图片过程中,图片被压缩,可能导致复杂视觉表格图片内容无法正确读取。
PNG Test

长文本(pdf)

对于PDF文件,Code Interpreter生成简单的代码并执行,例如使用PyPDF2处理PDF文件,并输出处理后的内容,包括STDOUT、STDERR和结果RESULT。

选取了较靠后的段落(超过Token限制)来检查GPT-4的Token分配情况。测试结果表明,GPT-4并未直接读取整个文件,而是引导用户选择一部分内容。然后,GPT-4会生成外部工具,利用这个工具检索和摘取用户指定的内容,将结果作为Context传入模型,结合用户的Prompt进行处理。

PDF Test
PDF Test - Detailed

短代码(ipynb)

对于短代码文本,GPT-4的Code Interpreter可以生成简单的解析工具获取文本,并将文本作为RESULT输入模型。
ipynb Test

长代码 (C++)

然而,对于长度超过最大Token数量的长文本代码,GPT-4的Code Interpreter未能正确输出完整的代码,只输出了其中一部分,并将这部分代码作为Context载入模型。

这就说明,对于长度超过Token Limit的文本,GPT-4的Code Interpreter功能仍有局限性。
Long Code Test
Long Code Test - Result

目录
相关文章
|
27天前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
29天前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
1月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
21 5
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
47 6
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
1月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
41 0
|
2月前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
48 3
|
3月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
78 2
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
316 73