「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助

简介: 「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助



 新智元报道  

编辑:桃子

【新智元导读】数学天才陶哲轩的研究也用上了AI工具GPT-4。有了GPT-4,你想做的,只需复制、粘贴、一键完成!


当红炸子鸡ChatGPT,也成为数学天才陶哲轩的研究工具了。

近日,他在网上称自己发现了一些ChatGPT的小用例。

首先,它很擅长解析代码格式的文档(在这种情况下是#arXiv搜索的API),然后返回一个正确格式的代码查询(后来它还提供了一些工作的python代码,以我要求的方式调用这个API,尽管我不得不手动安装一个包来使它运行)。其次,我让它想出一些,聪明的学生在本科线性代数课上可能会问的问题(为此我提供了一些样本题目),它给出了一些很好的例子,让我对课程可能方向,以及潜在的作业问题有所启发。


总之,我发现ChatGPT等AI工具虽然不能帮我攻克一个未解决的数学问题,但对其他工作相关的问题很有用,尽管事后经常需要进行一些手动调整。


GPT-4和GPT-3.5差别不大


GPT-4是怎样擅长解析代码格式的文档?

陶哲轩让GPT-4对所有的arXiv文章进行搜索查询,这些文章的元数据是一个给定的关键词(比如,「Collatz」),并且是在一定的日期范围内提交的(比如,在2011-2016之间)。根据下面的文档,这样的查询的格式是什么?

对此,GPT-4不仅给出了代码,还列出了查询的分类。

网友问,作为一个阅读工具,给定一篇论文,让它提出审稿人或演讲者可能会问哪些问题?在这一方面GPT-4做得如何?

对此,陶哲轩拿去测评了一番,大赞「确实不错」。

「这里是最近一篇论文的前几页。你能提出一些听众在听关于这篇论文的讲座时可能提出的问题吗?」

ChatGPT回答「当然,这里有一些数学家在听了关于这篇论文的讲座后可能会问的问题」。然后,巴拉巴拉列出了7个问题。

细心网友发现陶哲轩发帖的截图是GPT-4。

便问道,「你认为以前的ChatGPT和基于GPT-4模型的新助手之间有什么区别?」

陶哲轩称,「到目前为止,GPT-4的答复稍微有用一些,而且符合我的要求,但我没有看到质量上的重大差别。」

ChatGPT加入工作流


ChatGPT的诞生,许多人都在惊呼自己的工作要被AI替代了。

就连天才数学家陶哲轩也上手ChatGPT了。

3月5日,陶哲轩在网上称自己决定尝试以不同的方式将AI工具纳入我的工作流程。其中就包括GPT-4、DeepL等工具。

在此期间,ChatGPT隐藏功能都被他挖掘了出来,比如寻找公式、解析代码格式的文档、改写论文语句等等。

比如,ChatGPT有时可以在数学中做一个半成品的语义检索,也就是用它来生成一些提示。

比如,陶哲轩让ChatGPT从描述中识别库默尔定理,它没能给出正确答案,但根据它给出的近似答案(Legendre 公式)。

对此,陶哲轩称,人工智能在数学中的作用是提供一个初步的近似答案,然后可以结合传统搜索引擎轻松找到正确答案。

陶哲轩还发现了ChatGPT在处理数学问题时的亮点,能够识别不同语言的数学概念音译版。

另外,可以要求ChatGPT转换从MathSciNet获得的一堆参考文献,并在LaTeX书目环境下将其格式化为\bibitems。

然而ChatGPT 就没有犯错的时候吗?

在一个关于「素数是否无穷多」的证明问题中,陶哲轩发现ChatGPT给出的答案并不是完全正确的。

从另一面看,他发现ChatGPT给出的论证思路是可以被固定下来的,并且这个思路他之前都从未见过。

复制、粘贴、一键完成!


挖掘GPT-4的用例,网友们也是花了不少功夫。

让GPT-4评审论文不仅合理,而且还能击中要点。

「作为一个学者,我不知道如何看待这个问题:我把我的一篇旧论文放到GPT-4中(分成两部分),要求一个经济社会学家进行严厉但公平的同行评审。」

它创造了一个完全合理的同行评审,踩中了我的评审员提出的许多要点。

对许多人来讲,想要做什么,直接问GPT-4,「复制、粘贴、一键完成!」

就比如用GPT-4做一个复杂的游戏。

网友把GPT-4、Replit、MidJourney、Claude组建成一个人工智能助手团队,从头开始创建了一个3D太空跑酷游戏。

然鹅,自己竟对Javascript或3D游戏编程一无所知。



参考资料:

https://mathstodon.xyz/@tao

相关文章
|
4月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
71 2
|
5月前
|
人工智能 算法
国内AI大模型高考数学成绩超GPT-4o
【7月更文挑战第13天】国内AI大模型高考数学成绩超GPT-4o
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
专攻数学的Prompt:使GPT-3解数学题准确率升至92.5%
专攻数学的Prompt:使GPT-3解数学题准确率升至92.5%
191 0
|
Web App开发 监控 安全
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
115 0
|
机器学习/深度学习 人工智能 测试技术
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题
|
机器学习/深度学习 数据采集 人工智能
OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度
OpenAI要为GPT-4解决数学问题了:奖励模型指错,解题水平达到新高度
183 0
|
存储 人工智能 自然语言处理
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
314 0
|
机器学习/深度学习 PHP
GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升(1)
GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升
249 0
|
自然语言处理 测试技术 API
GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升(2)
GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升
299 0
|
自然语言处理
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
用自洽性提升大模型推理能力,谷歌解答基准中75%数学问题,比GPT-3提升20%
278 0

热门文章

最新文章