鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值

简介: 鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值


连三位数的混合运算都算不明白,ChatGPT 对数学家来说有用吗?

ChatGPT 不擅长数学,这是大家刚开始测试时就发现的问题。比如你问它一个「鸡兔同笼」问题,它可能写出一个看上去非常有条理的解题过程,但仔细一看,答案却是错的。


为了解决这个问题,OpenAI 也做了一些优化,并在今年 1 月末宣布 ChatGPT 数学能力升级。但从测试的结果来看,这次升级效果并不明显。


但这么一个连三位数混合运算都算不明白的工具却吸引了著名数学家陶哲轩的注意。最近一段时间,他似乎一直在探索 ChatGPT 能帮数学研究者做些什么。


通常来讲,如果你经常阅读数学文本,你会很容易找到一些线索,这些线索可以帮你评估某个特定论证部分的有效性、深度和重要性。这会加快你的阅读速度,让你可以迅速分离出论文的「肉」。陶哲轩总结说。


但 AI 生成的数学文本给了他截然不同的阅读体验:文本乍一看很有说服力,但只有慢慢地逐行阅读才能发现其中的缺陷。


在一次测试中,它向 ChatGPT 提了一个数学问题。乍一看,答案惊人地准确,因为它提到了一个高度相关的术语,还讨论了一个例子,这在一个有意义的答案中是非常典型的。但其实,ChatGPT 给出的答案并不完全正确:公式是对的,但不是有用的定义,例子也是错的。


在另一个关于「素数是否无穷多」的证明问题中,ChatGPT 给出的答案也并不完全正确。


虽然测试结果不太令人满意,但陶哲轩并没有对 ChatGPT 持完全否定的态度。他认为,像 ChatGPT 这类大型语言模型在数学中可以用来做一些半成品的语义搜索工作,也就是用它来生成一些提示。



比如在下面这个例子中,陶哲轩提出的问题是:「我在寻找一个关于 xx 的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?」在这轮问答中,虽然 ChatGPT 没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre 公式),我们可以结合传统搜索引擎轻松找到正确答案。


从这些测试中,我们可以看到 ChatGPT 这类 AI 工具与传统计算机软件的区别。


传统的计算机软件类似于函数𝑓:𝑋→𝑌:给定域𝑋中的输入𝑥,它可靠地返回范围𝑌中的单个输出𝑓(𝑥),该输出以确定的方式依赖于𝑥。但如果给定域外的输入(比如大括号用错,或者出现其他格式问题),则软件会出现无法定义的情况,或给出无意义的内容。


相比之下,AI 工具类似于概率 kernel μ:𝑋→Pr (𝑌),而不是经典函数。输入𝑥,它们会给出一个从概率分布 μ_ₓ采样的随机输出。这个概率分布在𝑓(𝑥) 的完美结果附近,但带有一些随机偏差和不准确性。但优势在于,这些工具可以比传统的软件工具更优雅地处理嘈杂或格式不那么规范的输入𝑥。


因此,想用 ChatGPT 辅助自己做研究的数学研究者务必要习惯这种差异。


当然,在数学方向上,ChatGPT 当前的状态可能不会持续太久。


前段时间,计算机科学家、Wolfram 语言之父 Stephen Wolfram 提出了一个想法:将 ChatGPT 与自己的 Wolfram | Alpha 知识引擎结合起来用,因为后者本就具有强大的结构化计算能力,而且也能理解自然语言(参见《理工科神器 Wolfram|Alpha 注入超强计算知识,补足 ChatGPT 短板》)。


Meta 在 2 月份发布的一篇论文也支持这种做法。他们提出了一种名为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具,如搜索引擎、计算器或日历(参见《语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer》)。


在未来几年,如何补齐 ChatGPT 的各项短板将成为非常热门的方向。


参考链接:https://mathstodon.xyz/@tao



相关文章
ChatGPT时代,什么知识最有价值?
ChatGPT时代,什么知识最有价值?
106 0
|
机器学习/深度学习 人工智能 算法
《花雕学AI》27:如何在ChatGPT时代提高数字媒体艺术的原创性和价值?
ChatGPT的出现对数字媒体艺术产生了巨大的影响和挑战,既给数字媒体艺术带来了新的机遇和可能性,也对数字媒体艺术的原创性和价值提出了新的要求和考验。那么,在ChatGPT时代,我们如何提高数字媒体艺术的原创性和价值呢?这是本文将要探讨的问题。
174 0
|
人工智能 分布式计算 自然语言处理
|
6月前
|
人工智能 IDE Linux
chatgpt的ai编程工具
该内容是关于两个chatgpt的ai编程工具的安装和使用说明。Copilot的下载步骤包括在IDE的设置中搜索并安装插件,然后重启IDE并登录GitHub账户。使用时,通过写注释触发建议,用快捷键选择建议。启用或禁用Copilot可通过底部状态图标。另一个工具是Alibaba Cloud AI Coding Assistant (Cosy),同样在IDE的插件市场下载安装后重启。其详细使用方法建议参考官网。
299 0
|
3月前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
106 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
HuggingGPT是一个框架,它使用大型语言模型(如ChatGPT)作为控制器来管理和协调Hugging Face上的AI模型,以语言作为通用接口解决多模态和领域的复杂AI任务。
56 0
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
|
3月前
|
机器学习/深度学习 人工智能 算法
为什么ChatGPT等AI大模型都是基于Python开发?
为什么ChatGPT等AI大模型都是基于Python开发?
|
3月前
|
人工智能 自然语言处理 Linux
免费ChatGPT4o灵办AI可体验浏览器插件
灵办AI就是您所需的最佳助手!我们为您带来了一款多功能AI工具,ChatGPT4o不仅能为您提供精准翻译,还能满足您的对话需求、智能续写、AI搜索、文档阅读、代码生成与修正等多种需求。灵办 AI,真正让工作和学习变得轻松高效!一款多功能智能助手,旨在提升工作和学习效率。它提供实时翻译、对话问答、搜索、写作和网页阅读等服务,支持多种浏览器和操作系统,帮助用户随时获取信息,打破语言障碍,优化内容创作和信息处理。
114 0
|
3月前
|
Web App开发 人工智能 安全
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
|
3月前
|
人工智能 安全 机器人
ChatGPT 1岁:创新、争议和AI产生突破的一年
ChatGPT 1岁:创新、争议和AI产生突破的一年