鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值

简介: 鸡兔同笼都能算错的ChatGPT,陶哲轩发现了它的价值


连三位数的混合运算都算不明白,ChatGPT 对数学家来说有用吗?

ChatGPT 不擅长数学,这是大家刚开始测试时就发现的问题。比如你问它一个「鸡兔同笼」问题,它可能写出一个看上去非常有条理的解题过程,但仔细一看,答案却是错的。


为了解决这个问题,OpenAI 也做了一些优化,并在今年 1 月末宣布 ChatGPT 数学能力升级。但从测试的结果来看,这次升级效果并不明显。


但这么一个连三位数混合运算都算不明白的工具却吸引了著名数学家陶哲轩的注意。最近一段时间,他似乎一直在探索 ChatGPT 能帮数学研究者做些什么。


通常来讲,如果你经常阅读数学文本,你会很容易找到一些线索,这些线索可以帮你评估某个特定论证部分的有效性、深度和重要性。这会加快你的阅读速度,让你可以迅速分离出论文的「肉」。陶哲轩总结说。


但 AI 生成的数学文本给了他截然不同的阅读体验:文本乍一看很有说服力,但只有慢慢地逐行阅读才能发现其中的缺陷。


在一次测试中,它向 ChatGPT 提了一个数学问题。乍一看,答案惊人地准确,因为它提到了一个高度相关的术语,还讨论了一个例子,这在一个有意义的答案中是非常典型的。但其实,ChatGPT 给出的答案并不完全正确:公式是对的,但不是有用的定义,例子也是错的。


在另一个关于「素数是否无穷多」的证明问题中,ChatGPT 给出的答案也并不完全正确。


虽然测试结果不太令人满意,但陶哲轩并没有对 ChatGPT 持完全否定的态度。他认为,像 ChatGPT 这类大型语言模型在数学中可以用来做一些半成品的语义搜索工作,也就是用它来生成一些提示。



比如在下面这个例子中,陶哲轩提出的问题是:「我在寻找一个关于 xx 的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?」在这轮问答中,虽然 ChatGPT 没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre 公式),我们可以结合传统搜索引擎轻松找到正确答案。


从这些测试中,我们可以看到 ChatGPT 这类 AI 工具与传统计算机软件的区别。


传统的计算机软件类似于函数𝑓:𝑋→𝑌:给定域𝑋中的输入𝑥,它可靠地返回范围𝑌中的单个输出𝑓(𝑥),该输出以确定的方式依赖于𝑥。但如果给定域外的输入(比如大括号用错,或者出现其他格式问题),则软件会出现无法定义的情况,或给出无意义的内容。


相比之下,AI 工具类似于概率 kernel μ:𝑋→Pr (𝑌),而不是经典函数。输入𝑥,它们会给出一个从概率分布 μ_ₓ采样的随机输出。这个概率分布在𝑓(𝑥) 的完美结果附近,但带有一些随机偏差和不准确性。但优势在于,这些工具可以比传统的软件工具更优雅地处理嘈杂或格式不那么规范的输入𝑥。


因此,想用 ChatGPT 辅助自己做研究的数学研究者务必要习惯这种差异。


当然,在数学方向上,ChatGPT 当前的状态可能不会持续太久。


前段时间,计算机科学家、Wolfram 语言之父 Stephen Wolfram 提出了一个想法:将 ChatGPT 与自己的 Wolfram | Alpha 知识引擎结合起来用,因为后者本就具有强大的结构化计算能力,而且也能理解自然语言(参见《理工科神器 Wolfram|Alpha 注入超强计算知识,补足 ChatGPT 短板》)。


Meta 在 2 月份发布的一篇论文也支持这种做法。他们提出了一种名为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具,如搜索引擎、计算器或日历(参见《语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer》)。


在未来几年,如何补齐 ChatGPT 的各项短板将成为非常热门的方向。


参考链接:https://mathstodon.xyz/@tao



相关文章
ChatGPT时代,什么知识最有价值?
ChatGPT时代,什么知识最有价值?
122 0
|
机器学习/深度学习 人工智能 算法
《花雕学AI》27:如何在ChatGPT时代提高数字媒体艺术的原创性和价值?
ChatGPT的出现对数字媒体艺术产生了巨大的影响和挑战,既给数字媒体艺术带来了新的机遇和可能性,也对数字媒体艺术的原创性和价值提出了新的要求和考验。那么,在ChatGPT时代,我们如何提高数字媒体艺术的原创性和价值呢?这是本文将要探讨的问题。
211 0
|
人工智能 分布式计算 自然语言处理
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
169 101
|
4天前
|
存储 人工智能 API
ChatGPT-on-WeChat:Star32.4k, DeepSeek加持!这款开源神器秒变AI助手,聊天体验直接起飞!
嗨,大家好,我是小华同学。今天为大家介绍一款结合DeepSeek引擎的开源项目——ChatGPT-on-WeChat,由开发者zhayujie打造。它将微信变成智能AI助手,支持文本、图片、语音对话,具备定时提醒、天气查询等扩展功能,完全开源且易于定制。项目地址:https://github.com/zhayujie/chatgpt-on-wechat。关注我们,获取更多优质开源项目和高效学习方法。
93 11
|
6天前
|
人工智能 自然语言处理 算法
DeepSeek vs ChatGPT:AI对决中的赢家是……人类吗?
DeepSeek VS ChatGPT:DeepSeek以开源黑马姿态崛起,凭借低成本、高性能的「DeepSeek-V3」和专为深度推理设计的「DeepSeek-R1」,成为中小开发者的首选。而ChatGPT则较贵。 然而,AI依赖也带来隐忧,长期使用可能导致记忆衰退和“脑雾”现象。为此,推荐Neuriva解决方案,专注力提升30%,记忆留存率提升2.1倍,助力人类在AI时代保持脑力巅峰。 DeepSeek赢在技术普惠,ChatGPT胜于生态构建,人类的关键在于平衡AI与脑力健康,实现“双核驱动”突破极限!
133 7
|
2月前
|
人工智能 搜索推荐 iOS开发
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
|
6月前
|
人工智能 自然语言处理 搜索推荐
chatgpt这么火,现在AI搜索引擎有哪些呢?
国外AI搜索引擎包括ChatGPT,擅长自然语言处理与内容生成;Google Bard,提供智能个性化搜索体验;Microsoft Bing集成GPT模型增强智能检索;Perplexity AI以简洁答案及文献引用著称;Neeva强调隐私保护与无广告服务。国内方面,天工AI支持多种功能如知识问答与代码编程;腾讯元宝基于混元模型助力内容创造与学习;360AI搜索以精准全面的信息搜索见长;秘塔AI专注提升写作质量和效率;开搜AI搜索提供个性化智能搜索服务。以上引擎均利用先进AI技术提升用户体验。更多详情参阅[AI搜索合集](zhangfeidezhu.com/?page_id=651)。
183 8
chatgpt这么火,现在AI搜索引擎有哪些呢?
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
HuggingGPT是一个框架,它使用大型语言模型(如ChatGPT)作为控制器来管理和协调Hugging Face上的AI模型,以语言作为通用接口解决多模态和领域的复杂AI任务。
120 0
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
|
6月前
|
机器学习/深度学习 人工智能 算法
为什么ChatGPT等AI大模型都是基于Python开发?
为什么ChatGPT等AI大模型都是基于Python开发?
145 0