解决通用LLM「偏科」问题,数学大模型MathGPT要来了!

简介: 解决通用LLM「偏科」问题,数学大模型MathGPT要来了!


作者:蛋酱

数学大模型 MathGPT,专治大语言模型的「偏科」问题。


不做通用 LLM,不基于现有 LLM 做微调和接口调用,学而思自研的数学大模型 MathGPT 要来了。


这对于全世界的数学爱好者来说,都是个值得关注的好消息。


MathGPT 是面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心的大模型。据了解,学而思已将 MathGPT 定位为公司核心项目,由 CTO 田密负责,今年春节前,研发正在进行中,该项目已经启动相应的团队建设、数据、算力准备和技术研发。


进度方面,团队目前已经取得阶段性成果,今年内将推出基于该自研大模型的产品级应用。


此外,学而思已经启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优秀的人工智能专家加入。


大语言模型「偏科」,怎么解?


打造 MathGPT,可以比作「一项绕开大语言模型(LLM)能力短板的工程」。


OpenAI 在今年三月份发布了大语言模型 GPT-4,国内百度、阿里也发布了各自的大模型产品,这些大语言模型在语言翻译、摘要、理解和生成等任务上有出色表现。

但通用语言模型看上去更像一个「文科生」,目前已有的产品在数学问题的解决、讲解、问答和推荐方面还存在明显不足,即使是最先进的大语言模型也难以正确地回答大量数学问题。


一个非常生动的例子是,在 ChatGPT 刚发布之后的测试中,它被问到一个经典「鸡兔同笼」问题(如下图)。ChatGPT 写出的解题过程看上去非常有条理,但仔细一看 —— 答案却是错的?


有点「一本正经胡说八道」的意思。


计算机显然比人类更擅长具体的数学计算,但远没有透彻掌握「推理」这件事。在 AI 语言模型的「脑回路」中,复杂的数学方程式可能被视为了一种语言,而解决方案更像是「翻译问题」。


但「推理问题」恰恰需要许多其他类型问题不涉及的鲁棒性和严谨性。即使过程中的某一步出了一点差错,最终整个答案都将是错误的。尽管模型在更大的数据样本上训练之后往往会变得更加鲁棒并减少错误,但在推理这件事上,模型规模的扩展似乎不那么奏效。


而且,对于有些数学问题,虽然模型能够解决,但方法更偏成年人,无法针对适龄孩子的知识结构和认知水平做适配。


这让研究人员们意识到,训练语言模型解决数学问题和阐述思路似乎需要更有针对性的「定向训练」方法。


「这种不足是由 LLM 模型的自身特点决定的。」学而思 AI 团队负责人介绍,LLM 大模型来自对海量语言文本的训练,因此最擅长语言处理。行业内偏向基于 LLM 大模型做阅读、写作类应用,但如果想要在数学能力上有突破,就需要研发新的大模型。


正因此,学而思决心组建团队专研 MathGPT—— 数学领域大模型,用自己在数学和 AI 上的多年积累,面向全球范围内的数学爱好者和科研机构,做好 AI 大模型时代的数学基础工作。


总体来说,学而思希望通过 MathGPT 弥补和攻克大语言模型的三个问题:


  • 第一,题目要解对,现在 GPT 结果经常出现错误;
  • 第二,解题步骤要稳定、清晰,现在 GPT 的解题步骤每次都不一样,而且生成内容经常很冗余;
  • 第三,解题要讲的有趣、个性化,现在 GPT 的解释过于「学术」和机械,对孩子的学习体验很不友好。


学而思 AI 团队表示,由于大语言模型的推理与计算能力有限,因此 MathGPT 需要结合大语言模型和计算引擎两者的能力,大语言模型需要理解题目、分步解析,并在合适的步骤自行调用计算引擎。


做 MathGPT,学而思有哪些技术储备?


当然,自研数学大模型不能只是一句口号,算法、算力、数据的技术储备缺一不可。对此,学而思也有自身的底气。


「以数学起家」,学而思至今已有 20 年的数学教学经验,积累了庞大的数学相关数据,这些数据为训练 MathGPT 提供了丰富的物料。另外,学而思的海外业务 Think Academy 在全球若干国家和地区深受数学爱好者喜欢,学而思的学生在每年的 IMO 和 AMC 等国际数学竞赛中表现优异,每年都有多位学生在国际奥林匹克数学竞赛中拿到金牌。


作为获国家科技部批准的「智慧教育国家新一代人工智能开放创新平台」建设单位,也是教育行业首批唯一一家人工智能「国家队」成员,学而思在人工智能领域有着多年的深入研究。早在 2017 年,学而思便成立了 AI lab 人工智能实验室。


这些年,在海内外的多个顶级学术会议赛事中,人们都能看到学而思 AI lab 的活跃身影。基于智慧教育人工智能开放创新平台助力,学而思 AI lab 目前已获得各类顶级学术会议比赛冠军 16 项,亚军 6 项。


学而思 AI lab 在各类顶级学术会议比赛获奖情况。


在研究成果上,学而思 AI lab 在计算机视觉顶会以及自然语言顶会中均有多篇论文发表,共有国际期刊和会议高水平学术论文 31 篇,包含光学字符识别、图像、自然语言处理、语音以及多模态等多领域的学术研究。此外已申请专利 220 余项,授权专利 150 余项,软件著作权 60 余项。


「在 ChatGPT 出来之前,我们一直有团队在做自动解题这件事,几年下来已有一些积累,例如已经可以解大多数的计算题和部分应用题了。」在大语言模型火热以后,学而思 AI 团队发现,可以利用大模型提升对常识和题目文本的泛化理解能力。大模型的思维链可以增强对题目的分步推导和互动解答能力,再加上大模型和计算引擎的结合,解题的准确率和召回率可能会有较大提升。


这些技术成果的沉淀,我们也能在学而思已有的落地产品中窥见一二。


今年 2 月,「学而思学习机」上线了基于好未来自研 AI 技术的 AI 讲题机器人「小 π」。小 π 相关技术在 2020 年启动研发,以学而思超 3 亿的专业题库数据作为基础,主打数学等领域的 AI 智能讲题能力,核心优势在于数理逻辑和运算。


面对一道手写或者印刷的数学计算题时,小 π 不仅会对题目进行智能 AI 拆解分析,还能生成逻辑流畅、表达清晰的语言,将题目的解题方法讲解出来。有时,小 π 还会传授一些分数、小数等复杂计算甚至「凑数、组合」的巧妙算法。


在 ChatGPT 相关技术的启发下,学而思希望进一步实现学习机等产品的升级迭代,预期将在题目覆盖率、人机互动性、题目讲解生动性等方面实现大幅提升。比如,学而思学习机还将在不久后上线「AI 助手」。「AI 助手」涵盖作文助手、口语助手、阅读助手、数学助手等相关功能,计划于 5 月 11 日开启内测。


不止于「解题」的探索之路


如何利用大语言模型服务各行各业是当下社会的焦点问题。很多行业都可以直接与 OpenAI 合作,在 GPT 大模型上做微调和接口调用,增强原有的产品体验。


但像数学、医学等领域,对 AI 的需求是准确、清晰、具备强大的逻辑推理能力,且容错率低,通用 LLM 目前的性能表现还无法在上述领域取得突破。


具体到数学领域,目前市场上存在几个主要流派:


一种是利用非 LLM 的传统 AI 技术加上数据库的方式解决数学问题,比如 Google 收购的 Photomath、微软数学、Mathway、专注数学计算的 WolframAlpha 等产品。

还有一种是 AGI 路线,即尝试让通用 LLM「更懂数学」,比如谷歌旗下的 Minerva 模型专门针对数学问题进行调优。此前,用户测试发现 GPT-4 在数学任务上相比其 3.5 版本有了明显的性能提升。尽管这种变化让人一度雀跃,但本质上只是模型接受了更多数据的训练 ——GPT-4 仍然不能保证计算结果的准确或给出清晰易懂的推理过程。


值得注意的是,学而思选择了另一条少有人走的路:不基于现有 LLM 做微调和接口调用、不做通用 LLM,而是自研基于专业领域的「数学大模型」MathGPT,致力于打造自主、稳定、可持续、高质量的学习解决方案。


在大语言模型不断进化的浪潮下,不同流派的技术路线选择孰优孰劣,仍有待讨论和验证。MathGPT 的表现如何,也将成为今年内人们非常关注的大事件之一。


至于未来应用,不难想象,MathGPT 最直接的落地方式之一就是成为 24 小时在线的「AI 教师」。学而思表示,初代版本的 MathGPT 将可以在教研助手、个性化学情分析、课后答疑、组卷助手等几个方面,辅助人类教师工作。从技术和产品的设计上,MathGPT 也会考虑到用户使用场景,通过有监督微调和强化学习的方式,不断改进性能,迭代版本。


再看长远一点,数学是很多应用问题的基础,也是众多科学问题的基础。如果一个大模型擅长于解决数学问题,那么它就有潜力去解决许多其他有用的问题,比如模拟行星轨道、原子运动、信号频率、蛋白质折叠等。


这些未来的探索,既取决于即将到来的 MathGPT,也和一方应用的进化、成熟度相关,更取决于各行各业的开发者如何运用好 MathGPT。


相关文章
|
1月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
322 2
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
近年来,大型语言模型(LLMs)在自然语言处理领域取得显著进展,研究人员开始探索将其应用于时间序列预测。Jin等人提出了LLM-Mixer框架,通过多尺度时间序列分解和预训练的LLMs,有效捕捉时间序列数据中的短期波动和长期趋势,提高了预测精度。实验结果显示,LLM-Mixer在多个基准数据集上优于现有方法,展示了其在时间序列预测任务中的巨大潜力。
66 3
LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第17天】近日,谷歌、DeepMind等四大机构联合发布论文,展示大型语言模型(LLMs)在数学问题解决上的显著进步。通过引入元认知知识,研究人员开发了提示引导的交互程序,使LLMs能为数学问题分配合理技能标签并进行语义聚类。实验结果显示,GPT-4在GSM8K和MATH数据集上的准确性分别提升了11.6%和7.52%,展现出巨大潜力。这一成果不仅为AI领域提供了新思路,也为数学教育带来了启示。
35 4
|
1月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
64 2
|
1月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
38 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
15天前
|
自然语言处理 开发者
多模态大模型LLM、MLLM性能评估方法
针对多模态大模型(LLM)和多语言大模型(MLLM)的性能评估,本文介绍了多种关键方法和标准,包括模态融合率(MIR)、多模态大语言模型综合评估基准(MME)、CheckList评估方法、多模态增益(MG)和多模态泄露(ML),以及LLaVA Bench。这些方法为评估模型的多模态和多语言能力提供了全面的框架,有助于研究者和开发者优化和改进模型。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型强崩溃!Meta新作:合成数据有剧毒,1%即成LLM杀手
在人工智能领域,大型语言模型(LLMs)的快速发展令人瞩目,但递归生成数据可能导致“模型崩溃”。Meta的研究揭示,模型在训练过程中会逐渐遗忘低概率事件,导致数据分布偏差。即使少量合成数据(如1%)也会显著影响模型性能,最终导致崩溃。研究强调保留原始数据的重要性,并提出社区合作和技术手段来区分合成数据和真实数据。论文地址:https://www.nature.com/articles/s41586-024-07566-y
41 2
|
19天前
|
人工智能 自然语言处理 算法
政务培训|LLM大模型在政府/公共卫生系统的应用
本课程是TsingtaoAI公司面向某卫生统计部门的政府职员设计的大模型技术应用课程,旨在系统讲解大语言模型(LLM)的前沿应用及其在政府业务中的实践落地。课程涵盖从LLM基础知识到智能化办公、数据处理、报告生成、智能问答系统构建等多个模块,全面解析大模型在卫生统计数据分析、报告撰写和决策支持等环节中的赋能价值。
44 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第16天】最新研究显示,大型语言模型(LLMs)在数学问题解决上取得显著进展。谷歌、DeepMind等机构的研究人员通过引入元认知知识,使LLMs能更好地理解和解决数学问题,其在GSM8K和MATH数据集上的准确率分别提升了11.6%和7.52%。这一成果不仅为AI领域开辟了新路径,也为数学教育带来了新的可能性。
39 3

热门文章

最新文章

下一篇
无影云桌面