欢迎收听阿里云【AI访谈录】
本期栏目邀请到97年出生的AI创业者、批改邦创始人王庆棒。他带领团队在2023年上线教师AI工具“批改邦”,以作文批改场景切入教育行业,产品推出一年用户突破30万,付费转化率超过30%,实现了盈利。
本期嘉宾将围绕“如何通过AI技术做出教育场景下的教学助手?”、“怎么用大模型把作文这个‘主观评价’标准化、结构化?”、“‘杀手级AI应用’什么时候会出现?形态会是什么样的?”等话题,分享他在AI应用落地中的一线经验。
时间轴Timeline
05:43
作文是AI大模型最能解决的一个场景
14:10
怎么通过AI大模型判断作文写得好不好
22:08
AI加协同批改是老师们最喜欢的功能
29:29
模型是否可以商用是有一根线的
33:58
作为AI创业者最希望优化哪部分成本
36:04
未来“杀手级AI应用”应该是润物细无声的
以下为对话内容精选,经整理略有删减。
01教育领域是大模型最适合的落地场景之一
栏目组:能先介绍一下您自己,以及批改邦是怎么开始的吗?
王庆棒:我是王庆棒,山东人,批改邦的创始人。我们核心团队来自国家工程实验室,过去参与过很多AI领域的课题,也积累了自然语言处理和视觉方向的技术与工程经验。
做批改邦的起点,是在一次团队新疆参与教育扶贫工作的期间,我们深刻体会到教育资源的稀缺性。
以作文教学为例,一个老师要负责几个班级的批改,一个班级通常有30-50名学生,面对孩子们对优质批改服务的迫切期待,老师往往心有余而力不足。
正是基于这样的现实困境,我们团队萌生了借助AI 技术解决问题的想法。我们希望开发一款专业、全面的作文批改工具,为老师提供高效、便捷的批改支持,从而实现“多快好省”的教学目标。于是,批改邦应运而生。
栏目组:你们为什么选择作文这个场景,而不是其他的学科或者其他的场景?
王庆棒:我们的方法论是倒推,三步筛选。
- 第一,我们先寻求哪些场景是老师最费时费力,学生可能还没有办法获得一个好的反馈体验的。
- 第二,我们还要看哪些是AI的能力边界能解决的。作文恰恰就是最适合大模型落地的一个场景之一。
- 第三,根据我们的市场调研结果,看用户呼声,老师们最常提的就是作文太难改。
这三层漏斗叠加下来,其实我们得出这个答案是一个比较自然而然的了。我们发现原来作文在现在的这个教育场景当中,它是AI大模型最擅长解决的一个场景。第二个它能帮助老师节约大量的时间,提高大量的效率。第三个就是老师们对于作文的呼声是非常高的。其实这三者都是有一个呼应的在里面的。
02我们完整模拟了老师现实中的作文教学流程
栏目组:能具体介绍一下你们的产品流程吗?老师是怎么用的?
王庆棒:好的,其实我们在设计产品的时候,是完整模拟了老师现实中的作文教学流程。
老师批改一篇作文,通常要经历好几个环节:布置作文、设定写作和批改要求、收作业、逐篇批改、写总评,最后再反馈给学生。整个过程又长又耗神,尤其面对一个班几十份作文,效率很难提上去。
批改邦做的,就是用AI把这套流程自动化地跑一遍。老师在平台上发布作文题目时,可以输入个性化的写作和批改要求。学生写完后,老师通过拍照或扫描上传,系统就会根据老师的标准,对每篇作文做原图标注、错别字语法检查、个性化点评和总评,并且是逐篇生成。
这些内容不是模板式的,而是根据每位老师的设置的批改要求自动生成,现在5分钟就能让AI先改完两个班的作文。
这时候老师就会进入我们的协同批改界面,像助理把初步工作做完后,老师来“过一遍”:逐篇浏览AI批改结果,看看有没有不准确的地方,或是自己想补充的一句话、某个细节。整个过程大概也就10-15分钟。
最后老师可以一键导出Word版批改报告,里面包含学生原文、AI旁批、错别字标注、润色建议和总评。
学生拿到的是一份既有指出问题,也有修改建议的完整反馈,甚至可以对照句子看看“这句话如果这样改,会更好”。
不像其他“黑盒”工具,我们的产品让老师全流程可见、可改、可控。
栏目组:对于满足老师的个性化需求,有没有一个具体的例子?
王庆棒:老师的每一次作文都是会有教学任务要求的,比如说低年级的学生,老师可能会更希望在作文中多用比喻等修辞说法。
有一个具体的例子。有一次老师布置了一个“运动健儿”的主题,要求是希望结尾有一个精神升华。那么我们就会通过AI判别出来结尾有没有这样一个内容的体现。
还有一次,老师的作文要求是描述一个具体景点,但学生可能写的是自己家的后花园,这种情况下AI就需要判断出来这属于跑题。
这些都不是通用规则,而是老师自己设定的批改标准。我们系统支持老师个性化录入这些要求,由AI进行有针对性的点评。
栏目组:很多人会觉得作文的好与不好是比较感性的一种判断——怎么写算好?怎么打分才算公平?你们是怎么用AI或大模型把这个“主观评价”标准化、结构化的呢?
王庆棒:这个问题其实就像中高考作文批改一样,看起来主观,其实是有一套结构化评判体系的。
首先我们会处理一些通用标准,比如有没有错别字、语法问题,字迹是否潦草、字数够不够、有没有跑题等等。这一部分可以快速筛出不合格的作文,比如满分20分的作文,字数不够、偏题严重,就不太可能超过10分。
接下来,重点就是根据老师的个性化批改要求进行内容层面的判断。老师会在系统里用描述性的方式录入要求,比如“有没有引用恰当的例子”“是否用了合理的修辞”“文章结尾有没有情感升华”等。
我们的工作,就是把这些相对模糊的描述结构化提取出来,再结合大模型能力,对作文逐项评判,做到“既懂规则,也能理解老师的意图”。
可以理解为:先做一轮基础筛查,再根据老师定制的标准一点点查漏补缺,最后完成一份符合老师口味的批改和评分。
所以说,我们不是让AI代替老师判断,而是帮老师把“主观要求”转化成大模型能理解的结构化标准,让AI去协助执行。
03大模型为主,小模型和规则辅助
栏目组:从技术实现的角度来说,你们是主要依赖大模型的微调来完成这些任务,还是也会配合一些自研的小模型或规则体系来实现整个“理解—评判—批改”的过程?
王庆棒:大模型为主,小模型和规则辅助。老师的教学需求是非常复杂的,如果只依靠一个AI大模型,往往是满足不了老师的所有教学需求的。
举个例子,有些作文题目是半命题,比如“我参观了___”。这类题对格式有明确要求,如果学生写的标题是“我的假期”,即便内容不错,也不符合题意。这时候就需要设定一个规则逻辑,让系统去校验“标题是否合规”。
再比如,有些学生的字迹特别潦草。我们就会通过自研的小模型,结合上下文去判断学生写的是什么字,再让大模型做更精确的批改。这其实是一个辅助识别+智能理解的配合过程。
栏目组:你们目前用的是阿里云的哪一款模型?
王庆棒:我们使用的是Qwen-Plus,原因很简单:效果均衡,成本友好,速度稳定,符合商用场景要求。
现在我们高峰期一天Token调用可以达到20-30亿,成本是不得不考虑的事。此外,我们也会使用通义的多模态模型做视觉理解、图片配合场景的教学工具等。
我们现在基本上都是依托阿里云的云服务器和各类云资源来支撑业务的。对我们来说,有一个很实际的特点——我们的业务具有明显的周期性,比如在学校考试、集中批改作业的时间段,系统负载就会上来;但寒暑假又会明显的淡季。
栏目组:作为AI创业者,在使用云服务方面你有什么观察?
王庆棒:一方面,AI让产品出现了新的形态;另一方面,用户对AI的期待也在不断升级。那我们作为产品方,技术架构和后端资源的匹配就必须同步调整。这个过程其实就是——AI带来的变化会“倒逼”技术和云基础设施跟上来。未来上云一定是越来越多的。
一个有趣的现象是,现在我们成本消耗最大的不是模型,而是对象存储和流量这类传统云产品。目前传统云产品的成本跟大模型API的成本大概在6:4。
每一次AI调用,都每次都需要处理学生上传的图文信息,这就意味着要消耗其他云资源。现在很多人担心模型太贵,其实云厂商像阿里云给了我们很大支持,把Token的价格打下来了。
04未来不是全科覆盖,而是陪AI一起成长
栏目组:批改邦接下来还有哪些规划?未来的产品方向会怎么演进?会扩展到更多的教学场景吗?
王庆棒:对的,我们的目标一直不是只做一个“作文批改工具”,而是希望给老师提供一整套简单好用的教学助手。
目前除了作文批改,我们也在拓展到更多场景,比如字词批改、听写默写、看拼音写词语、课文填空等等。这些其实都是老师日常教学中非常高频、但又很耗时间的工作。
可以说,我们会陪AI一起成长。早期大模型可能只能胜任部分写作批改任务,但现在随着能力增强,我们会不断发现:“原来这块也能做了”、“这类任务模型也能识别、处理了”。
所以我们不是一下子就设定要覆盖所有学科或所有场景,而是在不断试水、验证和生长的过程中,逐步拓展产品边界。
未来,我们会继续围绕“老师的真实教学需求”出发,借助AI不断解锁新的场景,为老师们提供更好用的工具。
栏目组:你怎么看AI教育行业的落地趋势?你看好哪些场景?
王庆棒:有两个关键词:主观题场景和个性化教学。
大模型让过去难以结构化、难以标准化的主观题教学变得可行,同时又具备了因材施教的能力。每位学生、每篇作文,AI都能给出定制反馈。
同时,AI具备“创造力”能力,可以帮助老师生成教案、设计课堂、出题讲题——让老师的创意不会枯竭。
栏目组:最后一个问题,作为一个AI创业者,您觉得“杀手级”AI应用什么时候会出现?形态会是什么样的?
王庆棒:我其实不太想去给AI的未来下一个特别宏大的判断,但可以从我们团队自己的使用感受出发,谈一点观察。
这两年,AI已经悄悄地改变了我们很多内部的工作方式。我们自己在写代码、作图、运营、内容生产等各个环节,其实都在用AI,甚至很多时候都默认会用上。
所以你会发现,AI的融入是“润物细无声”的,不是以特别激烈的方式发生的,但它确实已经在改变我们团队的工作流了。
如果说未来会出现“杀手级的AI应用”,我个人的判断是——它可能不会看起来很惊艳,但一定会非常普遍,就像我们今天用搜索、用扫码支付一样自然。你不会刻意去提它,但它无处不在、随时可用。
AI的发展可能也不会是某一年突然爆发,而是像现在这样逐步渗透。你看现在我们写文案、做PPT、拍照、用App,甚至看到广告推荐,AI已经无声地嵌入了我们每一个日常环节。
所以我不太相信某个“单点爆发”的时刻,更倾向于认为:AI真正的未来,是形成一个生态,一个像移动互联网那样,支撑无数应用的生态系统。那时候我们可能不会再说“这是AI产品”,而是默认每个产品都“有AI”。AI无处不在。
来源 | 阿里云公众号