栗浩洋:很高兴能够在新智元的平台和大家交流AI+教育这个话题。AI现在基本是被图像识别和NLP垄断,但在2014年我们开始做这一行的时候,不但人工智能没有火,很多人还对我们提出了很大的质疑:人工智能是不是能够代替特级教师进行教课?还是只是作为一个辅助老师?乂学教育从创立开始就立志All-In地用人工智能教育系统代替老师。我们希望用AI颠覆这个一千年来没有改变的行业,能够代替资深的、几十年经验的高级教师甚至特级教师的工作,这个过程我也想和大家分享一下。
在中国1.6万亿的教育市场当中,K12业余补习有5000亿的规模,但是新东方和好未来都只占1.4%,前十名加起来还不到5%的份额。在这个市场里有4万+品牌、140多万家学校提供着质量非常参差不齐,甚至惨不忍睹的服务。为什么这个市场这么松散?核心的原因是优秀教师资源的稀缺性。为什么要砸700万元买一个学区房?就是因为真正名校的优秀老师是几乎被权势、资金和关系垄断的资源,以前是考得好就可以上名校,现在考得好都不行了,必须要有这个地方的房子。
如何用AI打破教育领域的垄断?这是我们在做的事情。乂学教育采用智适应的在线教育系统进行教学,这样的Adaptive Learning系统在美国已经应用到各种教学模式的几千个学校当中,证明了它的效果好于优秀老师的教学水平。
我们是中国第一家开始这样做的,去年10月份的时候有一场比较轰动性的,应该说是亚洲第一场的人机大战。大家听说过AI教育领域两场人机大战的其中一场是去年6月份学霸君的高考机器人和高考状元对战, 结果AI打败了高考状元,也是用NLP读题,通过读题匹配已有的题和答案。我们的难度可能要高十倍,因为我们面对的对手不是学生,而是十七年经验的高级教师。
大家都知道十五年以上的经验才有可能参评,一百个老师里面才能有一个能够评得上这个职称。我们通过二十个小时的教学,教学机器人组的学生成绩、提升分数要比对照组和高级教师组的高出九分。全程几十家媒体见证和公证,我们也是全程直播,包括艾瑞和我们从头到尾发布了联合报告,教育局是作为第三方的出题人和改卷人。应该说这在中国是标志性的事件,人工智能未来真的可能代替几百万老师的工作。
当时人民日报、CNBC和NHK都对我们进行了广泛报道,在说中国发生了这样一件大事。乂学教育的学术论文也被整个人工智能教育领域当中最顶级的三场大会一年之内先后引用,并且邀请我们去演讲。我们刚刚被邀请参加ACM举办的全球Adatpive Learning大会进行演讲。
人工智能教育的技术层面我们已经是中国遥遥领先,而且在全球也是顶级的。我们的原理是什么?如何用人工智能模拟一个特级教师,对学生进行一对一的教学呢?我们主要是通过四个逻辑:
就像Alpha-Go通过棋谱+机器学习来判断局势一样,我们是通过知识图谱和信息论精准定位每个学生的知识点。以前每个学生什么是没有清晰用户画像的,我们只知道是五十分的学生或者九十五分的学霸,但并不知道真正的知识地图的定位到底是怎样的,现在我们有了算法和技术解决这个问题。
我们要给不同的学生进行个性化推荐,就是我们讲了一千年的因材施教。现在的课堂当中仍旧没有办法进行因材施教,不管是五十分的孩子还是九十分的孩子,全部都要听老师按照一个速度进行教学,这种千人一面的教育就像过去腾讯新闻和新浪新闻一样,如果我们想要像今日头条那样千人千面地进行分发,需要通过机器学习,包括采用遗传算法把学生的知识点相吻合的题目和内容,不断地、越来越精准地推给学生,达到最高效的学习效果。
当然,我们还有更多的技术能够带来对过去传统教育的颠覆,包括追根溯源,比如一个学生的知识有了问题,只有一个名师不断地反问和挖掘才能知道到底是哪里不会或者根子上有什么问题,现在我们要通过系统解决这个问题,找到这个学生学习的问题根源到底在哪里。
最后的战略放弃也特别有趣,这是传统教育当中完全没有的,也是我们和AlphaGo最像的地方。我们在教学的过程当中不是一定要教完并且教会,在教学的过程中我们要放弃很多知识点。公立学校的初二数学或者初三物理的老师,不会只教部分知识点,而在我们这里,如果我们觉得这个知识点教学的效率特别低,考试当中出现的分数和概率也不高,学习这个知识点又特别慢,那么我们就会放弃一部分知识点的教学,而是让学生学习相对吸收度最高的知识点和未来考试分数最好的知识点。有人可能会说我们这样是恶性应试,但AI对所有数字的敏感度肯定是高于任何一个特级教师的,它对结果的保证度也是高于任何一个老师的判断,从效果而言,过去三年半的研发和一年的教学实践当中我们取得了非常好的学生分数提升的效果。
我们是通过这样的AI智适应的学习引擎,不断地通过学生的历史数据和知识所有的分布,并通过学生实时学习的数据交互,动态地给到学生不同的学习内容和学习路径,最终达到这样一个教学效果。我们和海外10亿美金独角兽的同行、人工智能教育最顶级的机构不一样的地方就在于他们只做引擎不做应用层的开发,我们不但做自己的引擎和自主知识产权的开发,同时还做自己的教学内容的研发,所有的这些内容都是专门为了这个引擎设计的,达到的效果就会更好。同时我们还直接做教学服务,直接进行2C招生, 例如线上的51Talk等,学生直接在家里电脑系统里面跟着我们学习。我们在全国已经开了500多家线下学校,也被我们称之为教育新零售,就是真正的无人教室。在我们的现在学校里,学生虽然到了这个场景,但并不是老师来教授,而是电脑系统的AI老师和学生进行实时的互动。
目前我们做到的除了纳米级的知识点拆分、关联地图、知识图谱的关系链,还有个性化学习路径的推荐,这些都是全球领先的水平。但它的原理是如何实施的?并不是说教学机器人像一个老师一样进行人机对话,其实我们有点像AlphaGo,就是进行策略逻辑的推断,给学生推送不同的教学视频、不同题目的解法讲解,包括视频、动画、录频、Lecture Notes和各种各样的练习。
我们首先要做的是知识点的扫描,就好像小的时候我是一个95分的孩子,真正测试以后不需要学习所有的100个知识点,到了业余补习,只需要学习我不会的5%的知识点就可以了。通过这样的学习,我们把过去传统教育的学习效率提升了5-10倍。有些学生可能有24%的题目不会,那么就要补这24%的内容,需要比我多花3倍的时间学习,但比100%全部都学也节省了4倍的时间和效率,有些孩子可能只有40分的水平,50%的知识点全部都不会,这个时候我们的战略放弃就用到了,并不需要学习所有的知识点,只学习40分到50分的知识点,可以考到60分就可以了,放弃70分或者90分的知识点,提升十几分达到及格水平。
Adaptive Learning为什么会在全球取得非常好的效果,并且在国内试用的时候产生超过特级教师的教学效果?因为它对好学生来说是因人而异地高效学习不会的知识点,而对差的学生来说50分的孩子教的是51分的知识,很快就可以学会和掌握,然后再给52分和53分,非常容易轻松地进步。过去在课堂当中是完全听不懂老师讲课的,所以我们是从根子上颠覆了过去教育的情况。这对算法的要求非常高,也就是对每一个学生的用户画像和知识水平的检测要求非常高
在全球来讲,纳米级的知识分拆其实是Adaptive Learning能够实施的基础。什么是纳米知识点的分拆?如果知识点拆得非常粗,比如一个形容词的知识点可能要学习四个小时,如果形容词分成了十几个知识点,我们发现只是形容词的位置出现了问题,或者是同义的辨析出现了问题,这个时候我们只要针对纳米级知识点进行教学,测试测量就可以从过去的X光变成了核磁共振的CT,能够更精准地知道你的知识点的缺陷,这个时候我们对整个的教学效率也会变得更优。
就和图像识别一样,如果只是过去人类高鼻子、浓眉毛、丹凤眼,不是细到每个像素地解决这个问题,问题的解决效率就会变得非常的低。但是当我们用了纳米级知识点的时候,我们也出现了很多的问题。过去初中数学可能是500个知识点,我们拆到了12000个,但要给学生的测试变成了12000道题,七天七夜,孩子根本不可能承受。我们如何通过贝叶斯网络、贝叶斯推断以及知识追踪理论,通过500道题测出10000个知识点,哪些会哪些不会,而且达到90%以上的精准度,甚至可能比高考的精准度要高出几倍的效率?这是我们不断研究并且取得非常好效果的地方。
去年我自己提出了一个理论, 并和AI科学家一起去做,同时今年准备申请IEEE论文奖。美国和欧美所有同行的知识地图都是一个hierarchical结构,比如测了二元二次方程, 那么先学的50个知识点是不用测的,比如一元一次方程、求根、加减乘除和方程移位一定都是先学习知识点。但是大量的知识点之间是没有必然联系的,比如你会了一个形容词,你的条件状语从句是不是会呢?可能只会20%,如果会了条件状语从句,定语从句是不是会呢?也许只会34%。当时我提出的这个理论在整个AI算法上面加上了几个点,也就是说所有的一万多个知识点当中,任何两个看似毫不关联的知识点当中可能存在着一定学生认知程度的关联度,这种关联度不管概率是1%、35%、79%还是99%。我们可能都会放一个先验值。通过大量的数据以及深度学习以后,我们可以越来越准地找到知识点之间的关联度,甚至不同的学生同样的知识地图,不同的知识点之间的关联都是不一样的。后来我们算下来,觉得先验值可以为任何数,我们都可以找到这种关联性。在这种情况下,我们把整个教育的测试效率和学习效率又乘以5-10倍的提升。
过去三年的实践当中我们越来越发现每一个学生在学习每一个知识点的时候状态是多么的不同,比如立方根的知识点, 学生看了一个视频只是做了几道题,用了260多秒就完成了知识的学习,但最慢的学生用了3900秒才完成了知识的学习,把所有的学生放在一个教室里面学习是多么恐怖的事情。而对不同的知识点来说,同样的学生体现出了不同的学习时间,不是说一个学霸学习任何知识点都要四十五分钟才能学会,有的是七十分钟就可以学会,有的是九十分钟才能学会,不能把同样Level的学生放在基础班或者尖子班。通过后台的数据我们发现,世界上没有任何两个学生应该放在一个班里面进行学习,因为他们对每一个知识点的学习速度都是不一样的,我们应该给到他们与众不同的学习路径和学习速度,这才是真正对学生的尊重。
案例中是我们针对同一个知识点的学习,这堂课当中总共有十几个知识点,其中一个学霸只有三个知识点不会,所以只要学习三个知识点就OK,有的学中只有七个知识点不会,有的学苗十个知识点都没有掌握。每个人的学习时间是不一样的,但我们不会让学苗一直学到学霸的水平,可能只会让他学到六七十分的水平,所以给的难度系数只有1.86,学中是2.34,学霸就达到了2.8。所以每个学生不管学习时间、学习知识点、做题的数量、题目的难度全部都是与众不同地对待,这在过去传统的课堂当中是不可能实现的,但是今天我们通过AI实现了。
这个行业当中也有很多竞争对手,到现在为止已经有40多家中国的在线教育机构宣布自己是人工智能智适应教育机构了,这里我们和竞争对手最大的区别在于几点:首先在这40多家当中有36家都没有介入到教学过程,他们用AI是处在AI题库、AI作业和AI测评,包括利用AI的算法提升语音识别,不是学生从不会到会的教学过程。而我们最重要的教学过程,提升学生每个知识点的认知速度和认知敏感性的问题,而在这个方面全中国只有三四家公司全心地在做。这些公司当中所有知识点拆分的细腻度也是完全不同的,这是我们和竞争对手的对比,基本上我们的知识点拆分是竞争对手的10倍甚至20倍的细腻。当更细的知识点进行拆分以后,我们能够做到的对每个学生用户画像的精准了解,而且各家的拆分方法都是很不相同的,我们已经做到了这个行业相对最优。
整个学习流程当中,有些是在课前测试当中使用了智适应算法,有些是在作业流程当中使用了智适应性算法,我们是在五个所有的流程当中全部使用了智适应算法。可以发现我们每轮融资额相对比较大,去年天使轮就融了2.7亿元,很多人说我们融了天使轮基金,有人把我们称为“摩天轮”。想要在人工智能尤其是教育行业当中作出建树的话,对资金投入的要求确实是非常的大。
这个过程当中我们也做了一些前所未有的、全球同行都没有做过的事情。除了算法优化之外,我们对语文的拆分是行业当中闻所未闻的。AI科学家和我们语文组的组长一起谈的时候,语文组说,语文没法拆分,尤其是阅读。读不好就只能读,最多稍微分级阅读,没有办法点对点地进行用户画像,以及非常清晰地知道薄弱点到底在哪里。经过了三年的努力,我带着语文组按照智适应系统的要求进行了拆分,可以知道这个孩子是环境描写的水平不行,或者是对人物线索和情感线索的区分做得不好。经过这样的拆分以后,我们可以把一种玄学变成科学。以前我们说教育是一门艺术或者玄学,现在逐渐变成了科学。
不仅如此,我们把学习能力和学习方法进行了拆分。我们不希望只是一个高考的提分机构,虽然我们做这个事情速度特别快,肯定是比GPS打败老司机速度更快地打败特级教师,但我们希望我们是能够对孩子终身成长有益的机构。怎样教会孩子学习方法和学习能力是我们所关注的。而能力在过去又是一门玄学,怎么讲这个孩子能力强还是不强?我们找到了全球认知学和教育学的文献都没有找到方法论。后来在公司当中我们提出了三可原理,必须要把能力拆分成可定义,比如情商怎么定义?没法定义就没法传授;还要可测量和可传授。现在我们已经可以非常自豪地说,我们可以对学生用AI教师进行学习方法和能力的学习。
最后我想说的是:乂学正在做的并且已经找到了方式、方法和方向的事情是:我们会在三年内做到的事情是不但培养小孩子知识点的掌握、考试高分的获得,不但培养终身学习能力和学习方法的获得,而且现在我们正在研究如何用AI老师培养、提升小孩子的创造力和想像力。我们的终极梦想是让每一个孩子身边都有一个像苏格拉底+达芬奇+爱因斯坦合体的AI老师,一起来给孩子教学。未来在这个世界上不需要任何学区房,也不会只有那些太子能够请到太子太傅这样优秀的老师,我们可以用一个AI系统把一个最高智能的老师给到任何一个孩子,发挥孩子的潜能,并且做到教育真正的公平性。