考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

简介:

在一批在线教育试水者当中,赵梓淳带领的考拉阅读有点不太一样。

因为国内做分级阅读的虽然不多,但是做中文的分级阅读,国内目前却仅有他们一家。

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

考拉阅读CEO赵梓淳

在在线教育这个领域,考拉阅读算是一名新人——成立不足1年,团队堪满60人,刚完成3000万的Pre-A轮融资。在创始人赵梓淳眼中,阅读教育是一项非常庞大的产业,AI+教育的未来仍存在很多不确定性。考拉阅读也还处于摸索阶段。

为什么要做中文的分级阅读标准?

事实上,在国内,如好未来、VIPkid等一些在线教育企业已经在做英文的分级阅读,虽有其物,但一直没多大水花。赵梓淳向雷锋网透露,对于考拉阅读来说,做英语的分级阅读标准并没有太大的技术难度,但他们并不想做。

原因很简单,国外已有一套很成熟的英文分级阅读标准系统,不仅运行了将近40年且已覆盖了美国90%的学校,如Lexile分级(蓝思分级)、GE分级等。而在国内,中文阅读不仅连分级标准都未建立,很多教师甚至连分级阅读都没听过,尤其是在重要的K12教育领域,很多书店给童书分级,只能给出诸如“适合8岁以下孩子阅读的童话书”等基于感性、经验基础的文字建议。此外,教师、家长对孩子的阅读水平的了解也一直处于空白状态,因为获取这一数据的渠道不是没有,就是非常非常有限。

在这两大刚需的驱使下,再加上“全民阅读”、二胎等相关政策的颁布,以及人工智能、机器学习和大数据的发展,又给前者提供了更充分的条件,这一切都让赵梓淳觉得:做一套中文的分级阅读标准很有必要,而且,时机也来了。

瞄准AI,建立基于ER Framework的中文分级阅读系统

丨中英文差异

考拉阅读CTO任易向雷锋网透露,在欧美,英文的分级阅读主要有两个维度:

▪  语义:主要看词频,如果一个单词出现的频次很低,则系统会判定这个词相对较难。

▪  句法:主要看句子长度,长句一般较难去分析和理解。而句子难度跟从句、副词、介词等的使用也密切相关。

在这两个维度上,欧美国家通过统计学的方法来完成分级阅读标准的建立。任易表示,考拉阅读的中文分级阅读标准(ER Framework )借鉴了国外的“词、句”的分析思想,因而和其有一定的相似性。但是,由于中文相较英文的「天生复杂性」,决定了考拉阅读必须做得更加深入。

据赵梓淳介绍,中文和英文的三大本质区别主要在于:

▪  基础单元:英文的基础是26个字母,中文的常用汉字达3500个,这就决定了中文阅读的分析必然需要一个规模化的语料库。

▪  分词:英文不需要分词,仅需空格即可判定词语的边界,但汉字脱离不了分词。如「量子自旋效应」这个词,有人可以将其分为「量子」、「自旋」、「效应」三个词,也有人认为这就是一个词。但在英文中就无此类困扰。

▪  句式结构:在句式结构上,英文要严谨得多,如主从句之间会有that、which、what等来界定。中文的行文风格则较为随意,嵌套结构也要混乱得多。

丨「字词句段篇」五大维度+AI技术

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?鉴于这三大区别,考拉阅读基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度,并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征,「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。

赵梓淳告诉雷锋网(公众号:雷锋网),他们一共处理了几百万字的非平衡语料库和几亿字的平衡语料库。考拉阅读的非平衡语料库主要来自各个版本的小学教材及其教辅资料,其是指垂直于某一品类的语料库,如小说、历史传记各有其对应的语料库;平衡语料库即指一个孩子在日常生活中需要真实接触的语料,如,按照一位10岁小孩需要看20%的名著小说、50%的课文和20%的漫画这种比例来配语料库。

“因为中文的的句子相较英文要复杂得多,机器在理解中文的第一步就会遇到词性分析、语言模型上的困难。所以,有赖于现在流行的AI技术,如RNN、LSTM等深度学习技术,可以弥补中文在NLP上的缺失。”任易表示,“现在我们可以做到,将一个句子按照句法树、依赖关联等予以拆解,以分析每一个成分在句子中的比重,从而实现阅读文本的难度分级。”

而区别于欧美英文分级阅读,考拉阅读的分级阅读系统最大的优势即在于AI在此发挥的作用。赵梓淳向雷锋网透露,随着用户数量的增加,产生的数据越多,该系统中的模型可实现自主学习,不断优化,从而对文本阅读的难度感知越发准确。

以教育局切入,「从上至下」走To B路线

据雷锋网了解,目前赵梓淳带领其团队共开发了三款产品:

▪  基于ER Framework的个性化分级阅读系统;

▪  基于ER Framework和“新课标”的阅读能力测评;

▪  针对公立学校的阅读整体解决方案,包括教师培训、分级短文材料等。

其中,考拉阅读的分级阅读系统现在已经进入天津市200余所中小学,被全市上百万的小学生使用。赵梓淳称,考拉阅读的用户群主要为小学阶段的孩子,目标是利用AI和语言学的结合,全面提升这些孩子的阅读能力。

在公司战略决策的制定上,赵梓淳显得非常冷静而果断,其称,考拉阅读的业务从一开始就是围绕To B在展开,不会针对C端使用。原因有两点:

1、普通民众并不明白什么是分级阅读。对于考拉阅读这种体量的创业公司而言,要转变他们对分级阅读的认知,任务实在过于繁重。所以,更好的方式就是在一开始就从To B端的公立学校、教育机构去切入,让教育局、教师等为分级阅读背书,且还能增强公司产品的公信力。

2、目前获取C端用户的成本依然很高。

基于此,赵梓淳表示,“所以我们还是想在B端稳扎稳打下去。后期公司发展到一定程度之后,必定会走向To C端,毕竟To B的天花板一定是可以预见的。”

丨牵手200余所中小学

然而,在在线教育这一慢热的市场,特别是在很多教育资源都被政府等相关机构紧紧攥在手里的情况下,考拉阅读又是如何打通这些壁垒,与教育局,以及地级市200余所学校成功牵手的呢?

赵梓淳告诉雷锋网,事实上,考拉阅读一开始走这条路也不太顺利——最先其采取对每家学校进行单点突破的方式,却发现效率非常低下。

赵梓淳带领其团队观察到这样一个现象,国内很多中小学都很重视学生的测评,但在阅读能力的测评上却处于相对空白的状态。于是,考拉阅读联合北京师范大学基础教育评测中心合作「搞」了一件大事:在国内的一线到四线城市,对近10万学生进行了基于ER Framework和“新课标”的阅读能力测试,并对相关数据进行分析,最终出具了一份中国学生的阅读能力量表。在测评的助攻下,考拉阅读成功打通了和中小学合作的路径。

考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

丨开设教师培训课程

同时,在推进分级阅读标准的过程中,考拉阅读发现「教师」这一角色反而是整个推进过程的关键角色。因为虽然已经开发出中文分级阅读标准及其配套工具和产品,但在赵梓淳看来,这些工具和产品依然需要人来使用,需要教育者来向这些孩子传递教育的温度和理念。但是,国内教育理念跟不上,语文教师对整个前沿教育的趋势掌握不到位......这些都是问题。

针对这一痛点,考拉阅读还和学校合作开展了20课时和40课时不同版本的针对教师的培训课程,由其团队里具有深厚教研经验的成员进行研发,分为线下集中辅导和线上远程支持两种路径,以培训教师们及时更新各种新兴教育理念的能力,从而及时掌握教育阅读的最新发展趋势。

结语

分级阅读进入国内的这些年,不是没有遭受过质疑之声,有人认为分级阅读不适应中国国情,比如有些孩子从小耳濡目染四大名著,可能会对超出分级阅读系统推荐的书目以外的书籍感兴趣,当然不能排除这种可能性。

面对这一问题,赵梓淳如此表示:

“分级阅读系统只是一种工具,它并不能喧宾夺主说可以取代老师。我们做分级阅读的意义就在于,想告诉家长和老师,哪种文本难度的书目是适合你的孩子或学生去阅读的。至于读还是不读,依然需要家长和老师去做出判断。”

最后,谈及在推进分级阅读教育过程的体会时,赵梓淳坦言道,“教育是一件很大很大的事情,因为它与人性直接相关,不是仅仅做好产品就能实现「通吃」的。大家一直都在说「教育科技」,而非「科技教育」,因为教育一定是摆在第一位的。”


本文作者:李秀琴
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
24 6
|
26天前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
1月前
|
人工智能 自然语言处理 云计算
iOS迎来AI升级:揭秘Apple全新“智能”系统
iOS迎来AI升级:揭秘Apple全新“智能”系统
iOS迎来AI升级:揭秘Apple全新“智能”系统
|
1月前
|
人工智能 自然语言处理 文字识别
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
在当今信息爆炸的时代,AI阅读工具正在革新我们的阅读方式,成为了提高效率、优化阅读体验的关键。这类AI阅读辅助工具,只需要上传文件或者输入链接,便可以直接以聊天对话的形式进行一键总结和智能问答,满足用户AI PDF 阅读、AI文档问答分析、AI音视频总结等多种实用需求,高效提炼信息要点精华,建立属于自己的AI知识管理和信息管理工作流。对此,根据阅读场景,精选了 13 个具有代表性、各具特点的高质量 AI 阅读助手助理。 具体如何选择,见文末总结。
117 1
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
|
21天前
|
存储 人工智能 自然语言处理
利用AI技术实现智能客服系统
【8月更文挑战第27天】本文将介绍如何利用人工智能(AI)技术构建一个智能客服系统,以提高客户服务效率和质量。我们将从需求分析、系统设计、功能实现等方面进行详细阐述,并通过实际代码示例展示如何实现一个简单的智能客服系统。
|
24天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
24天前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【8月更文挑战第13天】随着网络技术的发展,网络安全问题愈发严峻,传统防御手段已显乏力。本文探讨构建AI驱动的自适应网络安全防御系统,该系统能自动调整策略应对未知威胁。通过数据采集、行为分析、威胁识别及响应决策等环节,利用Python工具如Scapy、scikit-learn和TensorFlow实现网络流量监控、异常检测及自动化响应,从而提升网络安全防护的效率和准确性。随着AI技术的进步,未来的网络安全防御将更加智能和自动化。
34 6
|
16天前
|
人工智能 监控 安全
AI计算机视觉笔记十三:危险区域识别系统
本文介绍了如何在 IPC 监控视频中实现区域入侵检测,通过 YOLOv5 和 ByteTrack 实现人物检测与多目标跟踪。系统能在检测到人员进入预设的危险区域时发出警报,保障安全。主要步骤包括:1)使用 YOLOv5 识别人物;2)使用 ByteTrack 进行多目标跟踪;3)利用射线法判断物体是否进入禁区内。项目基于 Python 开发,使用海思、君正、RK 等摄像头模组,代码已在 RV1126 上验证,计划移植至 RK3568 平台。项目结构清晰,包含模型训练、跟踪算法及图形化界面展示等功能。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在智能客服系统中的应用
【8月更文挑战第31天】本文将介绍AI技术在智能客服系统中的应用,包括自然语言处理、机器学习和深度学习等方面的知识。我们将通过一个简单的代码示例,展示如何使用Python和TensorFlow库构建一个简单的智能客服系统。通过阅读本文,您将了解到AI技术如何改变传统客服行业,提高客户满意度和企业效率。