作者:兰韬 阿里巴巴智能引擎事业部
人类对语言的理解,不仅仅是沟通的工具,更是感知世界的方式。20世纪哲学家路德维希·维特根斯坦曾提出:“语言的界限即是世界的界限。”在他的观点中,语言不仅是传递信息的媒介,更是人类思想和意识的边界所在。
我们通过语言表达想法,交流信息,描述世界,思考未来。正因如此,语言成为了探索智能问题的核心。如果存在一个语言中没有的概念,我们甚至难以意识到它的存在,亦或者如果它存在我们一定会尝试对其定义,这也就保证了存在的概念一定存在于语言中。大模型的训练似乎隐隐回应了这种观点:我们通过大量语料输入模型,希望它在词与词的关联中找到人类理解的“路径”。若想让机器具备真正的智能,它们首先需要掌握的,或许就是语言。
在为大模型提供语料时,我们其实是在用人类的文本记录去构建一种模拟的智能。可以说语料的能力上限决定着模型的能力上限,语料的能力下限决定这模型的能力下限。
在这种情况下,我们有必要深度的审视语料本身。语料本身并不是一种绝对中立、无偏的载体,它是人类历史、文化和社会偏见的延伸。就像历史上出现的各种偏见和歧视被融入了文本,模型在学习这些内容时,是否也继承了其中的偏见和限制?在一定程度上,语料的缺陷和偏见可能会限制大模型“理解世界”的能力。那么,如果大模型的“世界观”源自于这些存在偏见的语料,它是否会被永久限制在语料的偏见之中?
认知偏差和错误内容:不完美语料的“陷阱”
在日常交流中,人类的认知过程本身并不完美,通常会受到经验、情绪和知识结构等多种因素的影响。即便人类本身很努力,依旧难以保证每条信息都准确无误。这种不完美会在语料中表现为认知偏差、误导性信息,甚至是错误结论。一旦这样的内容被大模型吸收,便可能“传染”到模型生成的内容中。
举个例子,曾经在知乎上流行过一个“数学陷阱”问题:在区间 [−0.5, 0.5] 内所有数加起来的和是多少? 很多人,包括一些未经严谨训练的大模型,都会给出答案“0”。乍看之下,这似乎符合直觉,因为在 [-0.5, 0.5] 区间内,正负数的分布对称,容易误导人们认为它们会相互抵消。然而从数学角度来看,这一答案是没有意义的,因为在连续区间内有无限多个实数,它们的和在传统意义上是无法定义的。这一“错误”揭示了日常直觉和专业知识体系之间的差异:我们常常会不自觉地用一种简单化的方式理解复杂问题,导致偏差。而当这种直觉化的错误成为语料的一部分,并用于训练大模型时,模型可能会在涉及类似话题时产生误导性答案。
这种偏差不仅仅出现在数学领域,更普遍存在于日常推理中。例如,假设有人身边的几个朋友借钱不还,他可能会因此认为“大多数人借钱不还”。这是典型的过度归纳,即用少数的个例经验推断全局,忽视了更广泛的数据。这样的错误判断在认知心理学中称为“可得性偏差”:人们更倾向于根据容易回忆起来的信息作出判断,而不是基于全面、客观的数据。
一旦基于这类认知偏差的内容被文字化发表出来,成为了大模型训练数据的一部分,模型就可能从中学到不准确的结论。在接触到类似话题时,模型会更倾向于给出片面的答案或带有偏见的建议。这种偏差并非源于模型本身的“失误”,而是源于语料数据中的偏差和思维陷阱。事实上,正是因为训练数据中的“认知盲区”被模型吸收后再现出来,才使得大模型看起来像“人类”——它模仿的不仅仅是人类的知识,也模仿了人类的偏见和认知误区。
诚然,即便一些具有“陷阱性”的问题,大模型在多数情况下也能作出相对正确的回答。这是因为人类语言环境具备一定的自我纠错能力——在互联网上,不同角度的讨论和大量的对话逐渐积累,使得正确答案的比例有机会增大。然而,这一机制并不可靠,因为它容易陷入“多数正确”的悖论:并非所有观点的广泛传播都意味着其准确无误。一些看似正确但本质上有偏差的答案,若被大量重复引用,反而可能被模型错误地认为是“事实”。
主观性与营销性:选择性宣传与诱导性表述
在语言使用中,主观性和营销性表达十分普遍。这类表述不仅仅在传达事实,更会通过选取特定信息、放大某些细节,或隐去不利方面,以引导受众对内容产生特定理解。这种选择性和诱导性表达在社会、文化、商业等各个领域均有体现,尤其体现在个人评论、用户推荐和旅游点评等内容中。通过这样的表述,创作者或发布者通常希望影响读者的情感和判断,增强内容的说服力。
例如,许多个人推荐中常用到带有情感和选择性的语句。一个关于某本书的评论可能会说:“这本书改变了我的人生观。”尽管表达了强烈的肯定,却很少说明具体改变是什么,或这本书为何适合所有读者。这样模糊又情绪化的表述容易激发人们的好奇心,但也会让受众难以获得客观信息,因而产生不切实际的期待。
旅游点评中同样存在类似现象。一位游客可能评论“这个小镇宁静而浪漫,是放松身心的最佳之地”,但这类表达没有提到实际的情况,比如“淡季安静但设施不完善”“旺季人流密集”。这种评论通过情感化的语言强化了目的地的理想化形象,但并不一定能反映游客的真实体验。
这种主观性和营销性的内容在语料库中大量存在,对语言模型的训练会带来复杂影响。一方面,这类语料让模型学会情感化表达,从而更擅长生成生动、有感染力的内容。这对于营销文案、社交媒体互动甚至客服对话生成都有正面作用,因为模型可以用更符合人类沟通方式的语言来表达,拉近与用户的距离,增加互动性。
另一方面,如果模型过度吸收带有选择性或倾向性的语料,可能会导致输出的内容中也存在不经意的夸张或引导成分。例如,当用户咨询某产品或服务的特点时,模型生成的回答可能会趋向于“推荐”而非“客观”,甚至强化某些偏见,从而影响用户的判断。这样一来,模型生成的内容不仅失去了中立性,还可能无意间加深了人们对事物的片面看法。
价值观和文化差异:冲突性观点的共存
语料库中的内容通常来自不同的文化背景和价值体系,这种多样性导致了同一主题上可能存在截然不同甚至相互矛盾的观点。人类在面对这些差异时,能够通过理解文化背景和历史脉络来消化和分析冲突。然而,语言模型在处理这些内容时却难以实现类似的平衡,在缺乏背景知识的情况下“学习”到了各种相对的观点,却无法识别其背后的文化差异和立场冲突。
例如,在劳动权益问题上,不同国家和文化可能持有截然不同的立场。一些西方国家更倾向于强调工人权益和工作与生活的平衡,反对加班文化;而在某些经济快速发展的地区,加班可能被视为对公司忠诚、追求进步的一种表现。这种观点差异反映了文化与社会发展的需求,但对于语言模型而言,它在吸收这些信息时难以判断哪种表达更合适。模型可能会生成内容既提倡“生活与工作平衡”,又鼓励“全力投入工作”的矛盾信息,无法有效处理其中的文化背景和语境。
另一个例子是健康和生活方式的选择。在一些地区,低碳饮食和植物性饮食因其环保和健康价值而备受推崇,而在其他文化中,肉类消费被视为重要的传统习俗和营养需求的一部分。语言模型在面对这些内容时,很可能会在某些情况下推荐低碳饮食,而在另一些情况下则反映出传统饮食的优越性。由于没有明确的文化指示,模型可能会在健康话题上反映出“提倡低碳饮食”和“传承传统饮食”的矛盾建议,显示出一种立场模糊的倾向。
这种价值观差异对大模型的训练既是挑战也是优势。一方面,多元化的语料库能让模型更好地适应不同的文化背景,生成符合各类用户需求的个性化内容,使模型更具包容性和表现力。另一方面,如果模型对这些冲突观点缺乏理解,生成的内容很可能在特定场景下显得不连贯,甚至会无意中强化某些偏见或文化倾向。这样一来,模型在某些任务中可能显得模棱两可,难以向用户提供清晰、一致的信息。
不可解决的“正确答案”
在语料中,有许多涉及伦理和哲学的内容,这类问题往往没有绝对正确的答案。伦理学问题中,人类价值观和道德取舍往往存在分歧,而在哲学问题上,人类知识的局限性和观点的多样性使得许多问题本质上无法得到定论。这些“不可解决”的问题广泛存在于语料中,从伦理道德到存在本质,为语言模型的学习带来了独特的挑战。
伦理学问题中,典型的争议之一是“应不应该对动物进行实验”。一些观点认为,动物实验是科学进步的必要手段,为医学等领域的发展提供了关键支持;而另一些观点则主张动物实验是不道德的,呼吁更为严格的保护措施和替代方法。这一问题涉及到对生命的不同价值取向,使得在语料中难以得出一个通用的“正确答案”。类似的问题还包括安乐死、基因编辑等,每个问题都有其深层的伦理考量,不同文化和个人背景可能会引导出完全不同的立场。
哲学问题中,不确定性更加明显。例如,“人类是否具备自由意志?”这个问题涉及意识和行为的本质,而哲学家和科学家们提出了多种理论,包括决定论、自由意志论、兼容论等,但始终没有定论。再如,“生命的意义是什么?”是一个开放性的问题,不同的宗教、哲学体系甚至个人体验都提供了不同的回答。这类问题不仅难以找到共识,且无论模型学到何种回答,都很难避免模棱两可的倾向。
此外,还有许多跨学科的问题同样难以得到唯一答案。比如,“科技进步对人类是福还是祸?”这一问题涉及社会学、经济学和心理学的不同视角。在一些语料中,科技被描述为推动经济增长、提高生活质量的积极力量;而在另一些语料中,科技的发展又被认为导致人类疏离、环境破坏,甚至潜在威胁社会稳定。这种多视角的问题使得模型在面对类似的主题时,容易生成对立的内容,难以为用户提供一个一以贯之的观点。
这类无确定答案的问题对语言模型的训练既是挑战也是价值所在。一方面,模型需要理解并表达这些问题中的多样性和争议性,从而为用户提供全面的视角;另一方面,模型若过于倾向某一立场,可能会无意中忽视其他重要的观点。因此,合理地处理这些不可解决的问题,能帮助模型在生成内容时更好地反映问题的复杂性,而不是简单给出一个片面的答案。
语言的局限——缺乏思维过程
在探讨训练语料的重要性时,我们已经指出了语料本身所存在的诸多认知偏差、主观夸大以及其他外在表现层面的缺陷。然而,这些问题仅仅是表面现象,更深层的挑战在于语言模型在学习过程中所缺乏的思考能力。正如我们在前面提到的,语言的生成不仅是对已有文本的简单拼接,更是思维与情感的真实表达。每一段简洁的文字背后,蕴藏着作者在思考过程中所经历的推理、逻辑分析和情感波动。接下来,我们将通过几个具体的例子,深入探讨语言模型在生成语言时如何缺乏有效的思考能力,以及这种缺乏对其生成结果的影响。
复杂思维的隐秘轨迹
想象一下,当我们在阅读一篇文章或听一位演讲者的观点时,很多时候我们只是接收到了最终的结论,而对其背后的思维过程却一无所知。以哲学家对“幸福”这一主题的探讨为例。他们在尝试回答这个古老而复杂的问题时,常常会在自己的思考中经历漫长的推敲与反思。或许,一位哲学家最终得出的结论是:“幸福是一种自我满足的状态。”这一句简洁明了的表达看似简单,但实际上,它的形成过程可能包括了无数次的思考与探索。
在这一过程中,哲学家可能首先考虑到幸福的主观性,思考不同个体对幸福的不同理解。他们可能会质疑,幸福是否仅仅是物质条件的满足。随后,他们可能会深入探讨情感、社会关系和个人经历如何影响我们的幸福感。通过对这些因素的反复思索,哲学家最终才提炼出这一简洁的结论。然而,读者在看到这句结论时,却无法洞察其背后深邃而复杂的推理过程和思维变化。语言模型在学习语料时,也只捕捉到了这种表面的、结果性的表述,而缺乏对形成这些表述过程的理解。
辩论中的思维动态
再让我们设想一个辩论的场景。两个辩手围绕某个重要议题展开激烈的讨论。每位辩手在发言之前,可能在脑海中构思了多种反驳对方的方式,同时也会思考自己论点可能存在的漏洞,以及如何应对听众可能的反应。最终,他们所表达的观点仅是经过筛选和总结的结果,而非他们思考过程中的全部内容。即使我们完整地记录下他们的发言,也无法全面呈现他们在思考过程中所经历的复杂心理活动和逻辑推理。
这种思维的动态性和多层次性在语言中往往难以被完整捕捉,尤其是在尝试用语言重现复杂的思维过程时,许多细腻的、临时性的想法和情感可能被简化甚至完全忽略。这种局限性使得语言模型在学习和理解人类的思维时,难以复现出人类的复杂思维过程,因为它缺乏对“支持推理的隐性要素”的理解。
情感表达的深层内涵
再以日常生活中的情感表达为例。当我们在给亲密的人写信时,常常会写下“我很想你”或“希望你一切都好”。表面上,这些简单的句子传达了我们对对方的关心和思念,但实际上,这背后蕴藏着我们一天中无数次的牵挂、忧虑和回忆。这些真实的情感波动和瞬间的心理反应,往往难以通过简短的话语完全传达出来。
如果一个语言模型只是机械地模仿“我很想你”这样的句式,它实际上无法理解人类内心深处的复杂情绪波动。因为它没有经历过那些情感的沉淀与积累,而只是从语料库中获取了形式化的表达方式。这种缺乏对情感深层内涵的理解,进一步加剧了语言模型在学习人类语言时的局限性。
触及思维的边界
语言所产生的语料,本身是不完美的,虽然我们不曾对“智能”本身做深入的探讨,但是可以想象的是,任何智能本身逻辑清楚,答案正确都是必不可少的要素。面对内容各异的语料,一股脑直接放入模型进行压缩,从而得到的智能体,会有显著的缺陷,我们可能可以通过部分语料的修正改善来局部解决,但是要从根本上解决问题,我们需要更合理的逻辑。
我们是否期待模型顿悟?
近年来,关于模型能力、算力和数据量之间关系的研究产生了许多有趣的发现,即scaling law。它表明更大的算力和与之匹配的数据量通常能够带来更强大的模型能力。在对小规模模型的实验中,我们往往可以通过逐步增大模型大小和数据量来拟合loss曲线的趋势,从而推测出更大规模模型的表现。这一趋势让人充满期待,仿佛只要不断增加算力和数据,我们就能无限接近真正的智能。
然而,这种推测虽然令人振奋,却也存在明显的局限性。模型的大小和算力的增加,更多的是减少其在对数据进行压缩时的信息损失。就好像一个形状不规则的物体被迫放入一个规则的容器中一样,容器的增大确实可以减少对物体的裁剪和扭曲,但它并不能改变物体本身的内在特质。换句话说,模型的“容器”越大,确实可以保留更多的原始信息,但这种保留并不等同于能力的提升,模型的核心能力仍然依赖于所用数据的本质。
进一步我们可以思考,持续扩大训练语料的规模,到底是在以更多正确的语料来覆盖错误的语料,还是在弥补冷门知识的语料规模、填补知识的空白,亦或是让数据分布更加贴近真实世界的语料环境?目前大部分现实世界产生的语料都已经被模型学到,合成数据也恰如其分的接替了语料生产者的职责,那么我们是否能清醒的意识到后续我们应该补充的语料是什么?
在实际应用中,我们不仅要关注数据的数量,更要深刻思考什么样的数据才是合适的。任何从事大模型开发的团队都明白,数据的质量比数量更关键。数据质量决定了模型可以学习到的知识的深度与广度,但何为“高质量数据”,却仍然是一个极具挑战性的问题,我们可以轻易的说出数据应该考虑其多样性、准确性、代表性。然而以多样性为例,多样性具体应包含哪些维度?如何量化这种多样性?这些问题并没有明确的答案。
例如,假设我们在大规模训练数据集中包含了大量网络小说文本。这些数据的加入,理论上会增强模型对自然语言的理解能力,特别是对非正式语言和通俗表达方式的掌握。但随之而来的是两个相互矛盾的问题:一方面,我们担心网络小说中的内容比例过大,模型可能会学到不合规或低质的语言结构和内容,进而影响到实际应用中的语言质量;另一方面,如果减少网络小说的比例,又可能导致模型在处理这一类型文本时出现能力不足的情况。比如,某些用户会希望模型能够生成风格多样、通俗易懂的内容,尤其是在特定社交媒体场景或流行文化中,而网络小说恰恰能提供这些内容的语言样本。
在构建高质量数据的道路上,我们似乎走入了一个悖论:我们渴望构建出多样性丰富的通用数据集,但在缺乏优质指标的情况下,往往难以把握具体的方向。这使得“高质量”数据的概念逐渐模糊,甚至难以量化。持续的加大训练数据规模,持续以一个捉摸不透、不可观测的目标提高数据质量,能否让模型的智能大幅提升?
偏见、错误的语料有价值吗?
偏见和错误的语料在大模型训练中是否有价值?这是一个看似简单却复杂的问题。表面上看,偏见、不准确甚至矛盾的内容确实限制了模型的表现:它们可能导致模棱两可的回答,甚至输出相互冲突的观点。然而,假如我们完全剔除这些“不完美”数据,真的会让模型更“高质量”吗?
人类学习的过程并不是线性的、完美的。事实上,人类的智力成长往往是由错误驱动的。想想看,在生活中,我们最难以忘怀的往往是那些失败的经历和犯下的错误,而平顺的成功却常常不被铭记。这种学习机制让我们在每次失败后吸取经验,逐步形成对错误的警觉与纠正的能力。而对于大模型的训练数据而言,错误和偏见或许也可以起到类似的作用。
想象一个资深专家给初学者上课,往往并不是很有效果。因为专家很少思考错误认知的形成过程,而更倾向于阐述正确的逻辑,而忽视了初学者的困惑之处。相比之下,有经验的教育者虽然可能不是最顶尖的专家,但他们了解如何从错误开始引导学生,帮助他们理解错误的原因,从而形成更坚实的知识基础。
另一个重要问题在于文化和价值观的多样性。许多价值观和文化体系内的推理逻辑都相对自洽,然而这种逻辑合理性仅在特定文化框架内成立。模型若只是一个输出“正确答案”的机器,就会忽略了不同文化、不同社会背景下合理性的差异。比如,某些国家或地区的礼仪、信仰、或社会价值观会在一些话题上表现出极其严肃的态度。而其他文化中则可能对相同的内容持宽容态度。这种“合理性冲突”并非错误,而是我们生活在多元社会中的真实表现。
因此,一个更理想的模型应当能够理解这些差异性,而不是仅提供统一答案。虽然模型不需要一个特定的价值观,但它需要学会在不同语境下作出适应性的回应。在这种情况下,偏见和矛盾的数据实际上为模型提供了文化多样性和人类复杂情感的宝贵训练机会,使得模型能够真正融入人类的交流中,体现出对人类多元性和情感的理解。
从商业应用来看,错误和偏见数据同样具有潜在的价值。例如在营销场景中,模型不光要具备提供信息的功能,更要具备一定的“说服力”或“煽动力”。这要求模型能够区分信息中的主观与客观,辨别推广信息与事实的界限,并懂得如何筛选信息来呈现,让它可以在需要煽动情感或提供安慰的场景中做出更贴合情境的表达。反过来想,若一个模型在学习过程中完全排除偏见、情感和营销性质的信息,它可能会缺乏必要的辨别力,导致它更容易被欺骗。
对于哲学和不可知问题的领域的语料——比如宇宙起源、生命意义、意识本质等问题——它们尽管没有标准答案,却同样有其重要价值。这类问题本身没有明确的对错,而是开放性地引导人类对未知的好奇、假设和思辨。从古至今哲学思潮也发生了翻天覆地的变化,这都是人类高度抽象思维的结晶,模型对于这种高度抽象思维的理解过程,能很好地辅助其他逻辑思维的成长。而对于类似宇宙起源这种问题而言,我们也寄希望于模型能综合千万种可能性,从而更“智能”的推理出最合理的可能性。
总结而言,我们看到的那些看似“不合理”的内容,实际上是这个复杂世界的一个部分,完全剔除这部分数据,会让模型变成一个冷冰冰的“答案机器”。我们希望让模型进入现实世界,而现实世界从来就不完美。若模型的数据仅限于“完美的”内容,它将无法适应真实的、不确定的语境。真实世界的对话、表达、观点和情感都是丰富且多样的,而错误和偏见本质上就是人类的一部分。
人类是如何应对的
语料本身是存在大量“问题”的,然而这些问题本身对模型却又是有价值的,那我们该怎么办呢?
从人类的角度来看,人类并不是被动地吸收和记忆信息,而是具有高度的“过滤”与“解读”能力。当人类面对复杂、甚至有缺陷的知识时,常常会根据自身的理解和经验进行筛选和加工,而不是逐字逐句地吸收。比如,人类在不同场景下会切换思维模式,这种适应和转变帮助我们应对信息的不确定性。
举例来说,人类在日常生活中会在不同的情境下切换认知模式。演讲时,人类会自动切换到一种“表达模式”,并试图考虑听众的接受度和反应;在闲聊时,思维则会更加自由而随性,不拘于逻辑严谨;在育儿中,人类会进入一种“解释性模式”,通过通俗易懂的语言来帮助儿童理解复杂概念;在学习时,我们则进入“探索模式”,不仅仅接受知识的表层,而是试图深入探究其原理。可以说,人类是具备动态适应能力的,能够根据场景调整对信息的理解方式。正是这种模式的转换,让人类能够在面对模糊、片面甚至冲突的信息时,通过调动特定的思维方式来进行“弥合”与“补充”。
不仅如此,人类在吸收信息时,还会注入自己的见解和理解,从而形成个人化的知识体系。阅读一本书时,我们并不是一味接受书中所言的内容,而是根据自身经验和背景知识来判断哪些信息具有意义,哪些内容值得怀疑或批判。这种个人化的解读过程帮助我们在不断完善、调整已有知识框架。一个流传甚广的例子能够说明这一点:当让大模型列举一些姓唐的名人时,结果却包括了“唐太宗李世民”这个名字——这是一个很显著的误解。对人类来说,唐太宗(李世民)这个称呼的含义显然不属于“姓唐名人”的范畴。人类能够潜意识地理解“唐太宗”和“李世民”是两个需要区分的层次,一个是尊称,一个是本名,甚至对于人类而言,读到“唐太宗李世民”会自动在大脑中替换成“李世民”。然而,网络文本我们虽然能够找到解释说唐太宗和李世民分别的含义以及联系,但是大量的训练语料中并不对此信息做引用或者解释、替换,导致训练数据中留下了诸多类似的混淆。而这种“误解”便可能通过模型输出影响到用户的信赖度。这个例子也表明,若没有人类式的理解力,仅靠数据的简单堆积和归纳会在常识性问题上表现出明显的失误。
这种情况让人们不禁好奇,究竟大模型是否具备某种形式的“思考”?为了便于解释,我们可以暂时先不去严格定义“思考”,而是从日常认知中的“思考过程”来做一种比拟。人类的思考过程,通常是通过语言、图像等具体的媒介来完成的,思考在一定程度上是显性的,我们很难脱离语言来思考理解,甚至我们有时需要更深度的思考,会将逻辑二次精炼亦或是寻找更好的图示。但大模型却没有这种媒介,或者说这种显性的、反复推敲的“思想媒介”还并不明显,究其原因,目前的大模型推理过程更像是直觉推理,我们并没有教会大模型如何显性“思考”。
虽然GPT-4等最新模型尝试在一些高难度的数学和理工科领域引入了“超长思维链”技术,使模型能够在特定问题上产生连贯的推理链,然而在更基础的理解与推理问题上,这种机制仍显得不足。超长思维链确实在一些逻辑链较长的问题上有所帮助,但在通识知识和普遍的常识判断中,模型往往依赖于统计概率的权重,而非一种深层次的逻辑推理过程。这样一来,虽然在特定情境下大模型的回答“看似合理”,但在需要调动复杂认知的场合,比如识别“唐太宗李世民”中的常识性关系时,模型便会暴露其“缺乏理解”的弱点。
总结
大模型的本质是对知识的高效压缩,对此我们换个视角来看,这相当于仅仅是对知识进行记忆,这一过程没有很好地“理解”、“思考”、“甄别”语料的逻辑,给大模型本身的能力带来了巨大的隐患,以至于我们发现大量的“反直觉”的例子,从而让我们意识到“大模型”始终无法很像人类一样。尽管“高级智能”并不一定与人类的思维模式一致,然而面对语料而言,由于语料大量是人类产生的,我们不太可能脱离人类思考过程来学习语料,如果“高级智能”思维过程与人类完全不同,所产出的语料可能天差地别,人类的思维过程就像是语料的密钥一般,探讨思维过程是我们充分挖掘语料价值的必经之路。