互联网时代呼唤‘新中文‘的崛起 - 谈谈象形文字在如今分词方法下面临的挑战-阿里云开发者社区

系列文章，如要转载，请私信知会，标注出处

汉字美如画，变化却挺难；

嵌入很方便，语义跑一半。

想造新语言，或更新表示；

利弊要权衡，改变挡不住。

汉字作为中文的载体，历经数千年的演变，至今仍以其独特的象形特性和复杂的语义结构在现代社会中广泛使用。然而，随着互联网的迅速发展以及大语言模型（如ChatGPT）的广泛应用，传统汉字的结构性特征在数字环境中暴露出越来越多的局限性。在拼音输入法的普及、分词技术的应用以及大模型训练中，汉字在简化、抽象和标准化的过程中，逐渐失去了其丰富的文化内涵和语义关联。我们或许正处于需要重新定义“新中文”的关键时刻，以更好地适应现代技术对语言处理的需求。

1. 汉字面临的主要挑战

汉字相较于拼音文字（如英语）具有独特的表意特性，每个字本身往往承载着丰富的历史与文化信息。字形、部首、笔画不仅构成了汉字的基础，还影响着其语义的表达。然而，正是这种复杂的字形结构，导致了在互联网技术应用中，汉字的处理变得极为困难，特别是在自然语言处理（NLP）和大模型的语义训练中。

1.1 更新速度难以跟上时代发展

与拼音文字系统相比,汉字在创造新词和适应新概念方面显得较为迟缓。这主要是由于:

汉字的创造需要考虑字形、笔画和语义等多个方面
Unicode编码的限制使得新汉字的创建和推广变得复杂
汉字主要依赖词组扩展而非字形扩展,降低了语言的简洁性和创造力

1.2 在自然语言处理中的困境

大模型和词嵌入技术在处理汉字时面临诸多挑战:

分词问题:汉字之间没有明确的分隔符,增加了分词的难度
语义关联丢失:现有的tokenization方法往往忽视了汉字内部的语义结构
处理效率低:相比于拼音文字,汉字的复杂性增加了模型的处理负担

1.3 多个栗子

例子1：歧义分词

句子：我们中出了一个叛徒

可能的分词方式：

我们/中/出了/一个/叛徒
我们/中出/了/一个/叛徒

这个例子展示了如何因为缺乏明确的分隔符而导致完全不同的含义。

例子2：新词识别

句子：苹果公司发布了新款智能手机

理想分词：苹果公司/发布/了/新款/智能手机可能的错误分词：苹果/公司/发布/了/新款/智能/手机

在这个例子中，"苹果公司"和"智能手机"都是较新的词组，如果分词系统的词典没有及时更新，可能会导致错误的分词。

例子3：专有名词识别

句子：乔布斯创立了苹果公司

理想分词：乔布斯/创立/了/苹果公司可能的错误分词：乔/布斯/创立/了/苹果/公司

对于人名、公司名等专有名词，分词系统如果没有足够的知识库支持，很容易出现错误分词。

例子4：形声字的语义丢失

汉字：灯、晴、晓、映

这些字都包含"日"字旁，表示与光亮相关。但在常见的tokenization方法中，这种语义关联往往被忽略，每个字被单独处理，失去了字形所携带的语义信息。

例子5：会意字的语义复杂性

汉字：森

"森"字由三个"木"字组成，表示茂密的树林。但如果tokenization将其简单地视为一个独立的字符，就会丢失其内部结构所传达的"多树成林"的语义。[CSDN余生-H]

例子6：词素结构信息的丢失

词组：老虎、狮子、猛虎

这些词都包含表示"动物"类别的"虎"或"狮"字，但如果tokenization仅仅将每个字作为独立的token，就会丢失这种类别信息。

例子7：多义字处理

汉字：长

"长"字有多个含义，如"长短"的长，"成长"的长，"长官"的长等。模型需要根据上下文来确定具体含义，这增加了处理的复杂性。

例子8：同音字处理

例如："雨"、"语"、"与"、"宇"、"羽"等

这些字在拼音中都是"yu"，但意义完全不同。模型在处理时需要考虑更多的上下文信息来区分这些字，增加了计算负担。

例子9：异体字处理

如："为"和"爲"、"干"和"幹"、"只"和"隻"等

这些异体字在含义上基本相同，但在字形上有差异。CSDN-余生H：模型需要额外的处理来识别这些异体字，确保它们被视为同一个概念。

2. 创造“新中文”

为了应对这些挑战,我们需要探索新的方法来改进汉字在现代技术环境中的适应性。以下是几个潜在的方向:

2.1 二维部首组合法

这种方法将汉字拆解为更小的构件(如部首、偏旁),使每个部分成为独立的基本词元(token)。

例如：胖 = 月半吃 = 口乞进 = 走井家 = 宀豚

2.1.1 组合法优点

保留汉字的语义关联：
通过将汉字拆解为部首、偏旁等构件，能够更好地保持汉字的语义关联。这有助于大模型更准确地理解汉字的上下文意义，提升其在语义处理上的表现。
提高创造新字的灵活性：
二维部首组合法允许系统通过已有的部首组合生成新的汉字或符号，使其在处理新词或非标准用语时更加灵活和适应性强。
降低计算复杂度：
这种方法将汉字分解为更小的词元，从而简化了计算和处理流程，提升了系统的运算效率，特别是在大规模文本处理时表现突出。

2.1.2 组合法挑战

部首组合的复杂性：
部首和偏旁的组合并不总是直观的，模型需要掌握复杂的汉字构字规则，否则可能生成无效的组合。
与现有编码系统的兼容性问题：
现有的Unicode等编码标准未基于部首编码，引入这种方法可能与现有系统存在兼容性问题，需考虑技术实现上的平衡。[CSDN余生-H]

2.2 拼音化与语调简化

这种方法提议通过使用拼音代替汉字书写，同时简化或减少语调的使用。这种方法将中文语言表音化，类似于拼音文字系统（如英语），以提升语言处理效率。做法就是默认一生，在需要声调的后面补上声调： ˊ 、 ˇ、ˋ ，这样就可以简化成26+3个字符了，整体还是简洁的

例如：吃饭-> chifaˋn 吃冰淇淋 -> chibingqiliˊng 西瓜 -> xigua

2.2.1 拼音化优点

高效扩展词汇量：
拼音化后的语言可以更方便地引入新词或外来词，无需为每个新概念创造新的汉字。这对快速发展、变化的现代社会尤为重要，特别是在技术、科学等领域，能够迅速引入新的表达方式。
简化语言处理：
拼音文字系统对于自然语言处理（NLP）和大模型来说相对更简单。现有的分词和语义分析工具对拼音语言的处理效率远高于汉字，因此拼音化后的中文在计算机语言处理中的效果会显著提升。
降低学习成本：
对于学习中文的用户，拼音化将大大降低语言学习的门槛。拼音比汉字更易于记忆和掌握，这对于外语学习者以及年轻一代用户来说都是一种更友好的学习方式，能更快地掌握基本的语音系统和拼读规则。

2.2.2 拼音化挑战

文化传承的潜在损失：
汉字承载着丰富的历史和文化信息，具有独特的象形、会意等构字特点。完全以拼音代替汉字会削弱汉字的文化意义，导致书写艺术、传统诗歌和汉字本身所代表的历史文化价值的丧失。这不仅影响语言美学，还可能导致部分古文献、经典文学的理解变得困难。
过渡成本高：
全面推广拼音化的过程需要克服巨大的社会成本。现有的教育体系、媒体、出版物、政府文档等大量依赖汉字，若转向拼音系统，所有这些内容都需要重新适应和更改，涉及到的时间、资源和经济成本十分巨大。此外，公众的接受度、习惯的改变也会是一个长期的过程。

2.3 过渡方法

2.3.1 混合输入

结合拼音输入的简便性和汉字部首的语义提示:

拼音+部首提示
部首优先搜索
动态部首关联学习

2.3.2 AI助力

利用大模型和上下文理解技术,提供更智能的汉字推荐,甚至是自动的转换以便过度兼容:

语境敏感推荐
语境感知的词汇扩展

3. 创造旧中文的“新表示”

创造新汉字需要挺长的时间，为了更好地处理汉字在自然语言处理（NLP）任务中的表现，可以临时通过增加一个抽象层，对汉字的字形、部首和语义进行更有效的表示。这种表示方式旨在将汉字复杂的结构和语义特征转化为大模型可以高效理解和处理的形式，保持汉字象形和部首关联的特点。

3.1 基于部首的词嵌入模型

部首在汉字中承担了重要的语义功能，是汉字的基本构成单位之一。通过将部首信息引入词嵌入模型，能够更好地捕捉汉字的语义关系。

引入部首信息到词嵌入中：
对于每个汉字，模型不仅学习该字的语义表示，还会将其部首信息作为附加特征。这意味着每个汉字的词嵌入不仅包含该字本身的语义信息，还会结合部首所承载的特定语义。例如，带有“氵”旁的字通常与水有关，模型通过这种方式将部首的语义关联注入到词嵌入中。
采用多层次嵌入技术：
对于每个汉字，嵌入表示可以分为多个层次：基础的字形嵌入（如字形特征）、部首嵌入（与语义相关的部首信息）、上下文语义嵌入（根据上下文学习的语义信息）。多层次嵌入技术可以帮助模型同时捕捉字形和语义信息的不同维度，从而提高对汉字复杂结构的理解能力。

3.2 字符结构嵌入

汉字的字形特征（如笔画、部件）蕴含了丰富的构字信息，可以直接融入词嵌入模型中。这种方法将汉字拆解为更小的结构单元（如笔画、部件），并基于这些基本单元构建词嵌入。

将汉字的字形特征融入到词嵌入模型中：
每个汉字可以通过其具体的构字特征（如笔画顺序、部件构成等）来表示。比如，模型可以通过学习汉字笔画的组合方式，捕捉不同汉字间的相似性。例如，“马”和“妈”虽然发音不同，但它们在字形上有相同的构件“马”，这种相似性可以通过字形特征嵌入得以保留并利用。
字形与语义的联合表示：
字形特征不仅仅是形式上的相似性，它还可以携带一定的语义信息。将字形特征嵌入与部首、语义层面的嵌入结合，可以构建出多维度的联合表示，这种联合表示能够帮助大模型更好地理解汉字的内在逻辑和语义关系。

3.3 利用图神经网络（GNN）多模态表示

在抽象层中，不仅包含文字的语义，还结合了字形、发音等多维度的信息，形成一种多模态的表示。通过这种方法，模型可以同时处理文本、字形和语音的输入，形成更加综合的语言理解能力

每个汉字通过其部首和字形构件生成唯一的编码，这个编码在抽象层中能够有效代表汉字的结构与语义。例如，汉字“河”的编码不仅包括其发音的拼音“hé”，还包含“氵”（部首）和“可”（字形）的信息，这种表示能够帮助模型更好地捕捉其水相关的语义。

利用GNN来学习汉字的图结构：
将汉字的构造关系（如部首和字形的关系）表示为图结构，每个汉字可以看作图中的节点，而部首和字形部件之间的关系则构成图的边。GNN可以通过这种结构化表示，学习汉字节点之间的相互影响和语义传递。例如，“氵”旁的字会与同样具有水相关语义的字构成紧密的图结构，GNN可以捕捉到这种语义联系。
捕捉汉字间的潜在关联：
除了基于字形和部首的显性关联，GNN还能学习汉字之间的隐含关联。例如，两个没有共同部首的字可能在某些上下文中频繁共现，GNN可以基于这些共现信息学习汉字间的语义关联。通过这种方式，GNN能够更好地捕捉字与字之间的潜在联系，从而增强汉字嵌入的语义表达力。[CSDN余生-H]

4. 总结

传统汉字在互联网和大模型时代确实面临着诸多挑战。然而,这些挑战也为我们提供了重新思考和创新的机会。通过结合现代技术和汉字的独特特性,我们有可能开发出既能保留汉字文化精髓,又能适应现代需求的"新中文"系统。

无论采取何种方案,都需要在保护文化传承和适应技术发展之间找到平衡。这需要语言学家、计算机科学家、文化学者等多方面专家的共同努力。在这个过程中,我们应该谨慎行事,确保新方案不仅技术可行,还能被社会广泛接受。

"新中文"的发展将是一个长期的、复杂的过程。它不仅涉及技术创新,还关乎文化传承和社会认同。我们期待在未来看到一个既能保留汉字独特魅力,又能在数字时代蓬勃发展的中文书写系统。

互联网时代呼唤‘新中文‘的崛起 - 谈谈象形文字在如今分词方法下面临的挑战