文字处理技术:布局的核心是行布局,难点是换行算法

简介: 文字处理技术:布局的核心是行布局,难点是换行算法

 几天前验证了新的布局思路(非常巧妙),简单改了一下就达到了目标。因为还涉及其他修改,暂时没有开通。


   之后就想,吾现在要精确布局。什么意思?咱先不要求别的,起码一行有几个汉字,这个要正确。这是最基本的要求,应该也容易(想着都简单)做到。事情当然没有这么简单,为什么呢?


   然后吾自己做了一批测试文档,发现布局确实有问题,就是一个字明明应该在上一行,结果换行到下一行。这是怎么回事呢?吾就进行了深入分析,被原来的算法绕得晕头转向,最终还是解决了。


   解决了之后,吾就明白过来:文字处理中,布局的核心是行布局。行布局有几个难点:


  • 标点压缩。这个是中文特性。
  • 空格压缩。以英文为主,中文基本没有空格。
  • 单词换行。又称断行,这个算是英文特性。
  • 表格、绕排的处理。


 文字处理技术之所以复杂,一方面算法本身就复杂(如标点压缩),另外就是这么情况要同时考虑进去,还要考虑到缩进、制表、边框、偏离(如段落中绘制汉字,要偏离上、左一定距离)。你觉得改一点不会影响其他,牵一发动全身,很有可能呼啦一下全错了。


   于是就决定,先修改行布局。咱做事都是从最难的开始。


目录
相关文章
|
18天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
42 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
61 3
|
2月前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)
44 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
42 1
|
2月前
|
机器学习/深度学习 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
60 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
52 1
|
2月前
|
机器学习/深度学习 数据采集 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-11
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-11
45 1
|
2月前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
49 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
71 0
|
2月前
|
存储 机器学习/深度学习 人工智能
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(下)
59 0
下一篇
DataWorks