合合信息——用智能文字识别技术赋能古彝文原籍数字化

简介: 合合信息——用智能文字识别技术赋能古彝文原籍数字化

1. 背景介绍:古彝文是什么?为什么要保护它?如何保护它?


现今我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,据《滇川黔桂彝文字集》显示,这种文字多达87046字;在国家图书馆珍藏中,由这些文字书写的古彝文典籍共有592册(件),可见其蕴含着巨大的文化价值和实用价值。


在当代,彝文依然拥有广泛的受用人群。四川省曾在1980年发布规范彝文共819字,截止2012年,滇川黔桂发布的通用彝文有5598字。这两种彝文常用于仪式、节庆、旅游景点等场合——彰显彝族非物质文化遗产的传承;同时也用于民族地区相关政策与宣传文件的翻译,以及文学创作。值得一提的是彝文的使用同样受到了国家层面上的重视,中央民族语文翻译局设有彝语文室,负责每年全国、省两会文件的翻译和同声传译等。


然而,一些自然与人为的影响长期严重制约、威胁着彝文古籍的保存、流通与使用,这使得抢救与保护现有的彝文古籍文献迫在眉睫,其中,数字化技术是重要手段之一,也是现如今梳理和保护古彝文最有希望的路线。


在这一技术可行性的驱动下,2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。双方探索用智能文字识别技术来对彝文古籍进行研究,同时结合现有的彝文信息化技术以促进并实现古彝文原籍的信息化建设、数字化保护乃至传承,这一工作在民族传统文化日渐濒危的当下有着独特的意义。


0a2653c851af460fa595bd959398a8f1.png


图1. 古彝文与其他古文字中可能存在某些相似关联(网络资料、邵文苑供图)


2. 传统方法保护古彝文:原籍难获、翻译困难


2.1. 古彝文原籍的破损与古法保存


彝文古籍文献的载体形式是多样化的,有纸质书籍、文书档案、碑刻、竹简、金属载体,以及一些口耳相传的口述史料。当下彝文古籍文献传世较多,但保留下来的许多文献破损情况十分严重,如传抄本经时间的推移,部分出现了人为的破损及潮湿、虫咬、发黄、酸化、腐损等诸多情况。


2d65d23f6d4748949b924e4057485923.png


图2. 破损的彝文古籍(图源中国文化书院)


过去的彝族人民发明了一种巧妙的“封底裹卷装”的方式来保存古籍。其具体装订方法:用一块幅面长度、宽度都超于纸张的皮革或布料作封底,将印写好的书叶以数叶为一叠放置在封底上,对齐边沿,在余幅处打眼用线装订,在封底末端中间订上一根细绳,不用时将书倒卷,以绳束紧,成卷存放。然而这种方法只适用于小型的纸质书籍,并且保护效果不佳,无法有效防范水渍、油渍、絮化、霉变、烟熏、脆化和后世的破坏性修复。


6de278e6d6694ce5bb08e7e842b7e74b.png


图3. 西南民族大学陈列封底裹卷装保护形式(邵文苑供图)


2.2 古彝文原籍的保护与翻译


不仅仅是保存,翻译古彝文原籍更是一件难事。当前,专家学者对于滇川黔桂四省区的原生态彝文古籍的保护与翻译流程如下:


2.2.1 获取古彝文原籍


第一步就是要获取古彝文原籍,然而这些原籍并不容易获得。研究者要向持有经书的布摩(彝族祭司)购买某本祖传书籍,但受民族文化的影响,布摩们通常以出卖古籍为耻,甚至有的人在入葬时要求与自己手中的经书一同火化,这导致了不少古籍的消失。

在政府专员的反复动员和劝说下,偶尔会有布摩愿意转让部分典籍,也有一些致力于推广传统文化、不被禁忌理念束缚的进步人士愿意转让经书,这才使得研究古彝文原籍有了现实可能。为了获取古彝文原籍,彝文研究者们必须长期驻扎当地,协助当地机构的各项工作,与古彝文传承人建立良好的关系,最终才能取得对方的信任与支持。


2.2.2 修复古彝文原籍

拿到古籍后不能贸然翻动书籍,若其中页面有残缺、粘滞,则需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅。一些古籍因年代久远出现脆化导致纸片破碎,还需重新拼接,例如:


0a2653c851af460fa595bd959398a8f1.png


图4. 毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)


2.2.3 翻译古彝文原籍


完成了一系列的工作之后,最后才是对这些古籍进行断句和翻译。为了保护古籍,翻译家通常依照复印件来完成日常的翻译工作。如果彝语是译者的母语,那么他就可以自己将语句分开,加上国际音标;母语不是彝语的译者还需要在母语者的帮助下记音,再用汉语逐字直译,最后用流畅的汉语对整句话进行意译,这种方法称之为“四行法”,是丁文江和罗文笔翻译《爨文丛刻》时开创的。


2d65d23f6d4748949b924e4057485923.png


图5. 毕节市彝文文献翻译研究中心展示汉译书稿(邵文苑供图)


但是,彝文字目前还没有被数字化,因此没有预留的Unicode编码区段,所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,最终形成如图看到的四行体彝汉文对译。


2.2.4 出版古彝文译著


遵循以上三个步骤,速度快的译者一两年就可以出版一本译著,慢的需要好几年,具体情况视原稿本身的长度而定。合合信息与上海大学本次数字化合作的研究对象《西南彝志》一共26卷,建国初首先由罗国义、王兴友两位先生进行汉译,用了10年时间。但这个开创性的译本由于诸多限制存在一定纰漏,所以毕节地区的第二代彝文翻译家王运权、王仕举等先生从上世纪八十年代开始主持修订校正工作,一共用了17年时间完成再版。


6de278e6d6694ce5bb08e7e842b7e74b.png


图6. 中国民族图书馆馆藏彝文古籍《西南彝志》(局部),书长49.1cm,宽31cm,每页14行,每行38个字,全书共26卷,计37万余字,列有400多个标题。2008年,由中国民族图书馆申报入选第一批国家珍贵古籍名录,编号02349。


3. 人工智能保护古彝文:AI技术助力彝文古籍传承


3.1 彝文古籍的数字化道路


为了应对古籍难以获取的现实困境,彝文古籍文献必须走出传统图书馆、文献馆、博物馆、私人留存等传承制约,开发出数字化的数据库和翻译系统。利用古彝文电子数据库,多维度数字化博物馆的形式,让彝文古籍文献得以在信息化时代重新焕发生机。不同于现今各大研究机构和大学对规范和通用彝文的数字化工作,上海大学携手合合信息推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创。


8ec4f2997fb246878c34ecd6d122b7c6.png


图7. 上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式(图源合合信息)


古籍数字化已经成为文化保护和发展的新方向和新趋势,其尤其强调对古籍文本进行数字化处理,例如数字化输入技术、智能化处理技术、古籍自动句读与标点、古籍词语自动切分、古籍命名实体识别、计算机图像识别等。同时,学界和业界的联合也使古籍焕发全新生命力,如北京大学携手字节跳动推动中华古籍数字化平台建设,将推出结合OCR、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台;阿里巴巴与四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆跨界协作,发起“汉典重光”项目,致力于寻觅海外流散的中国古籍,推动其以数字化方式“回归”。可见,本次的古籍数字化项目合作在技术是成熟的、可行的。


3.2 古彝文识别的全新挑战


但现阶段的大部分古籍识别项目专注于对汉字的识别。在合合信息与上海大学的古彝文识别项目的难度是汉文古籍的许多倍,因为彝文古籍具备 几项汉文古籍所没有的挑战。因此,亟需出台新的策略解决彝文古籍文献传承和保护面临的困境。合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战。具体来说,总共有五大全新的挑战:


版式多样。

汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,这样会给文字定位造成挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

手写识别困难。

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足。

图像质量差。

汉文和彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响图像质量问题。此外,由于彝文古籍的保存环境更为艰苦,文本还呈现墨色深浅不一、字符间距和行距大小不一的情况。合合信息智能文字识别技术可对图像质量进行增强,提升文字识别效率与准确性。

笔画相近。

彝文字从来没有统一过,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,也即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。比如:

0a2653c851af460fa595bd959398a8f1.png

图8. 表示“种类”的彝文字[ m o 21 mo^{21} mo

21

]/[ m ω 33 m\omega^{33} mω

33

]的四个变体(邵文苑供图)


这样的变体字大量存在,在彝文已经相对规范的汉译本中就有15%的变体字,原稿中就更多了。除此以外,彝文还存在一些汉文所没有的笔画,比如“横飘”、“横回交”等。对于不熟悉这种文字的人来说,有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字。比如:


2d65d23f6d4748949b924e4057485923.png


图9. 两个形似、但音义完全不同的彝文字(分别为“酒”、“仪礼”,邵文苑供图)


这些笔画相近的字符不仅给识别模型的建立造成困难,而对于参与校注的初学者来说也是一大阻碍。对此,上海大学的古彝文研究员设计了一套四字节的编码,可较好描述每个变体和形近字符之间的细微差别,由此建立便于机器学习的数据样本。


异体众多。

古彝文每个字的异体写法甚至多达几十种,前文已提及未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。除此以外,彝文古籍还存在“同音字混用”的现象:为了不使某些字的写法失传,布摩会在抄写两句重复经文时,会故意让第一句话采用本字,而在第二句中的相同位置用同音字来替换,合合信息智能文字识别技术将有助于应对文字识别中“理解、认知”层面的难题。


3.3 古彝文数字化的关键技术


此次,合合信息与上海大学联合开启的“ 贵州古彝文图像识别及数字化校对项目 ”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。虽然古彝文的识别研究尚处于起步阶段,但合合信息拥有强大的智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)等关键技术积累,其中智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。


在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。


4. AI让中华文化多彩的底色绚烂绽放


随着数字化技术的运用范围的愈加广阔,我国已经启动了一批古籍数字化项目,中国早在2007年就实施中华古籍保护专项计划,但因经费和人员的缺失,无法满足古籍保护的需求,仅按照现有古籍专业修复队伍的情况,需要1500年才能完成古籍修复。但是随着AI时代的到来,新技术必将以指数级的速度改善这一现状。


6de278e6d6694ce5bb08e7e842b7e74b.png


图10. 彝文古籍的修复过程(图源中国新闻社)


4.1 新活力:彝文古籍保护焕发古文化新活力


随着国学和非遗越来越热,更多人愿意去了解古彝文献和口传史诗所记载的那个的世界,无论是南诏古国、夜郎古国还是巴蜀古国,他们文化的神秘和丰富都令人向往。文化的精神内核就在于文化古籍之中,只有更好地保护和发掘古籍中的内容,才能进一步通过传统媒体(诗朗诵、电影、音乐剧)和新兴媒体(元宇宙、IP主题乐园、浸入式戏剧)拓展文化体验的维度,将文字记载的历史用更富有魅力的方式呈现。


4.2 新生命:彝文古籍数字化与上海研究者的渊源


上海大学社会学院人类学民俗学研究所的邵文苑博士学习和研究彝文古籍已逾10年,在国外重要期刊和出版物上发表了文章和译文。邵博士的研究起源于国家级重点学科上海师范大学比较文学与世界文学研究中心、上海交通大学人文学院、贵州大学人文学院于2011年10月联合筹办的“贵州多民族文化复合和谐模式及其与东盟国家关系”项目培训会。她在会上结识了彝文研究领域的大家——王继超、王明贵两位老师,并决心从事彝文古籍研究。


8ec4f2997fb246878c34ecd6d122b7c6.png


图11. 2013年邵文苑在毕节彝文翻译与研究中心向王继超先生请教


毕业回国后,邵博士开始在上海大学任博士后/讲师职位,得到“泮池计划”的资助,进一步推进彝文古籍的翻译、研究、数字化与产业化。上海大学是地方政府重点扶持的高水平大学,以具有竞争力的薪资待遇吸引国内外顶尖大学博士毕业生加盟,并以与国际接轨的治校理念、完善的基础研究设施协助其研究成果的孵化。邵博士所在的上海大学社会学院长期设有费孝通田野调查项目资助计划,其丰富的田野工作与基层实习经验,为此类项目的推进营造出良好氛围。


入职之后,邵博士受到前辈们的启发和激励,又因着汉字与彝文的亲近关系,邵博士将能够体现造字规律的五笔编码应用于古彝文,又为少数民族文字的数字化贡献了一份力量。


刚开始进行研究工作的时候,邵博士要花一整个工作日的时间才能找到某个字在某本书里的全部样例。在汉字OCR技术成熟后,她选择用汉字反查彝文,再用Adobe之类的工具书签做标记,效率提高很多,但如果换了一本书,同样的过程(反查+标记)还要再来一遍。现在用机器来辅助识字后,平均差不多20个有代表性的样例,就可以达到较高的识别率,所以整个过程的人工付出只要30分钟就可以了。从一整个工作日到30分钟,效率有显著提高。


邵教授提到:民俗学有个理论叫 传统的生命周期(life cycle of a tradition),意思是传统也和人一样有生老病死的过程,并和人一样有通过后代延续“生命”的能力。在世界人工智能大会上,邵教授发现合合信息展示的“钟鼎文识别”成果与自己的项目十分相关,自此有了合作的意愿,邵教授认为与合合信息的合作可能就是彝文古籍的“传统的新生命周期”的开始。


4.3 新技术:合合信息识别技术赋能古彝文数字化


上海合合信息科技股份有限公司是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。16年来深耕智能文字识别+商业大数据领域,在C端推出了多款深受全球用户喜爱的效率产品,例如:名片全能王、扫描全能王、启信宝等。在B端积极服务于AI+大数据赋能数字化转型,服务了超过30+个行业和2000+全球企业。近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。


0a2653c851af460fa595bd959398a8f1.png


图12. 合合信息


合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。


2d65d23f6d4748949b924e4057485923.png


图13. 合合信息通过智能文字识别技术,识别出复刻在龟甲上的甲骨文(图源2021世界人工智能大会)


合合信息前期在甲骨文、金文中所作的研究让他们有了足够的技术积累,这使得古彝文识别成为一件“水到渠成”的事情。


相关文章
|
3月前
|
人工智能 文字识别 API
医疗票据OCR技术演进:从模板匹配到智能理解的突破
医疗票据OCR正从传统模板匹配迈向智能理解新阶段。快瞳科技融合OCR与医疗知识图谱,实现高精度、自适应识别,显著提升效率与准确性,推动医疗数字化智能化升级。
|
7月前
|
机器学习/深度学习 存储 文字识别
OCR技术在政务领域的革新与趋势
OCR(光学字符识别)技术正深刻变革政务领域。从证件识别到文档电子化,从打破数据孤岛到深度学习驱动的技术革新,OCR极大提升了政务服务效率与精准度。未来,随着与自然语言处理、大数据等技术融合,OCR将提供更综合、高效的解决方案,助力政务数字化转型,实现服务升级与创新突破。
253 58
|
8月前
|
机器学习/深度学习 文字识别 自然语言处理
OCR技术:数字化办公的“隐形助手”
在数字化办公时代,OCR(光学字符识别)技术如同一位“隐形助手”,将纸质文档转化为可编辑的电子文本,大幅提升工作效率与准确性。它不仅革新了文档处理方式,还通过智能化应用实现票据识别、客户信息录入等功能,助力财务和CRM系统自动化。此外,OCR技术能挖掘文档数据价值,支持决策分析,并可通过个性化定制满足跨语言协作或内容搜索等需求。开发者可结合自然语言处理、机器学习等技术,探索更多创新应用场景,如智能文档管理和内容可视化工具。OCR技术正以高效、智能的方式,推动办公流程全面升级,激发无限可能。
488 57
|
8月前
|
机器学习/深度学习 文字识别 自然语言处理
OCR技术:解锁文字识别的无限可能
OCR(光学字符识别)技术是数字化浪潮中的关键工具,可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正,全面解析OCR技术的原理,并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来,OCR将与自然语言处理、计算机视觉等技术深度融合,推动智能化和综合化发展。通过开放生态系统和政策支持,开发者可探索更多创新场景,如古籍数字化、盲人阅读等,为社会带来更多价值。
1943 57
|
机器学习/深度学习 数据采集 文字识别
7大核心技术:智能OCR如何助力市政单位文档处理数字化转型
随着政务服务数字化的推进,市政单位面临复杂的文档处理需求。本文介绍了一种基于智能OCR技术的一站式文档处理方案,涵盖数据矫正、通用文字识别、表格与票据结构化提取、卡证分类、印章检测、手写文字识别及图像内容识别等核心技术,显著提升工作效率与文档解析的准确性。
389 1
|
10月前
|
机器学习/深度学习 文字识别 开发者
使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息(附有Pix2Text识别图片内容和laTex公式的代码)
有时候报错并不是你代码有问题,源码出错也是很常见的情况,比如之前使用mxgraph也出现了不知名bug,最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
编解码 文字识别 自然语言处理
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
### 简介 【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件,方便高效处理大量图片。然而,OCR 技术面临字符识别错误(如形近字混淆、生僻字识别不佳)、格式错误(段落错乱、换行问题)和语义理解错误等挑战。为提高准确性,建议提升图片质量、选择合适的 OCR 软件及参数,并结合自动校对与人工审核,确保最终文本的正确性和完整性。
1873 12
如何使用OCR技术批量识别图片中的文字并重命名文件,OCR 技术批量识别图片中的文字可能出现的错误
|
11月前
|
文字识别 自然语言处理 API
如何结合NLP(自然语言处理)技术提升OCR系统的语义理解和上下文感知能力?
通过结合NLP技术,提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别,并通过BERT模型进行语义理解和纠错,最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。
|
11月前
|
边缘计算 文字识别 自然语言处理
当OCR遇见大语言模型:智能文本处理的进化之路
简介:本文探讨光学字符识别(OCR)技术与大语言模型(LLM)结合带来的革新。传统OCR在处理模糊文本、复杂排版时存在局限,而LLM的语义理解、结构解析和多模态处理能力恰好弥补这些不足。文中通过代码实例展示了两者融合在错误校正、文档解析、多语言处理、语义检索及流程革新上的五大优势,并以财务报表解析为例,说明了该技术组合在实际应用中的高效性。此外,文章也展望了未来的技术发展趋势,包括多模态架构、小样本学习和边缘计算部署等方向,预示着文本处理技术正迈向智能认知的新时代。(240字)
|
机器学习/深度学习 文字识别 自然语言处理
医疗行业化验单智能识别技术探讨:OCR与表格识别的应用
本文探讨了OCR与表格识别技术在医疗化验单处理中的应用,通过自动化数据提取和录入,显著提高了效率和准确性,降低了人工劳动强度和错误率。技术实现包括图像预处理、文字识别和表格解析等核心算法的优化,支持与医院信息管理系统集成,未来将向跨模态数据融合、多语言适配及数据安全方向发展。
1358 9

热门文章

最新文章