合合信息——用智能文字识别技术赋能古彝文原籍数字化

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 合合信息——用智能文字识别技术赋能古彝文原籍数字化

1. 背景介绍:古彝文是什么?为什么要保护它?如何保护它?


现今我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,据《滇川黔桂彝文字集》显示,这种文字多达87046字;在国家图书馆珍藏中,由这些文字书写的古彝文典籍共有592册(件),可见其蕴含着巨大的文化价值和实用价值。


在当代,彝文依然拥有广泛的受用人群。四川省曾在1980年发布规范彝文共819字,截止2012年,滇川黔桂发布的通用彝文有5598字。这两种彝文常用于仪式、节庆、旅游景点等场合——彰显彝族非物质文化遗产的传承;同时也用于民族地区相关政策与宣传文件的翻译,以及文学创作。值得一提的是彝文的使用同样受到了国家层面上的重视,中央民族语文翻译局设有彝语文室,负责每年全国、省两会文件的翻译和同声传译等。


然而,一些自然与人为的影响长期严重制约、威胁着彝文古籍的保存、流通与使用,这使得抢救与保护现有的彝文古籍文献迫在眉睫,其中,数字化技术是重要手段之一,也是现如今梳理和保护古彝文最有希望的路线。


在这一技术可行性的驱动下,2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。双方探索用智能文字识别技术来对彝文古籍进行研究,同时结合现有的彝文信息化技术以促进并实现古彝文原籍的信息化建设、数字化保护乃至传承,这一工作在民族传统文化日渐濒危的当下有着独特的意义。


0a2653c851af460fa595bd959398a8f1.png


图1. 古彝文与其他古文字中可能存在某些相似关联(网络资料、邵文苑供图)


2. 传统方法保护古彝文:原籍难获、翻译困难


2.1. 古彝文原籍的破损与古法保存


彝文古籍文献的载体形式是多样化的,有纸质书籍、文书档案、碑刻、竹简、金属载体,以及一些口耳相传的口述史料。当下彝文古籍文献传世较多,但保留下来的许多文献破损情况十分严重,如传抄本经时间的推移,部分出现了人为的破损及潮湿、虫咬、发黄、酸化、腐损等诸多情况。


2d65d23f6d4748949b924e4057485923.png


图2. 破损的彝文古籍(图源中国文化书院)


过去的彝族人民发明了一种巧妙的“封底裹卷装”的方式来保存古籍。其具体装订方法:用一块幅面长度、宽度都超于纸张的皮革或布料作封底,将印写好的书叶以数叶为一叠放置在封底上,对齐边沿,在余幅处打眼用线装订,在封底末端中间订上一根细绳,不用时将书倒卷,以绳束紧,成卷存放。然而这种方法只适用于小型的纸质书籍,并且保护效果不佳,无法有效防范水渍、油渍、絮化、霉变、烟熏、脆化和后世的破坏性修复。


6de278e6d6694ce5bb08e7e842b7e74b.png


图3. 西南民族大学陈列封底裹卷装保护形式(邵文苑供图)


2.2 古彝文原籍的保护与翻译


不仅仅是保存,翻译古彝文原籍更是一件难事。当前,专家学者对于滇川黔桂四省区的原生态彝文古籍的保护与翻译流程如下:


2.2.1 获取古彝文原籍


第一步就是要获取古彝文原籍,然而这些原籍并不容易获得。研究者要向持有经书的布摩(彝族祭司)购买某本祖传书籍,但受民族文化的影响,布摩们通常以出卖古籍为耻,甚至有的人在入葬时要求与自己手中的经书一同火化,这导致了不少古籍的消失。

在政府专员的反复动员和劝说下,偶尔会有布摩愿意转让部分典籍,也有一些致力于推广传统文化、不被禁忌理念束缚的进步人士愿意转让经书,这才使得研究古彝文原籍有了现实可能。为了获取古彝文原籍,彝文研究者们必须长期驻扎当地,协助当地机构的各项工作,与古彝文传承人建立良好的关系,最终才能取得对方的信任与支持。


2.2.2 修复古彝文原籍

拿到古籍后不能贸然翻动书籍,若其中页面有残缺、粘滞,则需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅。一些古籍因年代久远出现脆化导致纸片破碎,还需重新拼接,例如:


0a2653c851af460fa595bd959398a8f1.png


图4. 毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)


2.2.3 翻译古彝文原籍


完成了一系列的工作之后,最后才是对这些古籍进行断句和翻译。为了保护古籍,翻译家通常依照复印件来完成日常的翻译工作。如果彝语是译者的母语,那么他就可以自己将语句分开,加上国际音标;母语不是彝语的译者还需要在母语者的帮助下记音,再用汉语逐字直译,最后用流畅的汉语对整句话进行意译,这种方法称之为“四行法”,是丁文江和罗文笔翻译《爨文丛刻》时开创的。


2d65d23f6d4748949b924e4057485923.png


图5. 毕节市彝文文献翻译研究中心展示汉译书稿(邵文苑供图)


但是,彝文字目前还没有被数字化,因此没有预留的Unicode编码区段,所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,最终形成如图看到的四行体彝汉文对译。


2.2.4 出版古彝文译著


遵循以上三个步骤,速度快的译者一两年就可以出版一本译著,慢的需要好几年,具体情况视原稿本身的长度而定。合合信息与上海大学本次数字化合作的研究对象《西南彝志》一共26卷,建国初首先由罗国义、王兴友两位先生进行汉译,用了10年时间。但这个开创性的译本由于诸多限制存在一定纰漏,所以毕节地区的第二代彝文翻译家王运权、王仕举等先生从上世纪八十年代开始主持修订校正工作,一共用了17年时间完成再版。


6de278e6d6694ce5bb08e7e842b7e74b.png


图6. 中国民族图书馆馆藏彝文古籍《西南彝志》(局部),书长49.1cm,宽31cm,每页14行,每行38个字,全书共26卷,计37万余字,列有400多个标题。2008年,由中国民族图书馆申报入选第一批国家珍贵古籍名录,编号02349。


3. 人工智能保护古彝文:AI技术助力彝文古籍传承


3.1 彝文古籍的数字化道路


为了应对古籍难以获取的现实困境,彝文古籍文献必须走出传统图书馆、文献馆、博物馆、私人留存等传承制约,开发出数字化的数据库和翻译系统。利用古彝文电子数据库,多维度数字化博物馆的形式,让彝文古籍文献得以在信息化时代重新焕发生机。不同于现今各大研究机构和大学对规范和通用彝文的数字化工作,上海大学携手合合信息推进的“原生态古彝文”研究项目根据四字节编码系统标注异体字、变体字、误用字和混用字,并由此精确建立彝文古籍电子数据库的做法,在古彝文研究领域属于首创。


8ec4f2997fb246878c34ecd6d122b7c6.png


图7. 上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式(图源合合信息)


古籍数字化已经成为文化保护和发展的新方向和新趋势,其尤其强调对古籍文本进行数字化处理,例如数字化输入技术、智能化处理技术、古籍自动句读与标点、古籍词语自动切分、古籍命名实体识别、计算机图像识别等。同时,学界和业界的联合也使古籍焕发全新生命力,如北京大学携手字节跳动推动中华古籍数字化平台建设,将推出结合OCR、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台;阿里巴巴与四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆跨界协作,发起“汉典重光”项目,致力于寻觅海外流散的中国古籍,推动其以数字化方式“回归”。可见,本次的古籍数字化项目合作在技术是成熟的、可行的。


3.2 古彝文识别的全新挑战


但现阶段的大部分古籍识别项目专注于对汉字的识别。在合合信息与上海大学的古彝文识别项目的难度是汉文古籍的许多倍,因为彝文古籍具备 几项汉文古籍所没有的挑战。因此,亟需出台新的策略解决彝文古籍文献传承和保护面临的困境。合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战。具体来说,总共有五大全新的挑战:


版式多样。

汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,这样会给文字定位造成挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

手写识别困难。

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足。

图像质量差。

汉文和彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响图像质量问题。此外,由于彝文古籍的保存环境更为艰苦,文本还呈现墨色深浅不一、字符间距和行距大小不一的情况。合合信息智能文字识别技术可对图像质量进行增强,提升文字识别效率与准确性。

笔画相近。

彝文字从来没有统一过,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,也即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。比如:

0a2653c851af460fa595bd959398a8f1.png

图8. 表示“种类”的彝文字[ m o 21 mo^{21} mo

21

]/[ m ω 33 m\omega^{33} mω

33

]的四个变体(邵文苑供图)


这样的变体字大量存在,在彝文已经相对规范的汉译本中就有15%的变体字,原稿中就更多了。除此以外,彝文还存在一些汉文所没有的笔画,比如“横飘”、“横回交”等。对于不熟悉这种文字的人来说,有些字在视觉上无甚差异,但实际上却是意义读音完全不同的两个字。比如:


2d65d23f6d4748949b924e4057485923.png


图9. 两个形似、但音义完全不同的彝文字(分别为“酒”、“仪礼”,邵文苑供图)


这些笔画相近的字符不仅给识别模型的建立造成困难,而对于参与校注的初学者来说也是一大阻碍。对此,上海大学的古彝文研究员设计了一套四字节的编码,可较好描述每个变体和形近字符之间的细微差别,由此建立便于机器学习的数据样本。


异体众多。

古彝文每个字的异体写法甚至多达几十种,前文已提及未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。除此以外,彝文古籍还存在“同音字混用”的现象:为了不使某些字的写法失传,布摩会在抄写两句重复经文时,会故意让第一句话采用本字,而在第二句中的相同位置用同音字来替换,合合信息智能文字识别技术将有助于应对文字识别中“理解、认知”层面的难题。


3.3 古彝文数字化的关键技术


此次,合合信息与上海大学联合开启的“ 贵州古彝文图像识别及数字化校对项目 ”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。虽然古彝文的识别研究尚处于起步阶段,但合合信息拥有强大的智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)等关键技术积累,其中智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。


在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。


4. AI让中华文化多彩的底色绚烂绽放


随着数字化技术的运用范围的愈加广阔,我国已经启动了一批古籍数字化项目,中国早在2007年就实施中华古籍保护专项计划,但因经费和人员的缺失,无法满足古籍保护的需求,仅按照现有古籍专业修复队伍的情况,需要1500年才能完成古籍修复。但是随着AI时代的到来,新技术必将以指数级的速度改善这一现状。


6de278e6d6694ce5bb08e7e842b7e74b.png


图10. 彝文古籍的修复过程(图源中国新闻社)


4.1 新活力:彝文古籍保护焕发古文化新活力


随着国学和非遗越来越热,更多人愿意去了解古彝文献和口传史诗所记载的那个的世界,无论是南诏古国、夜郎古国还是巴蜀古国,他们文化的神秘和丰富都令人向往。文化的精神内核就在于文化古籍之中,只有更好地保护和发掘古籍中的内容,才能进一步通过传统媒体(诗朗诵、电影、音乐剧)和新兴媒体(元宇宙、IP主题乐园、浸入式戏剧)拓展文化体验的维度,将文字记载的历史用更富有魅力的方式呈现。


4.2 新生命:彝文古籍数字化与上海研究者的渊源


上海大学社会学院人类学民俗学研究所的邵文苑博士学习和研究彝文古籍已逾10年,在国外重要期刊和出版物上发表了文章和译文。邵博士的研究起源于国家级重点学科上海师范大学比较文学与世界文学研究中心、上海交通大学人文学院、贵州大学人文学院于2011年10月联合筹办的“贵州多民族文化复合和谐模式及其与东盟国家关系”项目培训会。她在会上结识了彝文研究领域的大家——王继超、王明贵两位老师,并决心从事彝文古籍研究。


8ec4f2997fb246878c34ecd6d122b7c6.png


图11. 2013年邵文苑在毕节彝文翻译与研究中心向王继超先生请教


毕业回国后,邵博士开始在上海大学任博士后/讲师职位,得到“泮池计划”的资助,进一步推进彝文古籍的翻译、研究、数字化与产业化。上海大学是地方政府重点扶持的高水平大学,以具有竞争力的薪资待遇吸引国内外顶尖大学博士毕业生加盟,并以与国际接轨的治校理念、完善的基础研究设施协助其研究成果的孵化。邵博士所在的上海大学社会学院长期设有费孝通田野调查项目资助计划,其丰富的田野工作与基层实习经验,为此类项目的推进营造出良好氛围。


入职之后,邵博士受到前辈们的启发和激励,又因着汉字与彝文的亲近关系,邵博士将能够体现造字规律的五笔编码应用于古彝文,又为少数民族文字的数字化贡献了一份力量。


刚开始进行研究工作的时候,邵博士要花一整个工作日的时间才能找到某个字在某本书里的全部样例。在汉字OCR技术成熟后,她选择用汉字反查彝文,再用Adobe之类的工具书签做标记,效率提高很多,但如果换了一本书,同样的过程(反查+标记)还要再来一遍。现在用机器来辅助识字后,平均差不多20个有代表性的样例,就可以达到较高的识别率,所以整个过程的人工付出只要30分钟就可以了。从一整个工作日到30分钟,效率有显著提高。


邵教授提到:民俗学有个理论叫 传统的生命周期(life cycle of a tradition),意思是传统也和人一样有生老病死的过程,并和人一样有通过后代延续“生命”的能力。在世界人工智能大会上,邵教授发现合合信息展示的“钟鼎文识别”成果与自己的项目十分相关,自此有了合作的意愿,邵教授认为与合合信息的合作可能就是彝文古籍的“传统的新生命周期”的开始。


4.3 新技术:合合信息识别技术赋能古彝文数字化


上海合合信息科技股份有限公司是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。16年来深耕智能文字识别+商业大数据领域,在C端推出了多款深受全球用户喜爱的效率产品,例如:名片全能王、扫描全能王、启信宝等。在B端积极服务于AI+大数据赋能数字化转型,服务了超过30+个行业和2000+全球企业。近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。


0a2653c851af460fa595bd959398a8f1.png


图12. 合合信息


合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。


2d65d23f6d4748949b924e4057485923.png


图13. 合合信息通过智能文字识别技术,识别出复刻在龟甲上的甲骨文(图源2021世界人工智能大会)


合合信息前期在甲骨文、金文中所作的研究让他们有了足够的技术积累,这使得古彝文识别成为一件“水到渠成”的事情。


相关文章
|
20天前
|
数据采集 人工智能 文字识别
如何绕过Captcha并使用OCR技术抓取数据
在现代网页数据抓取中,Captcha作为一种防止爬虫和恶意访问的措施,广泛应用于各种网站。本文介绍如何使用OCR技术绕过文字Captcha,并通过代理IP技术提高爬虫的隐蔽性。具体实现包括下载Captcha图片、使用Tesseract OCR识别文字、通过代理IP抓取目标数据。示例代码展示了如何抓取大众点评的商家信息。
如何绕过Captcha并使用OCR技术抓取数据
|
22天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
5月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 数据安全/隐私保护 iOS开发
印刷文字识别使用问题之如何识别礼品册上的卡号、密码信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
|
5月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
5月前
|
文字识别 Java
文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
文本,文字识别12,接口返回值和异常封装,一个好的接口,应该包括,错误码,提示信息,返回的数据,应该知道出错,错在哪里,抛出业务异常应该怎样解决?出现业务异常的时候,抛出业务异常,全局异常处理
|
5月前
|
文字识别 Java Python
文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
|
5月前
|
文字识别 安全 API
印刷文字识别使用问题之如何获取appid和key等信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6月前
|
文字识别 自然语言处理 开发工具
印刷文字识别产品使用合集之OCR统一识别功能已开通,响应为200但没有content信息,是什么原因
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。