古彝文识别:文化遗产的数字化之旅

本文涉及的产品
通用文字识别,通用文字识别 200次/月
票证核验,票证核验 50次/账号
小语种识别,小语种识别 200次/月
简介: 在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

🍅前言

在文化遗产保护领域,人工智能正在发挥着越来越重要的作用。古彝文,作为中国西南地区古老而独特的文字,承载着深厚的历史文化底蕴。然而,由于古彝文的书写复杂,传统识别方法往往费时费力,因此古彝文的保护和传承面临着重大的挑战。随着科技的不断发展,人工智能技术的运用为古彝文保护和传承带来了新的可能性。其中,合合信息公司以其卓越的人工智能技术,为古彝文识别带来了创新。

🍓古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,至于彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。因此,对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。
7ad81beadedd41e1bb7ed4e45e78a8c2.png

网络资料

如上图所示,我们可以感受到彝文是一种具有丰富文化内涵和独特表现形式的文字,是中国少数民族文化宝库中的重要组成部分。

🍓古彝文识别的重难点

🍒原籍难以获取,传统翻译过程繁琐,周期长。

首先,古彝文原籍难以获得,由于彝族文化的封闭性和保守性,古彝文文献和文物不易获取,且常因自然灾害和难以保存而遭破坏,因此获取原始资料并深入了解其含义和文化背景异常困难。其次,古彝文翻译过程繁琐,需具备深厚的语言学、历史学和文化学知识,同时需对彝族文化和历史有深入了解才能准确翻译。最后,古彝文翻译可能需要十年起步,翻译者需投入大量时间和精力来完成翻译工作。

🍒版式多样,笔画相近。

汉文和彝文古籍的排版风格各异,字符间距和行距有密有疏。彝文古籍虽无大小字混排、双列夹字的校注传统,但也会出现加字、替字、整句倒置和文字方向不一致等现象,给文字定位带来挑战。此外,彝文字从未统一,存在大量异体字和变体字,各地方布摩为防止敌方破译经书会故意增加或减少笔画。

fb320cfcb600434ca860cb412930a44f.png

这四个字都表示“种类”的意思。由此可见,这样的异体字或者变体字给文字定位造成了很大的挑战。在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

🍒图像质量差,手写识别难。

彝文缮写员手写风格差异大,需大量数据库建识别模型,但目前无公开数据集且通晓者少,导致标注工作量大、数据量不足,需引入AI技术构建模型弥补训练样本不足。而且,汉文和彝文古籍经历多代传承、战火与自然风蚀,存在页面残缺、霉斑污渍等图像质量问题,尤其彝文古籍保存环境更艰苦,文本墨色深浅不一、字符间距和行距大小不一。

8d33e1bbaa10487488f7fe288bce4c2b.png

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

如上图,古籍的修复就要费很大力气,人工识别本就难上加难,更何况用AI技术去识别它,这是一项很大的挑战,万幸,合合信息行业领先的智能文字识别技术、上海大学古彝文研究员的丰富经验将有助于应对这些挑战!

🍒古彜文无统一的计算机编码

古彜文无统一的计算机编码,需要重新整理并增加相关标注数据。此外,古籍和字符部分存在背景干扰,需要通过技术手段逐一解决。为了使AI能够学习,字符的研究需要一个相对固定的编码,因此上海大学、合合信息和华南理工大学合作重新编制了一个编码系统。

🍓合合信息的文字识别技术

合合信息在古文字识别领域已有了一定的积累和成果。早在2021年、2022年的世界人工智能大会上,合合信息就展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。 因此,现在看来,在已有经验的前提下,合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情。

de12012b4eaf481db1e9491695ed4968.jpeg

智能文字识别技术是合合信息公司的核心技术之一,主要包括智能图像处理、基于深度学习的复杂场景文字识别和自然语言处理(NLP)三个核心模块。这些模块采用了一系列先进的算法和深度学习模型,以实现对文字的高效和准确识别。

智能图像处理采用了先进的数字图像处理技术,包括色彩平衡、对比度增强、滤波等算法,以实现对文档图像的高效处理。此外,该模块还采用了高级的图像分割和文字定位算法,以从图像中准确地提取出文字信息。这些技术对于文字的识别和提取至关重要,因为它们可以提高识别准确性并减少误差。

目前,合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多彜文古籍,而扫描全能王的高清滤镜技术还可以高清拍摄古籍画面,感兴趣的同学可以下载体验一下

下图则是博主下载扫描全能王app后识别的彜文古籍,确实很清晰。

92647eb6924943989cad05c78442deb8.jpeg

b49d1172b327454188306a62b63c6db9.jpeg

🍓古彝文识别的意义

古彝文作为珍贵的文化遗产,其保护和传承具有深远的历史和文化意义。合合信息利用人工智能技术,成功研发出高精度的古彝文识别模型,为古彝文保护和传承带来了新的突破。通过数字化保存和传播古彝文,我们能够让更多人了解这一独特的文化瑰宝,并为学术研究提供便利。同时,这也为其他文化遗产的保护提供了可供借鉴的经验。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

🍅总结

总之,合合信息公司在古彝文识别领域的突破性研究,为古彝文文化遗产保护带来希望,实现了文化遗产的数字化之旅。通过深度学习和人工智能技术,我们能够更好地保护和传承这些珍贵的文化遗产。让我们共同期待科技与文化的进一步融合,为文化遗产保护带来更多的创新和突破。

相关文章
|
2月前
|
搜索推荐
师资培训|AIGC在高校教学中的应用场景与案例分析-某产教科技公司
北京新大陆时代科技有限公司举办新一代信息技术名家大讲坛系列培训,旨在提升教师专业素质,加强“双师型”教师队伍建设。TsingtaoAI作为培训伙伴,提供全面支持。培训涵盖AIGC在高校教学的应用场景、教案生成及个性化教学资源定制等内容,助力提升教学质量与人才培养。
104 0
|
7月前
|
搜索推荐 测试技术 UED
AIGC赋能游戏开发全流程
【1月更文挑战第14天】AIGC赋能游戏开发全流程
283 2
AIGC赋能游戏开发全流程
|
7月前
|
人工智能 搜索推荐 大数据
AIGC文旅应用场景
【1月更文挑战第9天】AIGC文旅应用场景
292 1
AIGC文旅应用场景
|
7月前
|
人工智能 自然语言处理 供应链
当AI蔚然成风,新锐品牌有棵树走出“智能”发展新天地
当AI蔚然成风,新锐品牌有棵树走出“智能”发展新天地
|
人工智能
《《AI时代下的汽车业数字化变革》——汽车数字化转型白皮书2.0》电子版地址
《AI时代下的汽车业数字化变革》——汽车数字化转型白皮书2.0
209 0
《《AI时代下的汽车业数字化变革》——汽车数字化转型白皮书2.0》电子版地址
|
7月前
|
人工智能 监控 安全
【智慧工地源码】基于AI视觉技术赋能智慧工地
【智慧工地源码】基于AI视觉技术赋能智慧工地
87 0
|
机器学习/深度学习 自然语言处理 搜索推荐
大厂技术实现 | 爱奇艺文娱知识图谱的构建与应用实践 @自然语言处理系列
知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。本文研究的是爱奇艺奇搜知识图谱的构建流程与应用场景,了解这一文娱行业知识图谱是如何帮助用户精确找到想要的内容、回答用户问题、以及理解用户搜索意图的。
4192 7
大厂技术实现 | 爱奇艺文娱知识图谱的构建与应用实践 @自然语言处理系列
|
新零售 人工智能
《智能AI在新零售领域的数字化服务实践》电子版地址
智能AI在新零售领域的数字化服务实践(ppt)
123 0
《智能AI在新零售领域的数字化服务实践》电子版地址
|
人工智能 自然语言处理 达摩院
解密优酷智能生产技术,看 AI 赋能内容数字化
2021 年,随着社会节奏的加快,用户碎片化消费时间不断增加,当前短视频的消费用户规模已超 7.73 亿人,短视频的市场规模超过 2000 亿元。短视频行业发展迅速,但也存在低质内容泛滥,精品内容稀缺的问题。在 7 月 10 日的 Imagine 阿里云视频云全景创新峰会上,阿里巴巴文娱资深算法专家李静,发表了《视频技术再创新,开启内容数字化浪潮》的主题演讲,从短视频领域的内容生产困境出发,分享 MediaAI 平台的技术能力及应用实践,解密优酷短视频智能生产的技术,以下为演讲内容整理。
解密优酷智能生产技术,看 AI 赋能内容数字化
|
供应链 搜索推荐 新制造
案例酷第35期 | 启梦玩具:数字化升级 新智造发力
中国玩具看广东,广东玩具看澄海。很少有人知道,中国60%以上玩具制造都出自汕头澄海这个地方。 在改革开放后相当长一段时间内,大多数企业都以海外品牌代工为主,企业自己没有接单和设计能力,产品同质化非常严重。近年来,不少企业都面临着劳动力、原材料成本上升、同质化竞争愈演愈烈的情况,越来越多的企业开始注意到打造品牌IP和创新产品可以获得玩具产业的高价值。这其中,广东启梦企业凭借工业互联网和数字化尝试,获得了新一轮发展动力,值得同行借鉴。
1772 0
案例酷第35期 | 启梦玩具:数字化升级 新智造发力