目前来说的话阿里云文字识别OCR支持目前通用汉字的识别,古籍书籍的识别部分应该是暂不支持的,古籍文字种类较多,文字繁杂且目前对于古籍的研究还没有到最后阶段,你可以拿响应的古籍文字来尝试一下,根据返回的结果来看识别的效果,如果确实有需要可以咨询在线技术支持是否有其他产品支持古籍文字识别。
借助阿里达摩院AI技术,汉典重光以准确率达到97.5%的古籍识别系统,将20万页古籍从扫描图片变成在线文本,还沉淀下覆盖3万多字的在线古籍字典。从寻觅、修复、储存,再到如今的数字化、公共化,海外回归的中国古籍背后,是一代代中国人为延续民族文化香火所做的努力。 在阿里内部,OCR(光学字符识别)技术团队是底蕴最为深厚的AI团队之一,常年深耕于文字图像领域。 OCR识别现代印刷品是认行(行识别),但要识别古籍必须认得每个字(单字检测)。现代常用汉字只有6000多个,算法基本能覆盖到2万字内,但由于写法多样,古籍文字多达几十万。 为了开发出一套AI古籍识别系统,达摩院的技术大牛和川大的研究学者,纷纷恶补对方的知识领域。一方研究历史知识,一方学习AI技术,大家取长补短。不到10人的达摩院项目算法团队,花费两年时间,最终利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,开发出了一套边识别古籍、边训练模型的系统。 单字检测,就是给全书做检测,抠出古籍正文中的每个字,单独成为一张图。 随着模型不断优化迭代,目前,汉典重光古籍识别系统对20万页古籍的整体识别准确率已达到97.5%,剩下有2.5%的字,仍需人工识别打标。这已是非常了不起的成就。 阿里正计划,将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。 据我所知ORC工具(使用阿里云统一文字识别接口实现)。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。