开发者社区 > 视觉智能 > 文字识别 > 正文

有关于古籍的ocr接口吗?

有关于古籍的ocr接口吗?

展开
收起
鸡蛋灌饼儿 2023-02-13 16:03:28 276 0
3 条回答
写回答
取消 提交回答
  • 没有上线 支持私有化部署——该回答整理自钉群“【官方】阿里云OCR公共云客户交流群”

    2023-02-13 19:38:21
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    目前来说的话阿里云文字识别OCR支持目前通用汉字的识别,古籍书籍的识别部分应该是暂不支持的,古籍文字种类较多,文字繁杂且目前对于古籍的研究还没有到最后阶段,你可以拿响应的古籍文字来尝试一下,根据返回的结果来看识别的效果,如果确实有需要可以咨询在线技术支持是否有其他产品支持古籍文字识别。

    2023-02-13 16:48:53
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    借助阿里达摩院AI技术,汉典重光以准确率达到97.5%的古籍识别系统,将20万页古籍从扫描图片变成在线文本,还沉淀下覆盖3万多字的在线古籍字典。从寻觅、修复、储存,再到如今的数字化、公共化,海外回归的中国古籍背后,是一代代中国人为延续民族文化香火所做的努力。 在阿里内部,OCR(光学字符识别)技术团队是底蕴最为深厚的AI团队之一,常年深耕于文字图像领域。 OCR识别现代印刷品是认行(行识别),但要识别古籍必须认得每个字(单字检测)。现代常用汉字只有6000多个,算法基本能覆盖到2万字内,但由于写法多样,古籍文字多达几十万。 为了开发出一套AI古籍识别系统,达摩院的技术大牛和川大的研究学者,纷纷恶补对方的知识领域。一方研究历史知识,一方学习AI技术,大家取长补短。不到10人的达摩院项目算法团队,花费两年时间,最终利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,开发出了一套边识别古籍、边训练模型的系统。 单字检测,就是给全书做检测,抠出古籍正文中的每个字,单独成为一张图。 随着模型不断优化迭代,目前,汉典重光古籍识别系统对20万页古籍的整体识别准确率已达到97.5%,剩下有2.5%的字,仍需人工识别打标。这已是非常了不起的成就。 阿里正计划,将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,最终将成为一个开放的网络平台,供大众检索学习。 据我所知ORC工具(使用阿里云统一文字识别接口实现)。

    2023-02-13 16:17:21
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载