“记账”很麻烦,看这场竞赛中的队伍与合合信息是如何解决问题的

本文涉及的产品
文档理解,结构化解析 100页
票证核验,票证核验 50次/账号
小语种识别,小语种识别 200次/月
简介: “记账”很麻烦,看这场竞赛中的队伍与合合信息是如何解决问题的

在我们日常生活中或多或少都会有记账的情况,以此来对自己的收支和消费习惯进行分析,来帮助自己减少不必要的开支,优化财务决策、合理分配资金,减少财务压力和不必要的浪费。

但记账这个动作本身就是一件比较麻烦的。虽然现阶段有很多APP应用来帮助我们进行记账,不再像原来一样需要手写记录,但还是存在比较多的问题。比如:每记录一笔都要手动点选分类,长期下来很浪费时间。另外,如果想自动记账还得授权支付应用的权限接口给记账程序,这样会对财产造成安全隐患。

刚好,在最近的“中国大学生服务外包创新创业大赛”上就有大学生团队针对记账问题提供了它们的解决方案。

首先,介绍一下什么是中国大学生服务外包创新创业大赛

中国大学生服务外包创新创业大赛是在为了积极响应国家关于鼓励服务外包产业发展、加强服务外包人才培养的相关战略举措与号召而衍生出的全国性竞赛,该赛事自2010年创立以来,成为服务外包产业领域的国家级赛事。尤其在本届大赛上共有803所全国院校的8006支团队报名参赛,报名团队数再创新高!可以说是非常有影响力的一项赛事。

本届大赛的内容设计充分聚焦企业发展中所面临的技术、管理等现实问题,与产业的结合度更紧密,其中智能文字识别技术是大赛重点关注的技术之一。

合合信息作为国内外智能文字识别领域领先的科技企业,基于自身在行业领域的认知,从“基于智能文字场景个人财务管理创新应用”等议题出发,向广大学生群体发出了“产品征集令”,相关赛题吸引了全国70多所高校的近300支队伍积极参与,也涌现出许多优秀的作品。

尤其是中南大学研发的“记账全能王”让我印象深刻,该应用非常有效的解决了现行业现状记账的痛点:

他们团队首先对大量用户调研,分析出绑定支付自动记账和图片识别记账更受欢迎,尤其是在45-60岁的中年用户:

也调研了市面常见的记账类APP,指出了它们现阶段存在的几大问题,尤其是自动记账导致隐私过度收集这一块做了充分的说明:

它们也针对该问题,在APP中提供了通过识别账单图片来录入账单信息的方式进行记账:

这个功能看似很简单,实际难度是很大的!

虽然这个功能核心步骤就两个:票据图片识别、提取信息。

但要做好这两步需要下很大的功夫。首先,票据种类特别多,二是票据本身保存不好的话,会有很多褶皱或者字迹不太清晰的情况,三是因拍摄环境复杂的原因会导致图片反光、明暗不同等呈现质量差的问题。这样就会导致在识别的时候很容易造成识别不准确或识别失败的情况。

他们为了解决票据识别的问题,使用了合合信息提供的智能文字识别服务平台接口来对票据进行识别及预处理,该接口支持识别的票据种类非常多、无论是发票、火车票、金融票据等都能提供精度很高的识别效果:

图片识别出文本后,就需要对其进行预处理,这一步骤通常包括去除标点符号、数字和特殊字符,将文本转换为小写,以及进行分词。他们采用了jieba这个专为中文文本设计的分词工具库进行分词,然后将文本中的词语转换为数值向量,以便计算机能够理解和处理,最后再对图片中的账单信息部分进行文本分类与信息关系抽取,抽取出具体的金额、地点、店铺等信息,也就是命名实体识别(NER)

什么是命名实体识别(NER)呢?

是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。

举个例子就很容易理解,比如现在有一段文本:

我和张三昨天去看了蜘蛛侠,感觉还不错,下周还想去看阿凡达,你要跟我们一起吗?

我们要在上面文本中识别出电影名称的信息,那么我们需要识别出来内容则是:蜘蛛侠、阿凡达。

而对于上述提到的账单识别而言,我们则需要把图片包含的文本信息中的账单相关部分提取出来并排除掉与其无关的信息,这就是典型的命名实体识别。

中南大学为了处理这个问题,使用了基于谷歌BERT(Bidirectional Encoder Representations from Transformers)衍生的Bert-Chinese作为预训练模型:

然后将各种票据类型数据输入到模型中并进行训练。训练完成后再进行微调,运用到下流任务(如账单类别判定)等任务中,最后提取出账单信息,整个的算法步骤流程图如下图所示:

他们团队所使用的技术路线如下图所示:

我也使用了“记账全能王”app测试了一下,效果也是很不错的:

识别结果

中南大学团队整体表现在我看来是非常亮眼的,不仅洞悉了“中老年人使用记账本应用需要经历繁琐的操作”现象背后发现“图片识别记账方式更受欢迎”的趋势,并针对性地进行产品优化,还灵活地将合合信息智能图像识别模块与小票识别的API落地到记账场景中,再结合大模型将复杂的小票信息秒速转换成了简洁、高效的数据输入,这是非常难能可贵的。

另外我还认为该类应用具有不错的前景和商业价值,国务院印发的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《新一代人工智能发展规划》等文件中也提到:人工智能在个人财务管理领域的深入应用,有利于推动个人财务管理数字化,帮助消费者以较低的成本,实现消费的合理安排、财务风险的可靠保障以及钱财的最优跨期配置。在国家大力支持的背景下,该赛道一定具有不错的未来!


在中国信通院进行的测试中,合合信息智能文字识别产品顺利通过全部7项基础类功能指标测试以及9项增强类功能指标测试,获得“增强级”评级,其智能文字识别产品展现出良好的性能和服务成熟度。

以具有较大难度的证件类和票据类性能测试为例,面对旋转、阴影、反光、褶皱、形变、模糊、多语言、低像素、光照不均等复杂场景,合合信息智能文字识别产品均有较高的识别准确率,字符准确率分别为99.21%和99.59%,字段准确率分别为97.87%和98.42%。

其实,中南大学利用合合信息票据识别接口来识别票据的功能只是合合信息众多功能中的一小部分,除此之外合合信息还有很多强大的功能和产品,特别是他们推出的扫描全能王、名片全能王等智能文字识别产品已经服务全球上百个国家和地区的上亿用户。

在去年我也使用过合合科技的PS检测和摩尔纹去除等服务,效果都很不错,特别是PS检测上,这一直是很多行业迫切需要解决的难点,特别是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:

今年也看到合合信息团队对图像篡改检测“黑科技”持续优化升级,应用面也拓展至“截图篡改检测”:除了原本支持的文档、证书、证件等自然场景图像的识别检测外,还支持转账记录、交易记录、聊天记录等多种截图的识别检测,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假!

不难看出,合合信息的产品不仅质量高且具有十足的多样性,能应用的领域也非常广泛。

通过这次的大赛也可以看到,现代学生的作品不再局限于传统互联网思维下的应用开发,而是逐渐发展为结合人工智能、大模型进行创新、创造新时代的产品,也真正实现了“用新技术解决旧问题”。

还能够感受到的是,现阶段企业对于人才的需求人从单一性变为多样性了,知识面单一的人才显然已经不能满足时代需求,因此交叉学习也越来越重要。

举办该大赛还有一个重要的目的是:促成校企双方在科研项目、人才培养等方面深度合作,助推产学研用协同创新发展。因此,大赛对参赛作品的评分标准也十分“仿真”,涉及技术资源及经济成本控制,对项目创意前景的判断、对市场需求的分析等方面,覆盖商业价值、社会应用价值等多方面的评估。

CharGPT以及其他生成式AI的爆火让我们清晰的感受到未来一定是人工智能的时代,行业也会渴望每一位对专业学术领域有着深刻独到理解,具备构建解决方案潜力的人才。

在大赛的闭幕式上,合合信息人力行政部负责人杜杰介绍了他们公司的人才培养计划:

“企业期望与新一代青年才俊共同开拓科技新场景。在时代进步的每一个阶段,我们都需要不同的新生力量来创造新的可能性。”杜杰表示,现阶段,合合信息通过“星火计划”等系列人才培育计划和配套分享平台,助力科技青年在实践中强化专业能力,未来也将持续联合高校和行业机构,共同探索产学研融合之路,让大学生们创新的科技灵感能够更便捷地寻找沃土里,从而“落地生花”。

相信它们的举措以及大赛的继续开展会持续影响更多的从业者!

目录
相关文章
|
iOS开发 MacOS
推荐几个mac分屏显示的工具
桌面分屏是我们工作中经常会用到的功能,但是Mac上自带的分屏功能非常有限,必须进入全屏才能使用,管理窗口时使用起来并不方便。本文中我们就来推荐几款好用的Mac分屏软件,让你的窗口管理更简单
|
安全 Linux 数据安全/隐私保护
docker运行报错docker: Error response from daemon: AppArmor enabled on system but the docker-default prof
docker运行报错docker: Error response from daemon: AppArmor enabled on system but the docker-default prof
924 0
|
5月前
|
前端开发
医院检查单子p图软件,在线制作仿真病历,js+css+html装逼神器
本示例展示如何用HTML/CSS创建医疗信息页面,内容仅供学习参考。页面模拟“阳光医院体检中心”场景,提供预约功能验证(如姓名、手机号、日期)。所有数据仅用于演示
WK
|
机器学习/深度学习 算法 大数据
鱼群算法
鱼群算法(FSA)是一种基于仿生学的群智能算法,模拟鱼群在水中集群、觅食和逃避捕食的行为,寻找问题空间中的全局最优解。该算法由李晓磊等人于2002年提出,通过初始化鱼群、评估适应度、更新行为和终止条件等步骤进行迭代优化。其优点包括实现简单、全局搜索能力强和自适应性好,但收敛速度较慢且易陷入局部最优。FSA已广泛应用于函数优化、路径规划、图像分割等领域,并有望通过改进性能、结合其他算法及拓展应用领域等方式进一步提升其应用价值。
WK
324 0
|
人工智能 Java 测试技术
低成本工程实践-AI帮我写代码做需求
本文主要讲述,以“无需训练模型”的方式实现:AI智能分析功能需求、写代码、review代码解决特定业务问题的实践过程
530 12
低成本工程实践-AI帮我写代码做需求
|
监控 网络协议 关系型数据库
详解连接池参数设置(边调边看)
详解连接池参数设置(边调边看)
|
数据处理
R语言数据合并:掌握`merge`与`dplyr`中`join`的巧妙技巧
【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理,那么推荐使用`dplyr::join`进行数据合并,因为它与`dplyr`的其他函数(如`filter()`、`select()`、`mutate()`等)无缝集成,能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`,但想要尝试,那么`dplyr::join`将是一个很好的起点。
|
XML 存储 关系型数据库
10分钟手把手教你用Android手撸一个简易的个人记账App(一)
接下来就来讲解,如何从0到1实现一个简易的个人记账系统。
10分钟手把手教你用Android手撸一个简易的个人记账App(一)
|
Linux 开发者 iOS开发
QT:基于QMediaPlayer制作的视频播放器(最下方有整合包,可直接运行)
QMediaPlayer是Qt多媒体模块中的一个核心类,它提供了播放音频和视频内容的功能。这个类的设计旨在简化跨平台的媒体播放,使得开发者能够在多种操作系统(如Linux、Windows、macOS及移动平台)上轻松集成多媒体播放能力到他们的应用中,而无需关心底层实现细节。以下是关于QMediaPlayer的一些关键点:
665 0
|
存储 人工智能 自然语言处理
从API到Agent:万字长文洞悉LangChain工程化设计
给“AI外行人士”引入一下LangChain,试着从工程角度去理解LangChain的设计和使用。同时大家也可以将此文档作为LangChain的“10分钟快速上手”手册,本意是希望帮助需要的同学实现AI工程的Bootstrap。
从API到Agent:万字长文洞悉LangChain工程化设计
下一篇
开通oss服务