《多模态数据信息提取》解决方案测评

简介: 先预示一下,本次测评有福利彩蛋哟,快过年了,喜庆的对联需要吧;大冬天的,保暖触屏手套需要吧;走过路过不要错过。

先预示一下,本次测评有福利彩蛋哟,快过年了,喜庆的对联需要吧;大冬天的,保暖触屏手套需要吧;走过路过不要错过。

不知不觉中解决方案评测已经来到了第十三篇,13这个数字的出现意味着一个旧的已然结束,也预示着一个新的已经开始,是对以往的总结也是对新开始的一种期望。过去一年来的解决方案测评从一开始的摸索不完善到如今的全新蜕变,已成为开发社区除了产品测评外的一种全新的测评方式,正在吸引一大批开发者们参与。希望大家可以踊跃参加,把你最真实的体验感受和建议分享出来。可点击下方链接前往评测活动首页:

解决方案评测|多模态数据信息提取

解决方案评测|主动式智能导购AI助手构建

解决方案评测|文档智能 & RAG让AI大模型更懂业务

解决方案评测|AI 大模型助力客户对话分析

解决方案评测|触手可及,函数计算玩转 AI 大模型

解决方案评测|云消息队列RabbitMQ实践

解决方案评测|基于hologres搭建轻量OLAP分析平台

解决方案评测|10 分钟构建 AI 客服并应用到网站、钉钉或微信中

解决方案评测|函数计算驱动多媒体文件处理

解决方案评测|Serverless高可用架构

解决方案评测|容器化管理云上应用

解决方案评测|通义万相AI绘画创作

解决方案评测|高效构建企业门户网站

每一期的解决方案评测我都有参与,以下是我往期的评测文章,欢迎各位前来打卡点评。

《主动式智能导购AI助手构建》解决方案评测

《文档智能 & RAG让AI大模型更懂业务》解决方案评测

《AI 大模型助力客户对话分析》解决方案评测

《触手可及,函数计算玩转 AI 大模型》解决方案评测

云消息队列RabbitMQ实践解决方案评测

基于hologres搭建轻量OLAP分析平台解决方案评测

《10 分钟构建 AI 客服并应用到网站、钉钉或微信中》解决方案体验评测

函数计算驱动多媒体文件处理解决方案体验评测

Serverless高可用架构体验评测

容器化管理云上应用体验评测

通义万相AI绘画创作体验评测

基于云效流水线高效构建企业门户网站体验评测

方案速览

按照传统惯例,这里还是先呈上方案的整个页面截图,供不愿意点击链接查看的伙伴们查阅。如今的解决方案整体已经非常直观易读了,不论是版面还是内容主次都已经非常适合测评者阅读了。

image.png

从上图可以直观看到,变化的点在于没有了方案必要性的阐述了,一开始就列举了方案的主要三个应用场景,分别是文本、图像、媒体信息的提取。虽然配有文字说明,但内容整体上总觉得不是很丰富。在接下来的方案架构阐述上同样存在这个方面的问题,架构图缺乏流程的实现说明。

但在部署体验板块亮点就非常突出了,告别了以往案例以瀑布流的呈现方式,改成了标签化统一呈现,这样排版一来压缩了过长的版面,二来可读性更强。

部署体验

方案提供了文本、图像、视频三种不同模态数据的提取体验,接下来将逐个进行部署。

在正式部署体验前,相关的产品和服务需要先开通。新用户都可以在方案的免费试用处领取对应产品的试用额度。

image.png

服务开通

开通阿里云百炼

由于本次解决方案实现涉及的服务有函数计算FC、阿里云百炼产品,如果你是新用户,是基本没有体验费用的,因为可以领取试用额度,尤其是函数计算FC;而对于百炼产品,目前尚处公测阶段,开通服务即可免费获得试用额度,如下将展开阐述如何开通云百炼服务。

首先访问大模型服务平台百炼控制台首次进入需要同意服务协议,点击同意。如下:

image

在首页/模型广场/应用广场,均可点击开通模型调用服务。新用户首次访问将有100次提问额度。额度用完后需开通服务后方可继续使用。如下:

image

image

image

点击开通,如下:

image

使用阿里云百炼大模型服务,需要开通【百炼大模型推理】【百炼大模型部署】【百炼大模型训练】商品,并创建模型调用API-KEY。勾选协议,点击确认开通。如下:

image

开通服务后将会收到三条开通百炼大模型推理、百炼大模型部署、百炼大模型训练商品成功的短信通知。

至此,我们就完成了阿里云百炼大模型服务产品的开通,也就是开启了百炼产品的免费试用。接下来还需要开通函数计算FC,接下来就阐述如何开通函数计算服务。

开通函数计算

在服务开通前有必要先了解下函数计算的计费方式,产品共提供了三种方式,有试用额度、按量付费和资源包。计费项由函数调用次数、资源使用量和公网出流量组成。详细的可以点击链接前往了解详情。

如果你是第一次使用函数计算产品的,可以先领取一个免费的试用额度。如下:

image

但如果你是函数计算的老客户,要么按量付费,要么购买资源包,这里推荐经常使用的朋友购买资源包或者调整函数实例并发度来降低成本。

点击链接进入函数计算控制台,默认进入的是2.0版本的首页,点击首页右上角的体验函数计算3.0便可来到新版首页。

image.png

首次体验需要SLR授权,如下图,点击确定即可。

image.png

开通对象存储OSS

进入OSS控制台,创建存储桶Bucket,可直接点击下图的两个位置进入创建页面。

image.png

选择快捷创建,填入Bucket名称和地域信息即可,其他保持默认,如下:

image.png

到这,部署体验前的产品和服务的开通就已经全部完成了。下面就分别就各个应用部署进行体验。

物料准备

由于接下来的所有实践都需要用到百炼平台的API-KEY,这里就提前准备并记录好。如下:

首先登录阿里云百炼大模型服务平台,获取API-KEY,如下:

image.png

在弹出窗口中创建一个新API-KEY。

image

完成后记录好这个KEY值,以方便后面函数计算部署服务时填入使用。

image.png

应用体验

  • 文本信息提取

在方案的部署体验内容处点击相应实验的立即部署按钮即可,跳转到云起实验室,按照部署方案进行相应操作。

文本信息提取的实践主要用到百炼平台API和函数计算,相比传统部署还是蛮简单的,做到了立即部署立即使用。

点击部署方案中的函数计算应用模板,选择直接部署,填入百炼的API-KEY,点击“创建并部署默认环境”。如下:

image.png

开始部署将跳转到应用部署详情。

image.png

image.png

在这里我们可以直观看到部署的全部信息,包括步骤和详细日志。

大概1分钟后,当部署状态变成部署成功并生成可访问的URL时,表明服务已经完成部署,可点击URL进行应用的访问体验了。

image.png

点击URL来到应用首页,左侧是文本内容输入区,右侧默认是步骤流程图。在左侧文本输入区还提供了两个示例,可点击直接使用。

image.png

这里先用示例体验一番,选中需要的文本示例,点击使用该实例并点击提取信息按钮。对于提示词如何填写页面上提供了官方教程。

image.png

稍等片刻,提取结果就出来了,还不错。

image.png

日常生活和工作中对于文本信息的提取应用还是非常广泛的,小到日常工作小结,大到公文写作概要。下面以一段文字看下提取效果。提示词是“人物”“时间”“事件”“结果”。

挪威经济学家基德兰德(Finn Kydland)和美国经济学家普雷斯科特(Edward Prescott)由于揭示了经济政策和世界商业循环后驱动力的一致性而共同获得2004年诺贝尔经济学奖,这是美国经济学家连续第5次获得诺贝尔经济学奖。
基德兰德(Finn Kydland)、普雷斯科特(Edward Prescott)是新古典宏观经济学实际经济周期学派的代表人物,他们提出真实经济周期模型。
真实经济周期模型认为:正的技术冲击引起劳动生产率提高,就业、投资和产出提高,总供给曲线上移,经济高涨;反之则反是。商业周期在很大程度上表现为经济基本趋势本身的波动,而不是经济围绕基本趋势的波动,即周期不是对均衡的偏离,而是均衡本身暂时的波动,既然是均衡,便具有帕累托效率,不存在市场失灵,政府没有干预经济的必要。
诺贝尔经济学奖并非诺贝尔遗嘱中提到的五大奖励领域之一。它是由瑞典银行在1968年为纪念诺贝尔而增设的。

image.png

但从内容的提取来看还是非常简要突出的,效果不错。这个功能的主要障碍在于如何填写提示词,如果增加上智能推荐提示词就非常好了。

  • 文档文件内容提取

这个实践用到的产品和服务和上面的文本信息提取实践是一样的,所有这里有关物料准备和前提就不再赘述了,我们直接点击函数计算应用模板,进入应用部署。同样的,这里也只需填入API-KEY,选择直接部署即可。

image.png

待完成部署,点击URL来到应用首页。

image.png

image.png

从应用首页来看,跟上面的文本提取差异不大,依旧是左侧是内容输入区,右侧默认是使用流程图。依旧提供了两个官方示例,这里先用官方示例体验一番。

image.png

image.png

从对文档内容提取的效果来看,还是非常贴合实际的,为了对比还提供了原文档的下载。

image.png

image.png

从文档内容来看,其实信息还是复杂的,能提取到这个程度属实不错。当然从文档内容来看,为了提高提取效率,一来需要填入准确的提示词,二来文档内容段落要鲜明,如果内容无段落识别会影响提取结果的。

下面我将传入一个doc和pdf分别看看效果,一个是诗词doc,一个是手抄报pdf。

image.png

image.png

提取结果如下:

image.png

image.png

从提取结果来看,还是非常精准的。从实际体验来看,要提高提取准确率,一来要内容段落要清晰,二来提示词要准确。但当前的文档支持格式有限,仅支持doc和pdf,连基本的xls都不支持,对于日常办公来说帮助还是有限的,需要增加多种文档格式支持并加入对文档内容或者排版上的提示;对于提示词还是建议加入智能推荐,这样可以极大方便用户使用。

  • 图片OCR信息提取

这个实践相比上面的两个在产品和服务的使用上有点差异,多了对于对象存储的使用。由于在物料准备中已经开通了对象存储并创建了存储桶Bucket,这里我们还是直接点击部署方案中的函数计算应用模板进行部署。依旧选择直接部署,分别填入地域,API-KEY和存储桶的名称。这里唯一需要注意的一点就是应用区域要和存储桶Bucket开通的区域一致,否则会有无法调用的错误。

image.png

待完成部署后,点击URL进入应用首页开始体验。

image.png

image.png

但从应用首页来看,几乎和上面的文档内容提取实验差不多,只是数据的载体从文档变成了图像。那这里依旧先用官方提供的示例体验一番。

image.png

image.png

这里采用的示例,是两个购物小票,从提取结果来看是没问题的,并且在右侧的结果区提供了原图对比,这点还是非常友好的。

接下来分别使用电子发票和打车行程图片来看看提取结果如何。

image.png

对于发票信息的提取还是非常精准的,一字不差,还友好地提供了对于原图的预览。

image.png

而对于打车行程的信息提取就有点不是很全面,两个行程只提取到了一个,提取到的这个行程信息是没问题的。

总体来看,对于图片信息的提取整体效果还不错,对于某些提取内容的全面性和完整性还要加强,此外,支持的图片格式要增加,并加入智能提示词。

  • 图片结构化属性提取

本实践和上面的图片OCR信息提取用到的产品和服务是一致的,这里还是直接使用函数计算应用模板开始部署应用。依旧选择直接部署,填入API-KEY和Bucket名称,注意Bucket和应用的区域要保持一致。

image.png

待完成部署,点击URL开始体验。

image.png

image.png

从应用首页来看,整体还是和上面的几个实践相似,这里唯一的直观能看到的差异就是示例增加了一个,变成了三个。还是老惯例,先用官方示例体验一番。

image.png

从提取效果来看非常不错,对于图片物体的属性识别准确。虽然官方提供的是图集而不是单个的图片,但对于单个的识别肯定是没问题的,下面就上传单个图片看看提取效果。

image.png

可以看到识别效果还是不错。下面再上传一个看下效果如何。

image.png

不得不说,这车叫啥我也不知道,但应用却识别出来了,真的厉害。

  • 视频理解与内容提取

本实践和上面的图片信息提取用到的产品和服务是一致的,这里还是直接使用函数计算应用模板)开始部署应用。依旧选择直接部署,填入API-KEY和Bucket名称,注意Bucket和应用的区域要保持一致。

image.png

完成部署后,依旧点击URL进行应用体验。

image.png

image.png

这次仅提供了一个示例,且支持上传的视频格式、大小和时长均有严格限制。这里依旧沿用示例体验一番。

image.png

从提取效果来看还是可以的,但提取效率有待提高,一个1分多种的视频花了近5分钟时间来识别。下面我以一个经典的未来智能视频《A Day Made of Glass》来看看提取效果。

image.png

看识别结果还是可以的,但在多处细节处理上还存在不足,比如把视频中的图标水印进行了识别、口语化讲述了视频中出现的内容剧情。

到这方案涉及的五个场景均完成了体验,如果你想针对以上案例进行二次开发,并应用于实际的生产环境,官方也友好地提供了源码,链接整理如下:

文本信息提取

文档文件内容提取

图片OCR信息提取

图片结构化属性提取

视频理解与内容提取

体验总结

方案体验

  • 在应用场景的阐述上,仅文字性的说明显得内容很单调,建议配上相应的图片加以解释来丰富内容可读性。

image.png

  • 在方案架构中,虽然有架构图,但缺乏对于架构图流程的说明,只有架构特点的阐述。

image.png

  • 售前咨询功能在页面的多处存在,属于功能重复,建议取消右下角的悬浮按钮,让页面排版更清晰。

image.png

部署体验

首先部署过程非常简便,基于函数计算,按照官方文档的指导,我很快就完成了相关配置和部署。服务部署耗时基本在2分钟内,对于体验者开说还是非常快捷高效的。

其次,在部署过程中,部署方案均提供了详尽的文档和教程,帮助我快速上手。对于新手用户来说也非常友好,基本每个步骤都带有截图说明。我首先尝试了文本信息提取功能,通过上传一份文档文件,系统很快便提取出了其中的关键信息,这不仅大大节省了人工阅读和分析的时间,还提高了信息的准确性和可读性。接着,我测试了图片信息提取功能。通过上传一张包含信息的图片,系统成功识别并提取出了关键属性。这对于需要大量识别图片信息的电商平台来说,无疑是一个巨大的福音,可以大大提高商品信息的搜索优化和用户体验。最后,我还尝试了视频信息提取功能。通过上传一段视频,系统成功识别并提取出了视频中的关键信息和内容。这对于视频内容分析和事件记录来说,具有非常重要的意义。

部署完成后,我使用了解决方案提供的官方示例来验证效果。整体来说,示例能够正常运行并展示预期的功能。然而,实际体验过程中也发现了一些不足:

  • 比如所有实践所能支持的文件格式、文档格式、图片格式、视频格式均很少,这点不太切合实际的工作需求,建议增加多格式的支持。
  • 再者,对于需要填入提示词的场景,建议增加智能推荐提示词,一方面可以降低用户学习成本,二来可以让用户更快获得所需信息。对于视频类信息的上传限制太多,不太适合真正的视频信息提取需求,还有就是对视频的提取效率有待提高,建议通过优化算法、增加计算资源等方式来提高处理效率。
  • 官方示例数量相对较少,最多的也就三个示例,少的就只有一个,且某些示例可能过于简单,无法充分展示解决方案的全部功能和特点。

对于图片类信息的提取需要增加识别广度,比如上述体验的行程信息提取,有两个行程只设别到了一个;

对于视频类信息的提取需要优化识别方法,对于视频水印等一些干扰因素要智能去除掉,对于内容信息输出要更贴合实际,而不是简单地复述一遍视频内容。

最后,针对本次方案评测,官方还提供了免费试用额度,让新用户在初次体验时无需担心费用问题。这从体验的性价比角度来看,阿里云的多模态数据信息提取方案无疑是一个非常不错的选择。

福利彩蛋

本方案涉及的实验均有对应福利可领取,感兴趣的朋友一定不要错过,对应活动链接已整理在图下方,快点击参加吧。

image.png

结构化提取文档、文件内容

通过视频视觉理解,提取内容信息

通过OCR精准识别,提取图片中结构化信息

通过图片视觉理解,结构化提取属性信息

与 AI 智能体进行实时语音通话

函数计算 FC:免运维与高效开发

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
SQL 人工智能 分布式计算
基于阿里云PAI平台搭建知识库检索增强的大模型对话系统
基于原始的阿里云计算平台产技文档,搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地,将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%,答疑采纳率70+%,显著提升答疑效率。
|
5天前
|
机器学习/深度学习 编解码 算法
《多模态数据信息提取解决方案的体验与部署》
《多模态数据信息提取》解决方案提供了一站式的文本、图像和音频数据处理平台,通过先进算法实现关键信息的高效提取。函数应用模板简化了部署流程,标准化接口和自动化配置降低了技术门槛。然而,参数设置、错误处理和文档说明等方面存在细节问题,需进一步优化以提高用户体验和部署效率。改进措施包括加强参数说明、完善错误处理机制及优化文档,推动多模态数据处理技术的发展。
53 23
|
16小时前
|
算法 数据可视化 数据库连接
解决方案评测|多模态数据信息提取
解决方案评测|多模态数据信息提取
16 8
|
4天前
|
文字识别 数据可视化 Serverless
阿里云多模态数据信息提取解决方案评测报告
本文基于阿里云多模态数据信息提取解决方案,对其进行全面评测。该方案利用百炼大模型等技术,支持文本、图像、音频和视频处理,显著提升效率并降低成本。体验中,文本和图片信息提取功能表现出色,部署便捷且准确率高。优势包括易用性、多模态支持和高性价比,但文档完善性和模型定制性等方面仍有提升空间。建议增强模型可定制性、跨模态融合能力及丰富文档案例,以进一步优化用户体验。
43 6
|
6天前
|
存储 监控 算法
解决方案评测:多模态数据信息提取
解决方案评测:多模态数据信息提取
25 8
|
5天前
|
人工智能 Serverless API
《多模态数据信息提取》解决方案评测体验
《多模态数据信息提取》解决方案,主要是通过先进的人工智能技术,能够识别和解析各种格式的文件,包括文本、图像、音频和视频,从而提取出有价值的信息,大幅提升数据处理效率。
34 7
|
7天前
|
存储 人工智能 数据库
面向医疗场景的大模型 RAG 检索增强解决方案
本方案为您介绍,如何使用人工智能平台 PAI 构建面向医疗场景的大模型 RAG 检索增强解决方案。
|
4天前
|
人工智能 自然语言处理 运维
阿里云多模态数据信息提取技术解决方案评测
阿里云多模态数据信息提取技术解决方案,利用先进AI技术处理文本、图像、音频和视频,帮助企业从海量数据中高效提取有价值信息。方案涵盖文本、图片、视频信息提取,适用于电商平台、安防等领域。通过大模型支持自动扩展与持续训练,提供简单部署及免费试用,评测显示其在识别准确性和易用性方面表现出色,但仍需优化高级设置提示和加载速度。
|
5天前
|
人工智能 自然语言处理 算法
多模态数据信息提取解决方案评测报告
多模态数据信息提取解决方案利用先进AI技术,高效处理文本、图像、音频和视频数据,大幅提升数据处理效率。评测涵盖部署界面、文档、函数模板、官方示例及实际需求满足情况。结果显示,该方案在文本和图像提取方面表现出色,音频和视频提取有改进空间。整体部署简便,支持多种操作系统和编程语言,具有较高可移植性和扩展性。建议优化复杂环境下的音频和视频提取算法,进一步提升处理效率和准确率。
32 2
|
6天前
|
自然语言处理 文字识别 运维
《多模态数据信息提取》解决方案评测
《多模态数据信息提取》解决方案给我留下了深刻的印象。它不仅具备强大的技术实力,还提供了友好的用户体验和支持服务。当然,任何产品都不可能是完美的,我相信随着更多用户的反馈和技术的进步,这个工具将会变得更加完善。如果你正在寻找一种高效、易用且经济实惠的方式来处理复杂的多模态数据,那么不妨试试看吧!
25 2