《多模态数据信息提取》解决方案测评

简介: 先预示一下,本次测评有福利彩蛋哟,快过年了,喜庆的对联需要吧;大冬天的,保暖触屏手套需要吧;走过路过不要错过。

先预示一下,本次测评有福利彩蛋哟,快过年了,喜庆的对联需要吧;大冬天的,保暖触屏手套需要吧;走过路过不要错过。

不知不觉中解决方案评测已经来到了第十三篇,13这个数字的出现意味着一个旧的已然结束,也预示着一个新的已经开始,是对以往的总结也是对新开始的一种期望。过去一年来的解决方案测评从一开始的摸索不完善到如今的全新蜕变,已成为开发社区除了产品测评外的一种全新的测评方式,正在吸引一大批开发者们参与。希望大家可以踊跃参加,把你最真实的体验感受和建议分享出来。可点击下方链接前往评测活动首页:

解决方案评测|多模态数据信息提取

解决方案评测|主动式智能导购AI助手构建

解决方案评测|文档智能 & RAG让AI大模型更懂业务

解决方案评测|AI 大模型助力客户对话分析

解决方案评测|触手可及,函数计算玩转 AI 大模型

解决方案评测|云消息队列RabbitMQ实践

解决方案评测|基于hologres搭建轻量OLAP分析平台

解决方案评测|10 分钟构建 AI 客服并应用到网站、钉钉或微信中

解决方案评测|函数计算驱动多媒体文件处理

解决方案评测|Serverless高可用架构

解决方案评测|容器化管理云上应用

解决方案评测|通义万相AI绘画创作

解决方案评测|高效构建企业门户网站

每一期的解决方案评测我都有参与,以下是我往期的评测文章,欢迎各位前来打卡点评。

《主动式智能导购AI助手构建》解决方案评测

《文档智能 & RAG让AI大模型更懂业务》解决方案评测

《AI 大模型助力客户对话分析》解决方案评测

《触手可及,函数计算玩转 AI 大模型》解决方案评测

云消息队列RabbitMQ实践解决方案评测

基于hologres搭建轻量OLAP分析平台解决方案评测

《10 分钟构建 AI 客服并应用到网站、钉钉或微信中》解决方案体验评测

函数计算驱动多媒体文件处理解决方案体验评测

Serverless高可用架构体验评测

容器化管理云上应用体验评测

通义万相AI绘画创作体验评测

基于云效流水线高效构建企业门户网站体验评测

方案速览

按照传统惯例,这里还是先呈上方案的整个页面截图,供不愿意点击链接查看的伙伴们查阅。如今的解决方案整体已经非常直观易读了,不论是版面还是内容主次都已经非常适合测评者阅读了。

image.png

从上图可以直观看到,变化的点在于没有了方案必要性的阐述了,一开始就列举了方案的主要三个应用场景,分别是文本、图像、媒体信息的提取。虽然配有文字说明,但内容整体上总觉得不是很丰富。在接下来的方案架构阐述上同样存在这个方面的问题,架构图缺乏流程的实现说明。

但在部署体验板块亮点就非常突出了,告别了以往案例以瀑布流的呈现方式,改成了标签化统一呈现,这样排版一来压缩了过长的版面,二来可读性更强。

为了更好地辅助方案解读,本次官方还提供了视频配套讲解,感兴趣的朋友可以点击前往了解学习。云端问道23期——如何基于大模型搭建信息提取应用

image.png

部署体验

方案提供了文本、图像、视频三种不同模态数据的提取体验,接下来将逐个进行部署。

在正式部署体验前,相关的产品和服务需要先开通。新用户都可以在方案的免费试用处领取对应产品的试用额度。

image.png

服务开通

开通阿里云百炼

由于本次解决方案实现涉及的服务有函数计算FC、阿里云百炼产品,如果你是新用户,是基本没有体验费用的,因为可以领取试用额度,尤其是函数计算FC;而对于百炼产品,目前尚处公测阶段,开通服务即可免费获得试用额度,如下将展开阐述如何开通云百炼服务。

首先访问大模型服务平台百炼控制台首次进入需要同意服务协议,点击同意。如下:

image

在首页/模型广场/应用广场,均可点击开通模型调用服务。新用户首次访问将有100次提问额度。额度用完后需开通服务后方可继续使用。如下:

image

image

image

点击开通,如下:

image

使用阿里云百炼大模型服务,需要开通【百炼大模型推理】【百炼大模型部署】【百炼大模型训练】商品,并创建模型调用API-KEY。勾选协议,点击确认开通。如下:

image

开通服务后将会收到三条开通百炼大模型推理、百炼大模型部署、百炼大模型训练商品成功的短信通知。

至此,我们就完成了阿里云百炼大模型服务产品的开通,也就是开启了百炼产品的免费试用。接下来还需要开通函数计算FC,接下来就阐述如何开通函数计算服务。

开通函数计算

在服务开通前有必要先了解下函数计算的计费方式,产品共提供了三种方式,有试用额度、按量付费和资源包。计费项由函数调用次数、资源使用量和公网出流量组成。详细的可以点击链接前往了解详情。

如果你是第一次使用函数计算产品的,可以先领取一个免费的试用额度。如下:

image

但如果你是函数计算的老客户,要么按量付费,要么购买资源包,这里推荐经常使用的朋友购买资源包或者调整函数实例并发度来降低成本。

点击链接进入函数计算控制台,默认进入的是2.0版本的首页,点击首页右上角的体验函数计算3.0便可来到新版首页。

image.png

首次体验需要SLR授权,如下图,点击确定即可。

image.png

开通对象存储OSS

进入OSS控制台,创建存储桶Bucket,可直接点击下图的两个位置进入创建页面。

image.png

选择快捷创建,填入Bucket名称和地域信息即可,其他保持默认,如下:

image.png

到这,部署体验前的产品和服务的开通就已经全部完成了。下面就分别就各个应用部署进行体验。

物料准备

由于接下来的所有实践都需要用到百炼平台的API-KEY,这里就提前准备并记录好。如下:

首先登录阿里云百炼大模型服务平台,获取API-KEY,如下:

image.png

在弹出窗口中创建一个新API-KEY。

image

完成后记录好这个KEY值,以方便后面函数计算部署服务时填入使用。

image.png

应用体验

  • 文本信息提取

在方案的部署体验内容处点击相应实验的立即部署按钮即可,跳转到云起实验室,按照部署方案进行相应操作。

文本信息提取的实践主要用到百炼平台API和函数计算,相比传统部署还是蛮简单的,做到了立即部署立即使用。

点击部署方案中的函数计算应用模板,选择直接部署,填入百炼的API-KEY,点击“创建并部署默认环境”。如下:

image.png

开始部署将跳转到应用部署详情。

image.png

image.png

在这里我们可以直观看到部署的全部信息,包括步骤和详细日志。

大概1分钟后,当部署状态变成部署成功并生成可访问的URL时,表明服务已经完成部署,可点击URL进行应用的访问体验了。

image.png

点击URL来到应用首页,左侧是文本内容输入区,右侧默认是步骤流程图。在左侧文本输入区还提供了两个示例,可点击直接使用。

image.png

这里先用示例体验一番,选中需要的文本示例,点击使用该实例并点击提取信息按钮。对于提示词如何填写页面上提供了官方教程。

image.png

稍等片刻,提取结果就出来了,还不错。

image.png

日常生活和工作中对于文本信息的提取应用还是非常广泛的,小到日常工作小结,大到公文写作概要。下面以一段文字看下提取效果。提示词是“人物”“时间”“事件”“结果”。

挪威经济学家基德兰德(Finn Kydland)和美国经济学家普雷斯科特(Edward Prescott)由于揭示了经济政策和世界商业循环后驱动力的一致性而共同获得2004年诺贝尔经济学奖,这是美国经济学家连续第5次获得诺贝尔经济学奖。
基德兰德(Finn Kydland)、普雷斯科特(Edward Prescott)是新古典宏观经济学实际经济周期学派的代表人物,他们提出真实经济周期模型。
真实经济周期模型认为:正的技术冲击引起劳动生产率提高,就业、投资和产出提高,总供给曲线上移,经济高涨;反之则反是。商业周期在很大程度上表现为经济基本趋势本身的波动,而不是经济围绕基本趋势的波动,即周期不是对均衡的偏离,而是均衡本身暂时的波动,既然是均衡,便具有帕累托效率,不存在市场失灵,政府没有干预经济的必要。
诺贝尔经济学奖并非诺贝尔遗嘱中提到的五大奖励领域之一。它是由瑞典银行在1968年为纪念诺贝尔而增设的。

image.png

但从内容的提取来看还是非常简要突出的,效果不错。这个功能的主要障碍在于如何填写提示词,如果增加上智能推荐提示词就非常好了。

  • 文档文件内容提取

这个实践用到的产品和服务和上面的文本信息提取实践是一样的,所有这里有关物料准备和前提就不再赘述了,我们直接点击函数计算应用模板,进入应用部署。同样的,这里也只需填入API-KEY,选择直接部署即可。

image.png

待完成部署,点击URL来到应用首页。

image.png

image.png

从应用首页来看,跟上面的文本提取差异不大,依旧是左侧是内容输入区,右侧默认是使用流程图。依旧提供了两个官方示例,这里先用官方示例体验一番。

image.png

image.png

从对文档内容提取的效果来看,还是非常贴合实际的,为了对比还提供了原文档的下载。

image.png

image.png

从文档内容来看,其实信息还是复杂的,能提取到这个程度属实不错。当然从文档内容来看,为了提高提取效率,一来需要填入准确的提示词,二来文档内容段落要鲜明,如果内容无段落识别会影响提取结果的。

下面我将传入一个doc和pdf分别看看效果,一个是诗词doc,一个是手抄报pdf。

image.png

image.png

提取结果如下:

image.png

image.png

从提取结果来看,还是非常精准的。从实际体验来看,要提高提取准确率,一来要内容段落要清晰,二来提示词要准确。但当前的文档支持格式有限,仅支持doc和pdf,连基本的xls都不支持,对于日常办公来说帮助还是有限的,需要增加多种文档格式支持并加入对文档内容或者排版上的提示;对于提示词还是建议加入智能推荐,这样可以极大方便用户使用。

  • 图片OCR信息提取

这个实践相比上面的两个在产品和服务的使用上有点差异,多了对于对象存储的使用。由于在物料准备中已经开通了对象存储并创建了存储桶Bucket,这里我们还是直接点击部署方案中的函数计算应用模板进行部署。依旧选择直接部署,分别填入地域,API-KEY和存储桶的名称。这里唯一需要注意的一点就是应用区域要和存储桶Bucket开通的区域一致,否则会有无法调用的错误。

image.png

待完成部署后,点击URL进入应用首页开始体验。

image.png

image.png

但从应用首页来看,几乎和上面的文档内容提取实验差不多,只是数据的载体从文档变成了图像。那这里依旧先用官方提供的示例体验一番。

image.png

image.png

这里采用的示例,是两个购物小票,从提取结果来看是没问题的,并且在右侧的结果区提供了原图对比,这点还是非常友好的。

接下来分别使用电子发票和打车行程图片来看看提取结果如何。

image.png

对于发票信息的提取还是非常精准的,一字不差,还友好地提供了对于原图的预览。

image.png

而对于打车行程的信息提取就有点不是很全面,两个行程只提取到了一个,提取到的这个行程信息是没问题的。

总体来看,对于图片信息的提取整体效果还不错,对于某些提取内容的全面性和完整性还要加强,此外,支持的图片格式要增加,并加入智能提示词。

  • 图片结构化属性提取

本实践和上面的图片OCR信息提取用到的产品和服务是一致的,这里还是直接使用函数计算应用模板开始部署应用。依旧选择直接部署,填入API-KEY和Bucket名称,注意Bucket和应用的区域要保持一致。

image.png

待完成部署,点击URL开始体验。

image.png

image.png

从应用首页来看,整体还是和上面的几个实践相似,这里唯一的直观能看到的差异就是示例增加了一个,变成了三个。还是老惯例,先用官方示例体验一番。

image.png

从提取效果来看非常不错,对于图片物体的属性识别准确。虽然官方提供的是图集而不是单个的图片,但对于单个的识别肯定是没问题的,下面就上传单个图片看看提取效果。

image.png

可以看到识别效果还是不错。下面再上传一个看下效果如何。

image.png

不得不说,这车叫啥我也不知道,但应用却识别出来了,真的厉害。

  • 视频理解与内容提取

本实践和上面的图片信息提取用到的产品和服务是一致的,这里还是直接使用函数计算应用模板)开始部署应用。依旧选择直接部署,填入API-KEY和Bucket名称,注意Bucket和应用的区域要保持一致。

image.png

完成部署后,依旧点击URL进行应用体验。

image.png

image.png

这次仅提供了一个示例,且支持上传的视频格式、大小和时长均有严格限制。这里依旧沿用示例体验一番。

image.png

从提取效果来看还是可以的,但提取效率有待提高,一个1分多种的视频花了近5分钟时间来识别。下面我以一个经典的未来智能视频《A Day Made of Glass》来看看提取效果。

image.png

看识别结果还是可以的,但在多处细节处理上还存在不足,比如把视频中的图标水印进行了识别、口语化讲述了视频中出现的内容剧情。

到这方案涉及的五个场景均完成了体验,如果你想针对以上案例进行二次开发,并应用于实际的生产环境,官方也友好地提供了源码,链接整理如下:

文本信息提取

文档文件内容提取

图片OCR信息提取

图片结构化属性提取

视频理解与内容提取

体验总结

方案体验

  • 在应用场景的阐述上,仅文字性的说明显得内容很单调,建议配上相应的图片加以解释来丰富内容可读性。

image.png

  • 在方案架构中,虽然有架构图,但缺乏对于架构图流程的说明,只有架构特点的阐述。

image.png

  • 售前咨询功能在页面的多处存在,属于功能重复,建议取消右下角的悬浮按钮,让页面排版更清晰。

image.png

部署体验

首先部署过程非常简便,基于函数计算,按照官方文档的指导,我很快就完成了相关配置和部署。服务部署耗时基本在2分钟内,对于体验者开说还是非常快捷高效的。

其次,在部署过程中,部署方案均提供了详尽的文档和教程,帮助我快速上手。对于新手用户来说也非常友好,基本每个步骤都带有截图说明。我首先尝试了文本信息提取功能,通过上传一份文档文件,系统很快便提取出了其中的关键信息,这不仅大大节省了人工阅读和分析的时间,还提高了信息的准确性和可读性。接着,我测试了图片信息提取功能。通过上传一张包含信息的图片,系统成功识别并提取出了关键属性。这对于需要大量识别图片信息的电商平台来说,无疑是一个巨大的福音,可以大大提高商品信息的搜索优化和用户体验。最后,我还尝试了视频信息提取功能。通过上传一段视频,系统成功识别并提取出了视频中的关键信息和内容。这对于视频内容分析和事件记录来说,具有非常重要的意义。

部署完成后,我使用了解决方案提供的官方示例来验证效果。整体来说,示例能够正常运行并展示预期的功能。然而,实际体验过程中也发现了一些不足:

  • 比如所有实践所能支持的文件格式、文档格式、图片格式、视频格式均很少,这点不太切合实际的工作需求,建议增加多格式的支持。
  • 再者,对于需要填入提示词的场景,建议增加智能推荐提示词,一方面可以降低用户学习成本,二来可以让用户更快获得所需信息。对于视频类信息的上传限制太多,不太适合真正的视频信息提取需求,还有就是对视频的提取效率有待提高,建议通过优化算法、增加计算资源等方式来提高处理效率。
  • 官方示例数量相对较少,最多的也就三个示例,少的就只有一个,且某些示例可能过于简单,无法充分展示解决方案的全部功能和特点。

对于图片类信息的提取需要增加识别广度,比如上述体验的行程信息提取,有两个行程只设别到了一个;

对于视频类信息的提取需要优化识别方法,对于视频水印等一些干扰因素要智能去除掉,对于内容信息输出要更贴合实际,而不是简单地复述一遍视频内容。

最后,针对本次方案评测,官方还提供了免费试用额度,让新用户在初次体验时无需担心费用问题。这从体验的性价比角度来看,阿里云的多模态数据信息提取方案无疑是一个非常不错的选择。

福利彩蛋

本方案涉及的实验均有对应福利可领取,感兴趣的朋友一定不要错过,对应活动链接已整理在图下方,快点击参加吧。

image.png

结构化提取文档、文件内容

通过视频视觉理解,提取内容信息

通过OCR精准识别,提取图片中结构化信息

通过图片视觉理解,结构化提取属性信息

与 AI 智能体进行实时语音通话

函数计算 FC:免运维与高效开发

目录
相关文章
|
机器学习/深度学习 自然语言处理 数据处理
什么是数据标注
什么是数据标注
6701 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
53_多模态LLM:图像理解的新范式
在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。
974 0
|
5月前
|
机器学习/深度学习 存储 人工智能
构建AI智能体:六十三、基于信息论的智能医疗诊断系统:算法原理与临床验证
摘要:本文提出了一种基于信息论的智能医疗诊断系统,通过互信息、信息熵和信息增益等核心概念,构建了症状分析、疾病推理和检查推荐的综合诊断平台。系统采用模块化设计,利用概率模型生成模拟医疗数据,量化症状与疾病的关联强度,并通过热力图直观展示诊断依据。该系统能有效提升诊断准确性,优化检查资源配置,推动医疗诊断从经验依赖向数据驱动转变,为解决基层医疗资源不足等问题提供了技术支撑。
357 12
|
存储 人工智能 Serverless
《AI 剧本生成与动画创作》解决方案测评
这篇评测介绍了2025年首个AI剧本生成与动画创作解决方案。该方案结合阿里云的函数计算、对象存储OSS和百炼大模型服务,通过API调用实现剧本生成、语音合成及字幕生成等功能,适用于教育、短视频、游戏娱乐等领域。评测详细描述了部署流程,包括开通相关服务、准备物料、应用体验等环节,并对视频生成过程中的用户体验进行了总结和优化建议。整体而言,方案操作简便,但视频生成耗时较长且存在一些功能限制,如缺少进度条、多任务支持不足等。希望开发者们积极参与分享真实体验,共同推动技术进步。
887 4
|
弹性计算 运维 自然语言处理
操作系统智能助手OS Copilot新功能测评
一文带你了解操作系统智能助手OS Copilot的三大新功能
639 10
|
9月前
|
人工智能 搜索推荐 算法
AI提示词的四种学习姿势:让你的AI像朋友一样懂你
想象一下,你有个超级聪明的AI朋友,但它不知道你想要什么。本文用最轻松的方式告诉你,如何通过四种不同的'教学姿势',让AI秒懂你的需求,从完全不懂到心有灵犀,一步步成为你的最佳拍档!
510 6
|
9月前
|
人工智能 自然语言处理 机器人
自一致性提示技术:让AI像老师一样反复确认
想让AI给出更准确的答案?试试自一致性提示技术!就像找三个朋友帮你做同一道数学题,然后看谁的答案出现最多次。这个看似'折磨'AI的方法,却能让它变得更聪明、更可靠。本文用轻松幽默的方式,带你掌握这个让AI自我验证的神奇技巧。
540 3
|
9月前
|
人工智能 缓存 自然语言处理
AI总让你失望?提示词链让我从骂'憨憨'变成夸'真棒'
还在骂AI是憨憨?别急着换模型!提示词链技术教你如何从单次提问到连环追问,让你的AI助手从'人工智障'秒变'贴心小棉袄'!
435 4
|
SQL 数据可视化 BI
Quick BI产品测评:从数据连接到智能分析的全流程体验
瓴羊智能商业分析-Quick BI是阿里云旗下的云端智能BI平台,连续五年入选Gartner ABI魔力象限。它提供从数据接入到决策的全链路服务,支持零代码操作、40+可视化组件与OLAP分析,实现跨终端呈现。其创新点包括云原生架构、企业级安全体系及智能决策引擎,适用于零售、金融等行业。评测中,通过免费试用与官方文档,体验了数据准备、仪表板搭建及智能小Q功能,发现智能化能力强大但部分文档需更新优化。
1160 67
|
云安全 安全 API
“安全体检”测评:安全自动化背后的隐忧与突破
本文围绕阿里云安全检查服务展开,从技术深度、场景适配和安全边界三个维度分析其价值与短板。该服务定位为自动化风险治理工具,涵盖漏洞扫描、合规基线和配置修复。体验中发现,其优势在于云原生体系耦合、资源拓扑感知及成本效益;不足则体现在量化指标缺失和攻击面覆盖有限。改进建议包括优化风险排序、引入AI分析及提供场景化助手。文章总结,该产品在基础风险治理和合规提效上表现良好,但需强化自动化修复与业务场景适配能力,以实现从工具到平台的跃迁。
550 65

热门文章

最新文章