《多模态数据信息提取》解决方案评测体验

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 《多模态数据信息提取》解决方案,主要是通过先进的人工智能技术,能够识别和解析各种格式的文件,包括文本、图像、音频和视频,从而提取出有价值的信息,大幅提升数据处理效率。

《多模态数据信息提取》解决方案,主要是通过先进的人工智能技术,能够识别和解析各种格式的文件,包括文本、图像、音频和视频,从而提取出有价值的信息,大幅提升数据处理效率。
并且开箱即用,通过百炼的多模态大模型推理服务,能够识别和解析文本、图像、音视频等不同模态的数据,根据用户需求进行结构化信息挖掘、提取、分析和摘要等,并支持批处理模式下的离线作业,提高大规模数据处理效率,降低 50% 的业务落地成本。
该解决方案主要是围绕下面五个场景,我也一一体验了变,下面我就那一个案例来举例部署流程。
001.png

一.部署【文档文件信息提取】:

在文档信息提取的流程中,我们使用计算资源(本方案以函数计算 FC 为例)构建的 Web 服务来接收用户的请求,在函数计算内部将文档和提示词发送至百炼模型服务,由其调用qwen-long文本模型处理后,最终将结果返回给用户。这里首先我们来看下方案的架构:
001.png
本方案的技术架构包括以下基础设施和云服务:
1个函数计算 FC 函数:用于调用百炼模型服务 API,进行文档信息提取。
百炼模型服务:调用 API 使用文本模型进行信息提取。

1.部署资源:

1.首先我们先要获取百炼模型服务的API KEY,获取API Key:在控制台的右上角选择API-KEY,然后创建API Key,用于通过API调用大模型。
001.png

(创建好后,直接复制下来备用)
image.png

2.请点击前往部署打开我们提供的函数计算应用模板,参考下表进行参数配置,然后单击创建并部署默认环境(下面图是默认环境,上面的“前往部署”我加了超链接,可以直接跳转部署函数FC模版哟)
image.png
3.部署的时候,填写前面复制下来的百炼API KEY,然后点击“创建并部署默认环境”按钮。
image.png

4.当部署成功后,我们就能看到页面上跳出【访问域名】了。(这里说实话一键部署是真的很方便,当然手动部署也不难)
image.png

5.点击“访问域名”,我们就可以跳转到本次部署的“文档文件信息提取”页面了。如下图所示:
001.png

6.下面我们用官方示例先进行体验:
首先,我选择了“手机卖卖合同”案例,提示词选择:手机信息(如下图)

001.png

点击提取后,AI就进行了相关数据的提取,这里速度还是比较快的。提取出来的信息如下所示(型号、容量、品牌、颜色等信息也都到位了):

image.png

二.体验评测【文档文件信息提取】:

当然为了评测体验文档文件信息提取的能力,不能只用官方案例来跑的,所以我特地拿了一份大文件“信息系统项目管理师教程-第四版.pdf”,文档大小501 MB (525,808,729 字节),来看下该功能体验效果。
image.png
但是问题出来了:
当我上传这份大文件后,发现按钮置灰了,没法点击,所以我刷新了下重新上传尝试:
001.png
我发现第二次上传也是如此,我又进行了第三变。在上传的过程中我仔细观察了下,我觉得问题应该是:由于文件过大导致上传失败,从而出现异常,因为我看到文件每次都是上传到6%的时候就显示出“已上传”的图标,但是我个人觉得应该没有真的上传完成,

这里我提下建议:

1.上传文件可以限制先文件大小(页面上可以提示出来);
2.不管上传成功还是失败,这里增加个提示,比如:上传成功或者文件过大上传失败;(这里缺少了交互)
001.png

于是乎,这里要发挥我锲而不舍的精神了,我换成了一份300M的文件,发行不行,再换一份200M的文件也还是不行,100M的文件也还不行,33M的文件也还不行,经过我的努力最后我成功上传了3份(每份10-30M)的文件,按钮终于是点亮了。
image.png
这里我有个问题,我觉得他这里应该是针对【单份文件】上传有大小限制,而且我觉得限制应该是不大于30M,在我测试的时候,我发现大于30M的文件上传后按钮就置灰了,而总文件大小应该没有限制,或者限制的阈值我不知道。这个问题交给官方大大解释了。

下面我进行了搜索,我这里使用了关键词【质量控制】来做索引,我发AI搜索的速度和文件大小是有关系的,文件越大,搜索出结果越慢(不过当然也是如此,这里我一份文件5M,一份是25M,两份文件相差速度有点久的。)
image.png

下面我们来对AI整理出来的结果来一一查看:

1.第一份文件:038-高项-第19章-24章.pdf
从他提取出来的内容看,其实和【质量控制】关系不是很大,不知道为嘛会提取出这么多信息:
001.png

2.第二份文件:037-高项-第18章绩效域-03-24年5月课程-一本通V1.2(24年4月5日直播)打印版-可搜索.pdf
第二份文件提取出来的内容其实还是挺满意的,如下图:
001.png

3.第三份文件:_035-高项-第18章绩效域-01-24年5月课程-一本通V1.2(24年4月1日直播)-打印版-可搜索pdf
第三份文件提取出来的内容最多,但是重点内容其实也不是我想要的。如下图:
image.png

当然这里测试我要说明下,这里我测试有点刁钻了,关于【质量控制】内容重点是在文档2内出现,文档1、3的确是没有的,所以不怪他整理出来的内容是我截图所示的,当然我也可以进一步的用更优质的提示词来做提示,可能效果更好。百炼提供了 Prompt 一键优化工具。该工具能针对输入的提示(Prompt)进行自动扩写和细节添加,大家也可以尝试下(当然我比较懒,我想让AI整理资料,就更不想还要自己动手整理提示词了,哈哈,说着说着,这不有又一个优化需求出来了吗?可以增加一个提示词优化功能)

三.写在最后的总结:

先来说下优化建议:
1.上传文件可以限制文件大小(页面上可以提示出来);
2.不管上传成功还是失败,这里增加个提示,比如:上传成功或者文件过大上传失败;(这里缺少了交互)
3.增加“提示词”优化功能,可以一键优化;
4.多文档提取信息的时候,右侧的提取结果可以按文档信息以树结构的形式进行收缩和展开,这样方便阅读,而不是一直往下滑动;
5.增加多维度的信息提取功能,我可以一次性搜索出想要的信息,然后按照“选择/切换”的方式来查看;

总的来说整体功能和效果已经是很不错了,另外四项功能我也都评测了一遍,一键部署是真的超级方便,功能上在未来我相信会越来越完美的!

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
目录
相关文章
|
11月前
|
存储 消息中间件 人工智能
《多模态数据信息提取》解决方案测评
先预示一下,本次测评有福利彩蛋哟,快过年了,喜庆的对联需要吧;大冬天的,保暖触屏手套需要吧;走过路过不要错过。
322 10
|
机器学习/深度学习 人工智能 自然语言处理
四张图片道清AI大模型的发展史(1943-2023)
现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。
5128 0
|
10月前
|
安全 Serverless API
多模态数据信息提取解决方案评测
该方案展示了如何利用阿里云的多模态大模型服务进行文本、图片和文档的信息提取。通过函数计算(FC)调用百炼模型服务API,实现信息提取功能。具体步骤包括: 1. **开通百炼模型服务**:获取API Key,确保可以调用大模型。 2. **部署应用**:使用函数计算部署应用模板,配置参数并创建环境。 3. **访问示例应用**:通过提供的域名访问示例网站,测试信息提取功能。 4. **清理资源**:删除函数计算和OSS Bucket等资源,避免产生额外费用。 此方案具备多模态推理、易于扩展、灵活调用模式和便捷安全的云产品接入等优点,适用于多种业务需求。
443 28
|
10月前
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
10月前
|
文字识别 开发者 数据处理
多模态数据信息提取解决方案评测报告!
阿里云推出的《多模态数据信息提取》解决方案,利用AI技术从文本、图像、音频和视频中提取关键信息,支持多种应用场景,大幅提升数据处理效率。评测涵盖部署体验、文档清晰度、模板简化、示例验证及需求适配性等方面。方案表现出色,部署简单直观,功能强大,适合多种业务场景。建议增加交互提示、多语言支持及优化OCR和音频转写功能...
360 3
多模态数据信息提取解决方案评测报告!
|
9月前
|
人工智能 自然语言处理 数据可视化
阿里云 DeepSeek-R1 满血版解决方案评测
阿里云推出的“零门槛、即刻拥有 DeepSeek-R1 满血版”技术解决方案,为用户提供了便捷的云上调用和部署方式,极大地降低了使用门槛和成本。本文将对这一解决方案进行详细评测。
452 14
|
9月前
|
人工智能 自然语言处理 数据可视化
零门槛,轻松体验阿里云 DeepSeek-R1 满血版:快速部署,立享超强推理能力
DeepSeek-R1 是阿里云推出的先进推理模型,专为解决复杂任务设计,尤其在数学推理、代码生成与修复、自然语言处理等领域表现出色。通过阿里云的“零门槛”解决方案,用户无需编写代码即可快速部署 DeepSeek-R1,大幅简化了部署流程并提升了使用效率。该方案提供了详尽的文档和可视化界面,使开发者能轻松上手。DeepSeek-R1 支持多种模型尺寸,适用于不同场景,如智能客服、代码自动化生成、数学问题求解和跨领域知识推理。尽管存在对高自定义需求支持有限、云端依赖性等不足,但对于希望快速验证模型效果的用户而言,阿里云的这一解决方案仍然是高效且经济的选择。
2595 31
|
9月前
|
机器学习/深度学习 自然语言处理 安全
DeepSeek-R1 体验评测报告:智能推理新高度
DeepSeek-R1 体验评测报告:智能推理新高度
721 7
DeepSeek-R1 体验评测报告:智能推理新高度
|
9月前
|
人工智能 运维 Serverless
DeepSeek模型部署全过程实践,轻松上手就在阿里云
随着人工智能技术的不断发展,越来越多的企业和个人开始探索如何利用深度学习模型来提升业务效率和用户体验。阿里云推出的【零门槛、轻松部署您的专属 DeepSeek 模型】解决方案为用户提供了多种便捷的部署方式,包括**基于百炼 API 调用满血版、基于人工智能平台 PAl 部署、基于函数计算部署以及基于 GPU 云服务器部署**。本文将从多个维度对这些部署方式进行详细评测,并分享个人的实际体验和观点。
2049 26
|
9月前
|
人工智能 前端开发 Serverless
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
646 16