AI时代下的数据信息提取 | 多模态数据信息提取

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。

前言

随着数字化与信息化进程的持续深入,以及人工智能(AI)科技的迅猛发展,企业对于数据信息的获取与处理的重要性有了更为深刻的认识。在这一大背景下,市场迫切需求一种能够支持多模态文件信息抽取能力的解决方案。这种能力需要能够识别和解析包括文本、图像、音频和视频在内的各种格式文件,从而高效提取出极具价值的信息。今日,我们为您精心寻觅到一款理想的解决方案——【多模态数据信息提取】方案,运用先进的大模型来进行数据的深入理解与精细分析处理。


多模态数据信息提取方案支持多种场景,包括文本信息提取、图片信息提取、视频信息提取,用户可以根据不同的需求进行结构化信息挖掘、提取、分析和摘要等,并支持批处理模式下的离线作业,提高大规模数据处理效率,降低 50% 的业务落地成本。

image.png

方案架构

本方案以函数计算 FC 为例,构建的 Web 服务来接收用户的请求,在函数计算内部将视频关键帧图片上传到对象存储 OSS 中,然后将关键帧图片地址和提示词发送至百炼模型服务,由其调用视觉模型 qwen-vl-max-latest 处理后,结果返回后,再次调用文本模型 qwen-max-latest 处理,最终将结果返回给用户,方案架构图如图

部署操作

在多模态数据信息提取方案介绍页面,点击【立即部署】进入部署操作体验页面,如果你没有开通阿里云百炼大模型服务,那么需要你先开通阿里云百炼大模型服务,开通服务后,在阿里云百炼大模型服务平台:https://bailian.console.aliyun.com/?spm=a2c6h.28997786.0.0.11234015Z4XOqi#/home  点击【API-KEY】

image.png

在 API-KEY 管理页面,点击【创建我的API-KEY】完成API-KEY的创建,并复制保存 API-KEY

image.png

复制好创建完成的API-KEY,点击实验操作的前往部署,在函数计算部署页面,粘贴刚才复制的 API-KEY,其他的都默认选择,然后点击【创建并部署默认环境】

image.png

等待函数计算部署成功,这个过程大概耗时1分钟左右

image.png

等待函数计算部署成功之后,点击【访问域名】

image.png

在WebUI页面,我们选择【示例1】,示例1默认加载关键词【型号,价格】,在点击【提取信息】后,会有限按照关键词来提取文档信息

image.png

点击提取信息后的提取结果如图

image.png

这个时候你可以去掉关键词【型号,价格】后再次点击【提取信息】,再没有关键词的情况下,模型会自动解析,可能会出席那每次提取信息后返回的内容有差异的情况

image.png

释放资源

实验完成之后,如果你不再使用当前函数计算资源,那么你可以选择删除函数计算应用,在函数计算详情页,点击右上角的【删除应用】释放资源,

image.png


或者在函数计算应用列表的操作列,点击【删除应用】

image.png


均可以完成函数资源的释放。到这里关于多模态信息提取中文本信息提取的部署操作也就结束了。

其他体验

如果你还想体验多模态信息提取的其他应用场景的信息提取,比如图片信息提取、视频信息提取。我们当前评测文档中提供的只有文本信息提取方案,那么【视频信息提取】方案的操作我也体验过,体验地址:https://www.aliyun.com/solution/tech-solution-deploy/2860032?spm=a2c6h.29876473.J_9552847120.2.2d0443beRC1hEm  体验效果如图,感兴趣的小伙伴可以自行体验哈

image.png

测评反馈

这里我对于测评中涉及的解决方案部署操作界面、操作文档、部署流程、验证效果的内容做一个整体的反馈。

多模态数据信息提取解决方案部署操作界面简单,步骤也不多,操作都比较简单容易上手,文档中对于每一步的执行步骤也有详细的描述,辅助截图以及文档操作步骤,新手小白也可以轻松部署。整个部署流程也比较顺畅,按照资源准备,函数计算部署的操作比较符合正常的部署流程。最后效果的验证,提供了官方示例,可以方便大家快速验证部署后的效果。总的说来整个流程比较顺畅, 效果也不错。

目前对于多模态数据信息提取解决方案的整个操作下来,以及最后的文本信息提取效果验证,五种信息解决方案在解决方案页面都可以找到,

image.png

通过切换tab的方式可以在线操作体验五种信息提取解决方案。每一种解决方案的部署步骤都比较简单,通过函数计算一键部署的方式操作,部署过程几乎没有什么难度,大家感兴趣的可以逐个尝试,这里我对于每种信息提取方案之前也都部署过,就不再文章中再次操作了。

费用方面的话不用担心,正如部署文档描述的一样,预计成本不超过 1元,大家可以放心部署,部署结束之后不用的话记得及时删除应用即可。或者也可以不删除应用,但是注意应用的访问域名不要被他人盗用。

小建议

对于现有的文本信息提取方案,目前部署之后是通过在线 WebUI界面操作的方式来实现文本内容信息的提取,那么实际情况中,往往是需要通过API接入的方式来嵌入企业现有的业务系统,而不是通过嵌套或者WebUI跳转页面这样的操作方式。那么是否有对应的API接口文档或者接口接入方案来帮助企业落地企业业务系统呢?

对于此次的操作体验那必须是体验感拉满,希望后期可以有API接入方案,企业可以通过调用API接口上传待识别文本信息、图片信息、视频信息等来获取想要的内容,那么企业落地就完美了。




相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
打赏
0
10
11
3
1640
分享
相关文章
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
68 19
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
112 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
65 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
1850 3
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
88 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
254 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
67 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
176 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现,涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等,结合实际代码示例,为开发者提供完整指南。同时探讨C接口转换Python时的注意事项,包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景,为行业应用带来便利与革新。
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
314 10
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表

热门文章

最新文章