AI时代下的数据信息提取 | 多模态数据信息提取

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。

前言

随着数字化与信息化进程的持续深入,以及人工智能(AI)科技的迅猛发展,企业对于数据信息的获取与处理的重要性有了更为深刻的认识。在这一大背景下,市场迫切需求一种能够支持多模态文件信息抽取能力的解决方案。这种能力需要能够识别和解析包括文本、图像、音频和视频在内的各种格式文件,从而高效提取出极具价值的信息。今日,我们为您精心寻觅到一款理想的解决方案——【多模态数据信息提取】方案,运用先进的大模型来进行数据的深入理解与精细分析处理。


多模态数据信息提取方案支持多种场景,包括文本信息提取、图片信息提取、视频信息提取,用户可以根据不同的需求进行结构化信息挖掘、提取、分析和摘要等,并支持批处理模式下的离线作业,提高大规模数据处理效率,降低 50% 的业务落地成本。

image.png

方案架构

本方案以函数计算 FC 为例,构建的 Web 服务来接收用户的请求,在函数计算内部将视频关键帧图片上传到对象存储 OSS 中,然后将关键帧图片地址和提示词发送至百炼模型服务,由其调用视觉模型 qwen-vl-max-latest 处理后,结果返回后,再次调用文本模型 qwen-max-latest 处理,最终将结果返回给用户,方案架构图如图

部署操作

在多模态数据信息提取方案介绍页面,点击【立即部署】进入部署操作体验页面,如果你没有开通阿里云百炼大模型服务,那么需要你先开通阿里云百炼大模型服务,开通服务后,在阿里云百炼大模型服务平台:https://bailian.console.aliyun.com/?spm=a2c6h.28997786.0.0.11234015Z4XOqi#/home  点击【API-KEY】

image.png

在 API-KEY 管理页面,点击【创建我的API-KEY】完成API-KEY的创建,并复制保存 API-KEY

image.png

复制好创建完成的API-KEY,点击实验操作的前往部署,在函数计算部署页面,粘贴刚才复制的 API-KEY,其他的都默认选择,然后点击【创建并部署默认环境】

image.png

等待函数计算部署成功,这个过程大概耗时1分钟左右

image.png

等待函数计算部署成功之后,点击【访问域名】

image.png

在WebUI页面,我们选择【示例1】,示例1默认加载关键词【型号,价格】,在点击【提取信息】后,会有限按照关键词来提取文档信息

image.png

点击提取信息后的提取结果如图

image.png

这个时候你可以去掉关键词【型号,价格】后再次点击【提取信息】,再没有关键词的情况下,模型会自动解析,可能会出席那每次提取信息后返回的内容有差异的情况

image.png

释放资源

实验完成之后,如果你不再使用当前函数计算资源,那么你可以选择删除函数计算应用,在函数计算详情页,点击右上角的【删除应用】释放资源,

image.png


或者在函数计算应用列表的操作列,点击【删除应用】

image.png


均可以完成函数资源的释放。到这里关于多模态信息提取中文本信息提取的部署操作也就结束了。

其他体验

如果你还想体验多模态信息提取的其他应用场景的信息提取,比如图片信息提取、视频信息提取。我们当前评测文档中提供的只有文本信息提取方案,那么【视频信息提取】方案的操作我也体验过,体验地址:https://www.aliyun.com/solution/tech-solution-deploy/2860032?spm=a2c6h.29876473.J_9552847120.2.2d0443beRC1hEm  体验效果如图,感兴趣的小伙伴可以自行体验哈

image.png

测评反馈

这里我对于测评中涉及的解决方案部署操作界面、操作文档、部署流程、验证效果的内容做一个整体的反馈。

多模态数据信息提取解决方案部署操作界面简单,步骤也不多,操作都比较简单容易上手,文档中对于每一步的执行步骤也有详细的描述,辅助截图以及文档操作步骤,新手小白也可以轻松部署。整个部署流程也比较顺畅,按照资源准备,函数计算部署的操作比较符合正常的部署流程。最后效果的验证,提供了官方示例,可以方便大家快速验证部署后的效果。总的说来整个流程比较顺畅, 效果也不错。

目前对于多模态数据信息提取解决方案的整个操作下来,以及最后的文本信息提取效果验证,五种信息解决方案在解决方案页面都可以找到,

image.png

通过切换tab的方式可以在线操作体验五种信息提取解决方案。每一种解决方案的部署步骤都比较简单,通过函数计算一键部署的方式操作,部署过程几乎没有什么难度,大家感兴趣的可以逐个尝试,这里我对于每种信息提取方案之前也都部署过,就不再文章中再次操作了。

费用方面的话不用担心,正如部署文档描述的一样,预计成本不超过 1元,大家可以放心部署,部署结束之后不用的话记得及时删除应用即可。或者也可以不删除应用,但是注意应用的访问域名不要被他人盗用。

小建议

对于现有的文本信息提取方案,目前部署之后是通过在线 WebUI界面操作的方式来实现文本内容信息的提取,那么实际情况中,往往是需要通过API接入的方式来嵌入企业现有的业务系统,而不是通过嵌套或者WebUI跳转页面这样的操作方式。那么是否有对应的API接口文档或者接口接入方案来帮助企业落地企业业务系统呢?

对于此次的操作体验那必须是体验感拉满,希望后期可以有API接入方案,企业可以通过调用API接口上传待识别文本信息、图片信息、视频信息等来获取想要的内容,那么企业落地就完美了。




相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
12天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
102 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
1月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
105 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
27天前
|
人工智能 自然语言处理 搜索推荐
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
GLM-Realtime 是智谱推出的端到端多模态模型,具备低延迟的视频理解与语音交互能力,支持清唱功能、2分钟内容记忆及灵活调用外部工具,适用于多种智能场景。
57 4
GLM-Realtime:智谱推出多模态交互AI模型,融入清唱功能,支持视频和语音交互
|
25天前
|
人工智能 测试技术 Python
VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型
VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型,通过分层压缩技术高效处理长视频,支持长达数小时的视频输入,推理速度提升5-10倍。
72 1
VideoChat-Flash:上海AI Lab开源高效处理超长视频的多模态大模型
|
1月前
|
人工智能 API
MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务
MMedAgent 是专为医疗领域设计的多模态AI智能体,支持多种医疗任务,包括医学影像处理、报告生成等,性能优于现有开源方法。
149 19
MMedAgent:专为医疗领域设计的多模态 AI 智能体,支持医学影像处理、报告生成等多种医疗任务
|
1月前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
118 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
2月前
|
人工智能 自然语言处理 测试技术
DeepSeek V3:DeepSeek 开源的最新多模态 AI 模型,编程能力超越Claude,生成速度提升至 60 TPS
DeepSeek V3 是深度求索公司开源的最新 AI 模型,采用混合专家架构,具备强大的编程和多语言处理能力,性能超越多个竞争对手。
836 5
DeepSeek V3:DeepSeek 开源的最新多模态 AI 模型,编程能力超越Claude,生成速度提升至 60 TPS
|
1月前
|
机器学习/深度学习 存储 人工智能
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
411 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
1月前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY3 - 更热门的多模态交互案例带练,实操掌握AI应用开发
本文章旨在帮助读者了解并掌握大模型多模态技术的实际应用,特别是如何构建基于多模态的实用场景。文档通过几个具体的多模态应用场景,如拍立淘、探一下和诗歌相机,展示了这些技术在日常生活中的应用潜力。

热门文章

最新文章