本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》
《百炼成金-大金融模型新篇章》––12.应用场景与技术架构选型(1):https://developer.aliyun.com/article/1539460
多模态数字化应用
随着大模型技术的高速发展,尤其 OpenAI 发布“Sora”后,加速从自然语言向多模态大模型的演进。多模态大模型不仅能够进行图像、视频的要素识别和场景提取,还可以根据提取的信息创作出更多原创图片和视频;同时多模态在语音上支持人机交互语言接口,不需要转文字,就可以在语境中识别复杂和抽象概念,加速智能客服拟人化服务和定制化服务效果。多模态大模型已经开始在各种业务领域进行探索,例如:智能催收、智能客服、智能推荐和智能运营等领域,随着多模态大模型与业务创新场景的持续性融合,展现其更高的用户粘性和商业价值,必将开启了企业构建多模态数字化应用的新时代。
智能提醒:企业通过多模态大模型,将外呼语音通话进行识别和数据抽取,构建用户意图和客服话术的知识库,同时通过语音特征分析,识别用户的个性化特征,并与用户特征知识库进行比对和更新。在实时和离线语音交互过程中,通过规则质检和风控,确保人工或机器人的回复符合领域规范,如果存在舆情风险,会提交人工复审,再进行知识库信息更新。如果符合规范,将进入新一轮的智能语音交互,通过大模型判断历史交流的用户意图,结合用户特征,进行个性化语音话术播报(例如:方言定制化),直至达到本通外呼目的为止。
智能客服:企业可以通过多模态大模型,将语音客服、私域咨询和售后交流的文字、图片和视频信息进行识别和数据抽取,例如:将用户提交的保单、病例等进行识别和数字化,存储到专属客服知识库和用户特征知识库,通过智能质检和风控,确保提交和回复数据的准确性和安全性。同时根据客户意图识别和个性化生成,满足用需要的回复或报告,再根据用户个性化特征生成专属文字或语音和视频回复,最后根据用户评价和人工抽检,收纳知识语料。
智能推荐:根据企业业务场景和市场规划目标,通过多模态大模型快速生成文案,在公域或私域传播,比如广告语、微博文章、微信公众号文章和抖音视频等,同时与多模态图片或视频 AI 工具相结合,自动生成宣传海报、宣传视频等视觉内容,提升营销素材的生成效率。通过自然语言交互或私域数据运营,为客户提供个性化的产品推荐和购买建议。根据用户特征数据分析客户的需求、偏好、风险承受能力等信息,快速准确地推荐适合客户的产品,提高保险销售效率和客户满意度。
智能运营:在企业和商户私域运营中,通过多模态数字化应用方案能够解决全链路高效运营。在商户入驻时,通过多模态场景和内容识别能力,完成摊位门头照自动化审核,同时识别商户和销售商品及价格;在商户运营中,通过多模态识别和生成能力,进行菜单初始化和商品效果图生成,降低门槛和成本;在日常运营中,通过多模态营销文案、图片和视频的生成能力,根据时节定制化营销文案和营销海报,以及宣传视频等,增加商户的收益和订单成交量。
多模态数字化应用基于企业外呼、客服、推荐、运营等多模态业务场景,与多模态技术的丰富和灵活的 AI 服务进行结合,快速实现业务效果。通常调用这类多模型 API 可以分为三步骤:准备和优化输入提示(Prompt)、使用 API 进行模型调用、处理和展示结果。
Prompt 优化:明确通过多模态大模型实现什么样的任务,基于任务需求构建有效的提示信息。对于文本任务,这可能意味着撰写清晰、具体的指令或问题;对于图像相关任务,则可能包括选择适当的图像作为输入。通过实验和反复测试,找到最能引导模型输出期望结果的Prompt 表达方式。调整文本提示的措辞或添加关键信息,改变图像输入的尺寸和质量。
Assistant-API 调用:
选择 API:确定适合你任务的 API 服务。不同的多模态大模型可能通过不同的 API 提供服务,选择合适的 API 是关键。
准备请求:遵循所选 API 的文档准备请求。这通常涉及设置合适的 HTTP 请求头、选择正确的 API 端点、准备必要的认证信息以及构建请求体。
发送请求:将准备好的请求发送给 API 服务。这可以通过编程方式使用 HTTP 客户端库或使用命令行工具完成。
处理响应:对 API 返回的结果进行处理。这可能包括解析 JSON 格式的响应内容、错误处理以及转换模型输出以便进一步使用。
结果召回展示:
分析模型返回的数据,对结果进行质量评估。根据需要,可能还要进行后处理,比如图像的裁剪或调整大小,文本的清理等。将处理过的结果以用户友好的方式展示出来。根据应用场景,这可能包括在网页上显示生成的文本或图像、在应用程序内部展示音频播放控件等。