当AI客服遇上「图文混排」提问,京东给电商AI来了场摸底考试

简介: 当买家非要「看图说话」,AI 客服要怎么破?


对于很多人来说,决定自己网购体验的,除了快递的速度,还有AI客服咨询的流畅和智能水平。


随着人机对话技术的发展,越来越多的电商企业开始用 AI 客服来回答用户的问题。虽然AI客服在文本对话中已经可以流畅回应,并切实帮助用户解答问题,但随着图片等多模态信息在对话中越来越频繁地出现,当前的 AI 客服正面临愈发严峻的挑战,不仅要理解文字内容,还要理解图片等多模态内容。AI客服在多模态场景的应用,还需要进一步的技术突破。


为了推动跨模态智能对话与人机交互技术的发展,京东 AI 研究院联合北京智源人工智能研究院在2018年首届任务导向型对话挑战赛、2019年基于知识增强的任务导向型对话挑战赛的基础上,共同举办 2020 年多模态任务导向型多轮对话挑战赛。本次大赛聚焦大规模真实复杂零售场景下多模态人机交互问题,通过打造多模态对话系统提升人机交互的自然度和体验。


微信图片_20211204211704.jpg


这次比赛 5 月 25 日开赛,9 月 15 日截止模型提交,总共历时 17 周,报名参赛选手共 734 人。最终,来自腾讯 AI Lab 的团队脱颖而出,摘得大赛一等奖;来自众多企业、高校、研究机构的团队也在此次大赛中展现出非凡的实力。


前段时间,中国计算语言学大会(CCL 2020)技术评测研讨会智源 - 京东多模态对话挑战大赛任务研讨会在线召开。在此次研讨会上,主办方京东 AI 研究院对本年的对话大赛进行了全方位的回顾与总结,几支获奖团队也受邀分享了此次大赛的比赛方案。


赛题设置和辅助信息


本次大赛考察的是多模态对话场景的问答问题。其中,「多模态」指的是对话 session 中用户提出的问题至少包含一张图片信息。整个场景包含 n 轮对话,参赛者可以拿到用户在此轮对话中提出的问题 Q_n 和此轮对话前 n-1 轮的对话历史信息,然后根据上下文和此轮问题给出通顺、逻辑一致且含有丰富知识的答案,以满足用户期望。最终评测采用自动评测、人工评测与技术方案评价相结合的方式进行。


微信图片_20211204211710.jpgimage.gif


由于在真实的线上服务场景中,用户发送的是多模态的图文信息,客服一般回复的都是文本信息。所以,本次大赛考察的重点是多模态的上下文语义理解、单模态的文本应答这样一个任务场景。


为了挑战这一难题,大赛构建了 JDDC 2.0 (Jing Dong Dialogue Corpus 2.0) 数据集。该数据集由服饰品类和小家电品类线上金牌客服的含有多模态信息的对话日志组成,是首个中文多模态对话数据集,包含多模态对话 24.6 万段,平均会话长度为 14 轮。


微信图片_20211204211715.png


微信图片_20211204211718.png


为了使参赛者更方便地使用对话中的图片信息,数据集选取了 5000 段小家电类对话和 5000 段服饰类对话,对其中所包含的图片进行了人工分类打标,共提供了 1.69 万张图片的 58 类标签。



微信图片_20211204211721.png

image.gif

此外,数据集还提供了对话中所涉及的商品知识库信息。整个知识库一共包含商品知识三元组 21.9 万条,其中含商品实体共 3 万多个,分别属于 231 种商品,包含 759 种商品属性关系。商品属性关系准确详尽,不仅包含商品基本属性信息,还包含商品卖点信息,可应用于商品属性应答、商品推荐等场景。

image.gif

微信图片_20211204211724.png


赛题难点


这场比赛的难点体现在多个方面。首先是长尾问题。在电商情景中,用户提出的问题五花八门,非常见问题可能占了很大比例。例如,在一个电磁炉的销售案例中,多数用户会问如何调节功率,但偶尔也有客户会问怎么设置温度。对于这类非常见问题,模型的表现可能不尽如人意。


第二个问题是上下文建模。购物场景中的对话轮次通常比较长,且前后内容相关性很强。如果模型只看当前或近几轮的交互,就会出现逻辑细节上的矛盾。因此,只有有效建模上下文,才能准确表达上下文中的细节信息。


微信图片_20211204211727.png


第三个问题是多模态特征提取和融合。多模态特征的提取方式分为很多种,可以利用整张图像提取特征,也可以只利用感兴趣区域(ROI)或图片上的文字。究竟哪种提取方式更有效还是一个需要探讨的问题。提取完成后,我们还要考虑这些特征要怎么与文本模态特征进行融合。


第四个问题是情感交流。在真实的业务场景中,用户可能本身就有一种不满或委屈的情绪,这就需要模型在解决问题的同时还要能够与用户有比较好的情感交流,提供更贴心的服务。


最后一个是决策问题。有些商品不可避免地有些小瑕疵,也不影响使用,一般人工客服都会选择对顾客进行小额经济补偿。如果模型选择每单都让顾客退货的话,就会造成一定的社会资源浪费。这种场景对模型的决策能力提出了很高的要求。


微信图片_20211204211730.png


获奖团队解决方案


此次比赛涌现的解决方案利用了当前比较热门的一些技术点,比如对 Transformer、大规模参数语言模型、生成式模型、大规模预训练模型和多模态知识的运用。


微信图片_20211204211733.pngimage.gif


在架构方面,优胜团队要么使用基于 Transformer 的语言模型,要么直接使用 Transformer 构建编解码器。由此可见,Transformer 已经取代 RNN 成为自然语言处理最主流的特征抽取器。


在模型规模方面,多个获奖团队选择了 Bert、GPT、UniLM 这样的大规模参数语言模型,利用更多的参数得到更好的对话效果。


在模型类别方面,优胜队伍几乎一边倒地使用了生成式模型,这也说明在语料充足的情况下,各种以 Transformer 为基础的生成模型在对话生成的语言流畅程度、应答相关性等方面表现与检索式模型没有区别,甚至会更有优势。


在预训练模型方面,第一名和第四名都使用了大规模数据预训练的 BERT 模型作为基础,这两个模型在人工单项评分中应答的满意率也略高一些,可见大规模预训练模型有助于进一步提升系统性能。


在知识方面,恰当融合多模态知识的参赛模型在某些场景下能够弥补单模态的信息缺失,提供更加满意的答案。


接下来,我们来看一下排名前二的优胜团队的具体解决方案。


腾讯 AI Lab:基于预训练语言模型和结构化知识库的多模态对话生成模型


第一名是来自腾讯 AI Lab 的团队(Arrival),他们构建了「基于预训练语言模型和结构化知识库的多模态对话生成模型」。该方案充分利用对话中的多模态信息与知识信息构建了基于预训练 BERT 的对话生成模型,并取得了良好效果。

方案的第一个阶段是通过领域适应预训练构建一个面向结构化知识库的对话模型,其中涉及知识库预训练、序列预训练、回复预训练等步骤。


第二个阶段是训练出能够同时支持多模态信息和知识信息的生成模型。首先,使用 ResNet 模型抽取图片特征并通过 K-means 实现图片聚类,将图片抽象化为 200 类 token 信息。然后,将这些信息融入先前训练好的面向结构化知识库的对话模型中,通过训练产生能够同时支持多模态信息和知识信息的生成模型。


微信图片_20211204211737.png


微信图片_20211204211740.png


云从科技:基于 GPT 模型的多模态融合方法及系统


第二名是来自云从科技的团队,他们构建了「基于 GPT 模型的多模态融合方法及系统」,使用多模态方式打造 GPT 对话模型。


在该方案中,模型采用上下文串接的方式将对话涉及的商品知识三元组放在对话的开头,作为对话的背景知识。然后,采用 ResNet 模型提取多模态图片中的特征。接下来,利用模型 Embedding 层向量叠加的方式将图片特征与文本特征相融合。最后,将这些融合后的多模态数据输入 GPT 结构为核心实现的编解码一体化模型,完成对话生成任务。


微信图片_20211204211743.png



微信图片_20211204211747.png


其他获奖团队的解决方案也都有各自的亮点,此处不一一赘述。


除了这些解决方案之外,本次大赛构建的首个中文多模态对话数据集 JDDC 2.0 也将在比赛结束后向公众开放,这些真实零售场景中的脱敏数据对于产学研融合和多轮对话发展将起到重要的推动作用。


为解决真实场景对话的各种挑战,京东 AI 已经连续举办了三届对话大赛,明年也会在同个时间周期举办 2021 年的对话大赛,欢迎各路高手前来 PK。


© THE END


转载请联系本公众号获得授权


投稿或寻求报道:content@jiqizhixin.com

相关文章
|
3天前
|
人工智能 程序员 数据库
AI客服会完全替代人工客服吗
本文介绍了AI客服的应用和发展,包括作者亲身搭建AI客服的经历,以及AI客服在提供24小时服务、快速响应客户需求、精准回答问题等方面的优势。文中还提到了构建AI总结助手、客户对话分析和智能导购助手的具体应用场景,展示了AI客服在提高工作效率、降低成本和优化用户体验方面的潜力。最后,文章讨论了AI客服替代人工客服的可能性及其局限性,强调应结合两者优势共同提升服务质量。
|
1月前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
1月前
|
人工智能 数据库 决策智能
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第1篇,聚焦电商行业痛点,探讨如何利用数据与AI技术及分析方法论,为电商注入新活力与效能。文中详细介绍了阿里云Data+AI解决方案,涵盖Zero-ETL、实时在线分析、混合负载资源隔离、长周期数据归档等关键技术,帮助企业应对数据在线重刷、实时分析、成本优化等挑战,实现智能化转型。
拥抱Data+AI|如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策
|
5天前
|
存储 人工智能 缓存
代理IP:AI内容创作与电商领域的隐形推手
在数字化时代,AI技术正迅速渗透到各个行业,特别是在内容创作和电商领域。代理IP技术作为重要工具,通过隐藏真实IP、突破访问限制和加速数据访问等方式,助力AI技术在内容创作和电商中发挥更大作用。本文将探讨代理IP如何在这些领域中提升数据处理能力和网络安全性,推动AI技术的深度应用。
19 0
|
5天前
|
人工智能 Serverless API
10 分钟打造你的专属 AI 客服
在这个数字化时代,提供卓越的客户服务已成为企业脱颖而出的关键。为了满足这一需求,越来越多的企业开始探索人工智能(AI)助手的应用,以实现全天候(7x24)的客户咨询响应,全面提升用户体验和业务竞争力。本解决方案通过函数计算FC 和大模型服务平台百炼,为您提供一个高效便捷构建 AI 助手思路。
|
1月前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
1月前
|
人工智能 供应链 安全
AI辅助安全测试案例某电商-供应链平台平台安全漏洞
【11月更文挑战第13天】该案例介绍了一家电商供应链平台如何利用AI技术进行全面的安全测试,包括网络、应用和数据安全层面,发现了多个潜在漏洞,并采取了有效的修复措施,提升了平台的整体安全性。
|
1月前
|
人工智能 自然语言处理 安全
AI技术在智能客服系统中的应用与挑战
【10月更文挑战第28天】本文将深入探讨人工智能(AI)技术在智能客服系统中的应用及其面临的挑战。我们将通过实例分析,了解AI如何改善客户服务体验,提高效率和降低成本。同时,我们也将关注AI在实际应用中可能遇到的问题,如语义理解、情感识别和数据安全等,并提出相应的解决方案。
|
9天前
|
机器学习/深度学习 自然语言处理 搜索推荐
深度分析 | 2024主流的智能客服系统有哪些?他们是怎么实现的?
本文深入探讨了智能客服系统的使用方法和相关技术实现逻辑,涵盖前端交互、服务接入、逻辑处理、数据存储四大层面,以及自然语言处理、机器学习、语音识别与合成、数据分析与挖掘、知识库管理和智能推荐系统等核心技术,帮助企业更好地理解和应用智能客服系统,提升服务效率和客户满意度。
49 1
|
2月前
|
存储 自然语言处理 机器人
实战揭秘:当RAG遇上企业客服系统——从案例出发剖析Retrieval-Augmented Generation技术的真实表现与应用局限,带你深入了解背后的技术细节与解决方案
【10月更文挑战第3天】随着自然语言处理技术的进步,结合检索与生成能力的RAG技术被广泛应用于多个领域,通过访问外部知识源提升生成内容的准确性和上下文一致性。本文通过具体案例探讨RAG技术的优势与局限,并提供实用建议。例如,一家初创公司利用LangChain框架搭建基于RAG的聊天机器人,以自动化FAQ系统减轻客服团队工作负担。尽管该系统在处理简单问题时表现出色,但在面对复杂或多步骤问题时存在局限。此外,RAG系统的性能高度依赖于训练数据的质量和范围。因此,企业在采用RAG技术时需综合评估需求和技术局限性,合理规划技术栈,并辅以必要的人工干预和监督机制。
154 3
下一篇
DataWorks