深思考人工智能 CEO 杨志明:多模态语义理解,是机器能否实现智能的关键 | 2019 WISE 超级进化者大会

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 未来随着5G、物联网以及产业互联网的发展,要深植边缘计算和中央智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。

1.png

**如何做到听懂和看懂,这就是多模态语义理解要解决的问题。
**

7月9-10日,36氪在北京和上海同步举办“2019WISE超级进化者”大会,活动设有七大会场,关注企业发展变革路径、行业风向把握、零售行业的进击与蜕变、万亿企业服务市场的崛起、产业创新机会、全球化趋势与差异化需求的爆发逻辑等议题,邀请超百位行业领袖,聚焦那些引领行业变革的超级进化者的崛起之路。

细心、周到、有同理心,这或许是人们对未来机器的想象。然而目前看来,我们距离这种理想状态还有差距。在AI领域中,语音识别、图像识别和语义理解与机器的智能化息息相关。相对于语音识别和图像识别的大规模落地,语义理解的落地目前还处于推进过程中。深思考就是一家专注于多模态语义理解的公司,这家公司未来的目标是做万物互联时代语义理解的大脑。在深思考人工智能CEO兼AI算法科学家——杨志明博士看来,目前人机对话的体验和效果远远不够,背后缺的就是多模态语义理解,而拥有多模态语义理解相关技术的深思考,已经在汽车、智能家居、医疗健康等领域实现产品和AI技术的突破。杨志明认为,未来还会有更多、更前沿的应用出现。

1.png

以下是演讲正文

大家好,非常荣幸与大家分享一下深度思考人工智能在AI语义理解的规模化落地。

我们聚焦多模态深度语义理解技术。目前AI粗略分三大领域:语音识别、图像识别和语义理解,在学术界大家认为语义理解是人工智能最后的一个皇冠。目前语义理解最前沿的技术叫多模态语义理解技术,就像人看电视一样,是同时看着画面、听着声音、看着字幕来做综合理解,其中人脑就是多模态深度语义理解的“引擎”。我们专注于多模态深度语义理解技术,我们是语义理解赛道的企业。

今天分享一下,人工智能语音识别、图像识别已经实现了大规模的落地,语义理解如何像图像识别和语音识别一样大规模快速落地。

介绍一下深思考:深思考最擅长多模态深度语义理解,在短文本理解方面,聚焦在人机对话方面,目前是中文领域上下文多轮人机对话技术权威赛事评测的多届蝉联冠军;在长文本理解方面,主要体现是机器阅读理解,最新的2019语言与智能技术竞赛拿了全世界中文的冠军。深思考团队来自于中科院和清华大学的AI一线科学家。我们未来的目标,是做5G时代或者万物互联时代语义理解的大脑。我们的产品就是多模态深度语义理解引擎iDeepWise.ai。语音识别能解决听见的问题,图像识别解决看见的问题,那如何做到既听懂也看懂,这就是多模态语义理解要解决的问题。

介绍一下深思考落地产品。现在深思考聚焦多模态深度语义理解引擎iDeepWise.ai,聚焦To B战略,实现了多个场景下产品的快速、深度落地。在智能车联网数字座舱场景下:我们的产品落地在智能车联网数字座舱内的多模态语义理解与人机交互;在智慧营销场景下,我们的产品帮助汽车用户进行AI自动建档、AI用户意向分级,帮助汽车主机厂分析潜在客户,提高销售成单率。在医疗健康场景下,用多模态语义理解技术做癌症早期筛查。在智能家居场景下,实现健康营养、人与家庭和家居设备的人机交互。另外依托于2亿部智能终端手机场景做手机和人的交互。

1.png

介绍一下第一个落地场景,就是智能车联网数字座舱。传统的汽车有一个各种仪表的传统的驾驶室,。随着汽车自动驾驶、智能车联网不断发展情况下,传统座舱发生了改变,我们称之为数字座舱。意思就是不再是一个简单的驾驶室,而是成为汽车在驾驶过程中的一个中央的多模态信息的汇聚地。比如智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。汽车本身装了一些系统,通过视觉对车外的环境做感知与理解。很多汽车内部有很多传感器,比如温度传感器、有语音信息输入。在智能车联网有很多模态的信息,有手势的模态、语音的模态、图像的模态。数字化场景下这些多模态信息如何汇聚起来做综合理解,提供给人做互动,我们提供多模态语义理解与人车交互大脑。

我们用在车内,第一能对多模态信息进行理解,第二可以在数字座舱环境下实现人、车和家庭的连接。在汽车里面,比如商务汽车,可以通过人车对话做智慧办公。另外我们还实现了RPA,传统的人机对话只是实现问答式交互,我们加入RPA自动软件机器人,不光跟你做人车对话,而且能够自动帮你完成一些事情,比如预定会议室、和家里的设备做联动、执行。在智慧驾驶场景下处理业务、家庭场景下进行健康咨询,也可以融入数字座舱的应用里。

第二个是汽车智慧营销场景。汽车营销场景下,有用户的对话信息、线上咨询信息、线下有用户的路线、停留时间、实际看车时的各种信息,我们把它综合起来做多模态语义理解。最后对用户进行AI自动建档、AI自动用户分级,以及大数据分析,为主机厂商销售提供闭环的大数据分析,以及助力4S店把车销售得更好。

第三,针对手机场景,跟手机厂商做深度战略合作。比如在智慧出行,用手机订酒店、订车票、订饭店。像苹果Siri是一问一答式的,但一些事情不是通过一问一答就能完成,中间可能会穿插不同的场景。目前这块我们已经有很大的突破,深思考的人机对话技术,不但能够实现上下文理解,还可以做到切换完场景之后,还可以切换回来,实现自由跨域的对话,最后通过RPA帮你自动完成这个任务。

另外在健康咨询这块,很多健康营养非常重要,比如妇女孕期的健康咨询,不用去医院,可以通过人机交互的方式,以手机作为载体,实现健康咨询场景下的多模态语义理解和人机对话。

第四,智能家居人机交互场景。目前的对话体验远远不够,背后缺的就是语义理解,就是它能听见语音指令,但不能理解背后的场景。比如年初有一个媒体披露,“我要订餐,不要日本菜”,结果出来的都是日本菜。比如有一些厂商发布音箱的时候,无法进行上下文理解,“来一首梅艳芳的歌,然后再说换一首她唱的其他歌”,就成了其他人唱的歌。如果用了多模态理解技术,就可以实现上下文的指代,说“再换一她唱的其他首歌”,出来还会是梅艳芳的歌。比如调空调温度,传统的语音识别可以识别出“调到28度”这一固定指令,但是如果说“我感觉有点热,帮我调到适合的温度”,这时候就不能理解了。语义理解就可以起到这个作用,了解你的个性化信息和习惯,能够理解大白话。比如“调高一点”,它可以通过语义理解实现最终的意图。

第五,智慧医疗健康领域。

目前已经实现了大规模医疗早筛。为什么语义理解能够用在AI早筛呢?举个例子,宫颈癌的筛查,单个细胞来看很难看出该细胞是阴性、阳性或者病变。但是根据周围环境和相邻细胞的位置关系、排列组合关系,可以判断出该细胞是隐性还是阳性。这就是图像视觉的语义理解,就是能够通过多维度信息理解图像背后的含义,就是说AI能“看懂”这张图。

深思考落地的时候,重点关注AI的三驾马车——算法、算力和数据。在长文本的理解上,比如阅读一本书,传统人机对话技术需要搭建知识图谱和问答对的数据库。而最新的语义理解技术,可以像人一样,看完一本书以后,会对这本书里面的非结构化文本进行多模态理解建模,当你问这本书里面的问题时。它对这本书里面的非结构化的信息进行多模态理解以后回答,非常类似人脑理解以后再回答问题。人看完一本书去回答一个问题时,不会先整理出一个问答对或者知识图谱。人是凭着大脑的理解,回复别人问的问题。机器阅读理解的基本原理就是这样,在这方面,深思考是具备非常突出的技术优势的。

深思考具备了非结构化长文本的机器阅读理解能力,避免了传统语义理解或者智能客服,用大量的人力物力去构建知识图谱或者问答对。我们直接阅读非结构化文本,一篇文章、一个网页都是非结构化的,现实中数据都是以非结构化为主。

深思考如何做到AI语义理解的规模化落地?除了上文阐述的以外,还实现了AI的落地场景的四个闭环。

第一,业务闭环。很多AI厂商提供一个单一的API接口或者某一块算法。这样很难深入到业务场景。我们深入业务场景,解决业务场景里面的关键问题,提供一站式解决方案,实现业务闭环。

第二,数据闭环。把业务场景下的数据从流入到流出,流入以后AI如何去学习,如何去整理这些数据,如何用这些数据构建AI模型,以及用AI模型更好地输出AI能力,解决产品落地当中的问题,实现数据闭环。

第三,模型闭环。AI模型通过无监督、半监督或者全监督学习,不断在线训练AI模型。模型在线训练以后,其具备更强的能力去解决问题,从而用户就会越喜欢用,越喜欢用,这个场景积累的数据会越多,就成一个良性闭环,最终还是打造一个产品闭环。

第四,产品闭环。落地时候不管是AI还是BI,最后还是解决用户场景下的服务问题。

总结一下,语音识别聚焦听见的问题,图像识别聚焦看见的问题,深思考主要聚焦听懂看懂的问题。未来随着5G、物联网以及产业互联网的发展,要深植边缘计算和中央智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。处处皆智能,万物可对话。

目前深思考已经商业化深度落地了大量的场景,汽车、医疗、智能家居中一些头部客户的已经成功落地,并不断快速规模化扩展

希望大家多多关注深思考人工智能。谢谢大家!
https://v.qq.com/x/page/d089667n7wz.html
1.gif

目录
相关文章
|
13天前
|
传感器 数据采集 机器学习/深度学习
人工智能与环境保护:智能监测与治理的新策略
【9月更文挑战第21天】人工智能在环境保护中的应用,为智能监测与治理提供了新的策略和方法。通过实时数据采集与分析、智能预警与应急响应、精准化决策支持等技术的应用,AI正在引领一场革命性的变革。未来,随着技术的不断发展和应用场景的拓展,AI将在环境保护中发挥更加重要的作用,助力我们构建更加绿色、可持续的未来。让我们携手共进,共同迎接一个更加美好的明天。
|
14天前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
人工智能 监控 算法
智能时代的伦理困境:AI技术的道德边界探索人工智能在教育领域的革新之路未来编程:人工智能与代码共生的新篇章
【8月更文挑战第21天】在人工智能(AI)技术飞速发展的今天,我们正处在一个前所未有的科技变革时期。随着AI技术的深入人类生活的方方面面,它不仅带来了便利和效率的提升,同时也引发了关于道德和伦理的深刻讨论。本文将探讨AI技术发展中遇到的伦理挑战,以及如何建立合理的道德框架来指导AI的未来应用,确保技术进步与人类社会价值观的和谐共存。
229 61
|
9天前
|
机器学习/深度学习 人工智能 算法
人工智能在艺术创作中的创新应用:机器创作的未来
【9月更文挑战第25天】 人工智能在艺术创作中的创新应用,不仅为艺术家们提供了全新的创作工具和媒介,更在创作理念、艺术形态等方面带来了深刻的变革。随着技术的不断发展和完善,机器创作将在未来展现出更加广阔的发展前景。我们期待在人工智能的助力下,艺术创作能够迎来更加繁荣和多元的未来。
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
智能新纪元:人工智能如何重塑我们的未来
想象一下,未来的世界被一种无形的智能所包围,它不仅理解我们的需求,还能预测我们的欲望。这不是科幻小说的情节,而是人工智能(AI)技术正在逐步实现的愿景。本文将带你一探AI技术的最新进展,以及它是如何悄然改变我们的生活、工作和思维方式。从深度学习到自然语言处理,我们将一同见证这场科技革命如何开启智能新纪元的大门。
|
22天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的探索之旅:从自动化到人工智能
在数字化浪潮中,运维领域正经历一场革命。本文将带你领略从传统手动操作到自动化脚本,再到集成人工智能的智能运维平台的演变之路。我们将探讨如何通过技术创新提升效率、降低成本并增强系统的可靠性和安全性。文章不仅分享技术演进的故事,还提供了实现智能化运维的实践策略和未来趋势的展望。
|
29天前
|
机器学习/深度学习 人工智能 算法
AI伦理边界:当机器决策超越人类认知
【9月更文挑战第5天】AI伦理边界的探索是一个复杂而艰巨的任务,需要政府、企业、学术界和社会各界的共同努力。随着AI技术的不断发展,我们有理由相信,通过不断的探索和实践,我们一定能够找到一条既符合伦理道德又能够充分发挥AI技术潜力的道路。在未来的日子里,让我们携手并进,共同迎接AI技术带来的机遇与挑战。
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
探索人工智能的未来应用:从智能助手到自动驾驶
【8月更文挑战第30天】 在本文中,我们将深入探讨人工智能(AI)的未来应用,从智能助手到自动驾驶。我们将看到AI如何改变我们的生活,并讨论其潜在的影响和挑战。让我们一起探索这个令人兴奋的领域吧!
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:未来趋势下的自动化与人工智能融合
【8月更文挑战第18天】 在数字化浪潮中,智能运维(AIOps)作为一股不可逆转的力量,正逐步改写传统运维的脚本。本文将探讨AIOps的核心要素、实施路径和面临的挑战,同时分享个人从新手到专家的心路历程,旨在启发读者思考如何在这一领域内持续成长并作出贡献。
104 6
|
2月前
|
数据采集 人工智能 物联网
下一篇
无影云桌面