深思考人工智能 CEO 杨志明:多模态语义理解,是机器能否实现智能的关键 | 2019 WISE 超级进化者大会

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 未来随着5G、物联网以及产业互联网的发展,要深植边缘计算和中央智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。

1.png

**如何做到听懂和看懂,这就是多模态语义理解要解决的问题。
**

7月9-10日,36氪在北京和上海同步举办“2019WISE超级进化者”大会,活动设有七大会场,关注企业发展变革路径、行业风向把握、零售行业的进击与蜕变、万亿企业服务市场的崛起、产业创新机会、全球化趋势与差异化需求的爆发逻辑等议题,邀请超百位行业领袖,聚焦那些引领行业变革的超级进化者的崛起之路。

细心、周到、有同理心,这或许是人们对未来机器的想象。然而目前看来,我们距离这种理想状态还有差距。在AI领域中,语音识别、图像识别和语义理解与机器的智能化息息相关。相对于语音识别和图像识别的大规模落地,语义理解的落地目前还处于推进过程中。深思考就是一家专注于多模态语义理解的公司,这家公司未来的目标是做万物互联时代语义理解的大脑。在深思考人工智能CEO兼AI算法科学家——杨志明博士看来,目前人机对话的体验和效果远远不够,背后缺的就是多模态语义理解,而拥有多模态语义理解相关技术的深思考,已经在汽车、智能家居、医疗健康等领域实现产品和AI技术的突破。杨志明认为,未来还会有更多、更前沿的应用出现。

1.png

以下是演讲正文

大家好,非常荣幸与大家分享一下深度思考人工智能在AI语义理解的规模化落地。

我们聚焦多模态深度语义理解技术。目前AI粗略分三大领域:语音识别、图像识别和语义理解,在学术界大家认为语义理解是人工智能最后的一个皇冠。目前语义理解最前沿的技术叫多模态语义理解技术,就像人看电视一样,是同时看着画面、听着声音、看着字幕来做综合理解,其中人脑就是多模态深度语义理解的“引擎”。我们专注于多模态深度语义理解技术,我们是语义理解赛道的企业。

今天分享一下,人工智能语音识别、图像识别已经实现了大规模的落地,语义理解如何像图像识别和语音识别一样大规模快速落地。

介绍一下深思考:深思考最擅长多模态深度语义理解,在短文本理解方面,聚焦在人机对话方面,目前是中文领域上下文多轮人机对话技术权威赛事评测的多届蝉联冠军;在长文本理解方面,主要体现是机器阅读理解,最新的2019语言与智能技术竞赛拿了全世界中文的冠军。深思考团队来自于中科院和清华大学的AI一线科学家。我们未来的目标,是做5G时代或者万物互联时代语义理解的大脑。我们的产品就是多模态深度语义理解引擎iDeepWise.ai。语音识别能解决听见的问题,图像识别解决看见的问题,那如何做到既听懂也看懂,这就是多模态语义理解要解决的问题。

介绍一下深思考落地产品。现在深思考聚焦多模态深度语义理解引擎iDeepWise.ai,聚焦To B战略,实现了多个场景下产品的快速、深度落地。在智能车联网数字座舱场景下:我们的产品落地在智能车联网数字座舱内的多模态语义理解与人机交互;在智慧营销场景下,我们的产品帮助汽车用户进行AI自动建档、AI用户意向分级,帮助汽车主机厂分析潜在客户,提高销售成单率。在医疗健康场景下,用多模态语义理解技术做癌症早期筛查。在智能家居场景下,实现健康营养、人与家庭和家居设备的人机交互。另外依托于2亿部智能终端手机场景做手机和人的交互。

1.png

介绍一下第一个落地场景,就是智能车联网数字座舱。传统的汽车有一个各种仪表的传统的驾驶室,。随着汽车自动驾驶、智能车联网不断发展情况下,传统座舱发生了改变,我们称之为数字座舱。意思就是不再是一个简单的驾驶室,而是成为汽车在驾驶过程中的一个中央的多模态信息的汇聚地。比如智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。汽车本身装了一些系统,通过视觉对车外的环境做感知与理解。很多汽车内部有很多传感器,比如温度传感器、有语音信息输入。在智能车联网有很多模态的信息,有手势的模态、语音的模态、图像的模态。数字化场景下这些多模态信息如何汇聚起来做综合理解,提供给人做互动,我们提供多模态语义理解与人车交互大脑。

我们用在车内,第一能对多模态信息进行理解,第二可以在数字座舱环境下实现人、车和家庭的连接。在汽车里面,比如商务汽车,可以通过人车对话做智慧办公。另外我们还实现了RPA,传统的人机对话只是实现问答式交互,我们加入RPA自动软件机器人,不光跟你做人车对话,而且能够自动帮你完成一些事情,比如预定会议室、和家里的设备做联动、执行。在智慧驾驶场景下处理业务、家庭场景下进行健康咨询,也可以融入数字座舱的应用里。

第二个是汽车智慧营销场景。汽车营销场景下,有用户的对话信息、线上咨询信息、线下有用户的路线、停留时间、实际看车时的各种信息,我们把它综合起来做多模态语义理解。最后对用户进行AI自动建档、AI自动用户分级,以及大数据分析,为主机厂商销售提供闭环的大数据分析,以及助力4S店把车销售得更好。

第三,针对手机场景,跟手机厂商做深度战略合作。比如在智慧出行,用手机订酒店、订车票、订饭店。像苹果Siri是一问一答式的,但一些事情不是通过一问一答就能完成,中间可能会穿插不同的场景。目前这块我们已经有很大的突破,深思考的人机对话技术,不但能够实现上下文理解,还可以做到切换完场景之后,还可以切换回来,实现自由跨域的对话,最后通过RPA帮你自动完成这个任务。

另外在健康咨询这块,很多健康营养非常重要,比如妇女孕期的健康咨询,不用去医院,可以通过人机交互的方式,以手机作为载体,实现健康咨询场景下的多模态语义理解和人机对话。

第四,智能家居人机交互场景。目前的对话体验远远不够,背后缺的就是语义理解,就是它能听见语音指令,但不能理解背后的场景。比如年初有一个媒体披露,“我要订餐,不要日本菜”,结果出来的都是日本菜。比如有一些厂商发布音箱的时候,无法进行上下文理解,“来一首梅艳芳的歌,然后再说换一首她唱的其他歌”,就成了其他人唱的歌。如果用了多模态理解技术,就可以实现上下文的指代,说“再换一她唱的其他首歌”,出来还会是梅艳芳的歌。比如调空调温度,传统的语音识别可以识别出“调到28度”这一固定指令,但是如果说“我感觉有点热,帮我调到适合的温度”,这时候就不能理解了。语义理解就可以起到这个作用,了解你的个性化信息和习惯,能够理解大白话。比如“调高一点”,它可以通过语义理解实现最终的意图。

第五,智慧医疗健康领域。

目前已经实现了大规模医疗早筛。为什么语义理解能够用在AI早筛呢?举个例子,宫颈癌的筛查,单个细胞来看很难看出该细胞是阴性、阳性或者病变。但是根据周围环境和相邻细胞的位置关系、排列组合关系,可以判断出该细胞是隐性还是阳性。这就是图像视觉的语义理解,就是能够通过多维度信息理解图像背后的含义,就是说AI能“看懂”这张图。

深思考落地的时候,重点关注AI的三驾马车——算法、算力和数据。在长文本的理解上,比如阅读一本书,传统人机对话技术需要搭建知识图谱和问答对的数据库。而最新的语义理解技术,可以像人一样,看完一本书以后,会对这本书里面的非结构化文本进行多模态理解建模,当你问这本书里面的问题时。它对这本书里面的非结构化的信息进行多模态理解以后回答,非常类似人脑理解以后再回答问题。人看完一本书去回答一个问题时,不会先整理出一个问答对或者知识图谱。人是凭着大脑的理解,回复别人问的问题。机器阅读理解的基本原理就是这样,在这方面,深思考是具备非常突出的技术优势的。

深思考具备了非结构化长文本的机器阅读理解能力,避免了传统语义理解或者智能客服,用大量的人力物力去构建知识图谱或者问答对。我们直接阅读非结构化文本,一篇文章、一个网页都是非结构化的,现实中数据都是以非结构化为主。

深思考如何做到AI语义理解的规模化落地?除了上文阐述的以外,还实现了AI的落地场景的四个闭环。

第一,业务闭环。很多AI厂商提供一个单一的API接口或者某一块算法。这样很难深入到业务场景。我们深入业务场景,解决业务场景里面的关键问题,提供一站式解决方案,实现业务闭环。

第二,数据闭环。把业务场景下的数据从流入到流出,流入以后AI如何去学习,如何去整理这些数据,如何用这些数据构建AI模型,以及用AI模型更好地输出AI能力,解决产品落地当中的问题,实现数据闭环。

第三,模型闭环。AI模型通过无监督、半监督或者全监督学习,不断在线训练AI模型。模型在线训练以后,其具备更强的能力去解决问题,从而用户就会越喜欢用,越喜欢用,这个场景积累的数据会越多,就成一个良性闭环,最终还是打造一个产品闭环。

第四,产品闭环。落地时候不管是AI还是BI,最后还是解决用户场景下的服务问题。

总结一下,语音识别聚焦听见的问题,图像识别聚焦看见的问题,深思考主要聚焦听懂看懂的问题。未来随着5G、物联网以及产业互联网的发展,要深植边缘计算和中央智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。处处皆智能,万物可对话。

目前深思考已经商业化深度落地了大量的场景,汽车、医疗、智能家居中一些头部客户的已经成功落地,并不断快速规模化扩展

希望大家多多关注深思考人工智能。谢谢大家!
https://v.qq.com/x/page/d089667n7wz.html
1.gif

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来教育:探索智能教学的新纪元
【10月更文挑战第16天】 在21世纪这个信息爆炸的时代,技术革新正以惊人的速度改变着我们的生活和工作方式。其中,人工智能(AI)作为引领变革的先锋力量,不仅重塑了工业、医疗、金融等多个行业的面貌,也正悄然渗透进教育领域,预示着一场关于学习与教学方式的革命。本文旨在探讨人工智能如何为未来教育带来前所未有的机遇与挑战,从个性化学习路径的定制到教育资源的优化分配,再到教师角色的转变,我们一同展望一个更加智能、高效且包容的教育新纪元。
|
3月前
|
传感器 数据采集 机器学习/深度学习
人工智能与环境保护:智能监测与治理的新策略
【9月更文挑战第21天】人工智能在环境保护中的应用,为智能监测与治理提供了新的策略和方法。通过实时数据采集与分析、智能预警与应急响应、精准化决策支持等技术的应用,AI正在引领一场革命性的变革。未来,随着技术的不断发展和应用场景的拓展,AI将在环境保护中发挥更加重要的作用,助力我们构建更加绿色、可持续的未来。让我们携手共进,共同迎接一个更加美好的明天。
|
2天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器人的结合:智能化世界的未来
人工智能与机器人的结合:智能化世界的未来
59 32
|
18天前
|
机器学习/深度学习 人工智能 运维
人工智能在云计算中的运维优化:智能化的新时代
人工智能在云计算中的运维优化:智能化的新时代
115 49
|
1月前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI与艺术创作:机器的艺术天赋
【10月更文挑战第31天】本文探讨了AI在艺术创作中的应用及其独特“艺术天赋”。从绘画、音乐、文学到设计,AI通过计算机视觉、自然语言处理和生成对抗网络等技术,逐渐展现出强大的创作能力。尽管面临原创性、审美标准和法律伦理等挑战,AI艺术创作仍为艺术界带来了新的视角和灵感,未来有望与人类艺术家共同推动艺术的创新与发展。
|
1月前
|
机器学习/深度学习 存储 人工智能
政务部门人工智能OCR智能化升级:3大技术架构与4项核心功能解析
本项目针对政务服务数字化需求,建设智能文档处理平台,利用OCR、信息抽取和深度学习技术,实现文件自动解析、分类、比对与审核,提升效率与准确性。平台强调本地部署,确保数据安全,解决低质量扫描件、复杂表格等痛点,降低人工成本与错误率,助力智慧政务发展。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与艺术创作:机器与创造力
【10月更文挑战第31天】本文探讨了人工智能在艺术创作中的应用,涵盖绘画、音乐和文学等领域。通过深度学习、生成模型和强化学习等技术,AI正重新定义创造力的概念,辅助艺术家创作,并激发新的艺术形式。文章还讨论了AI对人类创造力的影响及未来发展趋势。
|
3月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
4月前
|
人工智能 监控 算法
智能时代的伦理困境:AI技术的道德边界探索人工智能在教育领域的革新之路未来编程:人工智能与代码共生的新篇章
【8月更文挑战第21天】在人工智能(AI)技术飞速发展的今天,我们正处在一个前所未有的科技变革时期。随着AI技术的深入人类生活的方方面面,它不仅带来了便利和效率的提升,同时也引发了关于道德和伦理的深刻讨论。本文将探讨AI技术发展中遇到的伦理挑战,以及如何建立合理的道德框架来指导AI的未来应用,确保技术进步与人类社会价值观的和谐共存。
253 61