10月27日上午8:30,第十四届中国计算机大会(CNCC 2017)正式迈入第二天的日程。雷锋网作为CNCC 2017 独家战略合作媒体,大会期间将会在现场全程跟踪报道。
本次大会主题是“人工智能改变世界(AI Changes the World)”,共邀请近十位院士、300余位国内外计算机领域知名专家、著名国际国内IT企业家到会演讲。会议包括14个特邀报告、2场大会论坛、40余场前沿技术论坛及30余场特色活动,同期举办科技成果展,汇聚80余家企业参展。大会已成功举办13届,此次参会规模也是迄今为止最大,人数最多的一次,共计有近700家企事业单位,超过6000名专业人士参会参展。
特邀报告环节
27日上午共进行了八场特邀报告。
特邀嘉宾:Dinesh Manocha教授
报告主题:Motion Planning Technologies for Human-Robot Interaction
Dinesh教授首先介绍了机器人在制造、装配、仓库自动化和服务行业得到的越来越广泛的应用,随后认为目前的机器人在处理新环境或与人类合作等方面的能力还很有限。
报告中,Dinesh介绍了在开发机器人运动和任务规划能力方面的一些挑战,包括实时规划算法。随后他介绍了他们提出的实时运动规划的的新技术以及如何将他们与视觉算法结合起来进行人类行为预测以及自然语言处理。由此产生的方法结合了人工智能规划、拓扑、优化、计算机视觉、机器学习、自然语言处理和并行计算等研究的思想。随后他展示了他们研究的许多应用,包括自主采摘、避免障碍等。
特邀嘉宾:陈熙霖
报告主题:从物体识别到场景理解
首先陈熙霖教授介绍了视觉在动物生活中的重要作用,随后简短地介绍了计算机视觉的历史。随着深度学习的引入,计算机视觉得到了很大的发展。但仍然喜忧参半,喜的是计算机视觉逐渐走向工业应用,而忧的是高精度背后的稳定性还存在风险、结论的可解释性与推广性还有待提高、和人类似的感知的一致性还有待研究。陈熙霖教授认为计算机视觉仍然很低能,因为它们没有被赋予给知识。随后陈老师通过一系列的例子给我们分享了几个计算机视觉研究的观点:1、计算机视觉在识别之后应当是理解,应当超越视力,达到视觉与视觉智能;2、计算机视觉的研究要超越桌面视觉,将它与机器人、语言等结合起来;3、计算机视觉应当研究如何自动感受并建立元视觉概念集;4、计算机视觉的研究应当从任务驱动走向事件/数据驱动。
特邀嘉宾:王涌天
报告主题:“无屏”呈现——人机融合的新纪元
王涌天教授认为人类发展的历史是人类与信息逐渐融合的历史,人与信息世界的融合历程大致经历了三代演绎,分别为电影屏幕、电视屏幕和移动屏幕。随着现在虚拟现实和增强现实的发展,我们将会有第四块无屏之屏幕:VR/AR屏。这种无屏将会带来人机融合的真正改变,实现人与信息的全天候深度融合。但是如果没有对信息的过滤,那么人类将淹没在大量的信息中,因此无屏必须与人工智能融合在一起发展。
当然现在无屏还有很多技术的痛点,王涌天教授认为真正的自然显示与交互应该让使用者忘却科技产品的存在,以更为亲和的方式实现信息融合,使得设备可以被用户“无视”。所以这个无屏之屏要做到显示透明化、交互自然话、穿戴无扰化等。王涌天教授随后详细介绍了他们实验室在这三个方面的工作。其研究现在已经应用到了圆明园现场重建、医学上的手术导航系统、宇航员心理舒缓系统、增强现实辅助维修系统以及一些面向大众的一些应用等上面。
最后王涌天分享了他们实验室的一句口号及图片:移动增强现实使人类第二次站立起来。
特邀嘉宾:章文嵩
报告主题:滴滴共享出行与智慧交通
据章文嵩介绍,在交通领域存在着资源有限、供需不平衡等问题,通过共享出行的方式,滴滴重构了出行的供需平衡问题。经过5年的高速发展,滴滴在交通领域的积累了大量的数据和技术。报告中介绍,滴滴峰值订单量超高2500多万/小时,每日定位轨迹数据超过70TB,每日处理数据超过4500TB;在人工智能、云计算、信息安全等方面滴滴也有大量的研究,例如智能派单、高稳定性、数据保护等。
除了这些,滴滴也逐渐在考虑交通的环境,例如路况规划等。滴滴的价值在于拥有大量且详细的交通数据,技术较为完备,并且能够提供一个平台。例如他们提供的交通大数据平台,能够为交通管理部门、政策制定部门、城市建设部门、客运物流公司等提供服务。此外他们还能够提供交通路况、智慧信号灯、OD数据分析、运力调度、供需预测等服务。
滴滴目前正大力促进一站式出行的方案,从而优化出行结构。最后章文嵩介绍了滴滴在智慧交通方面的一些解决方案,例如滴禹一体化方案、交通运行报告(城市拥堵排名、运行分析、热门起终点分析)、实时城市拥堵排名、城市运行指数、异常拥堵、代驾热力图、智慧诱导屏(国内已经安装70多块)、智慧信号灯、潮汐车道、实时公交&换乘、一站式出行服务等。
特邀嘉宾:丛京生
报告主题:Computing Near the End of Moore's Law
丛京生教授认为我们现在已经接近摩尔定律的末尾,已经不能在简单的依靠频率或者内核的缩小来大规模地提高计算机的性能。他认为未来的计算系统会将会使用定制的芯片,例如谷歌专门为做人工智能开发的TPU芯片。在报告中,丛教授首先简单回顾了他们在可定制芯片的研究,包括单片机、服务器节点、数据中心以及FPGAs(field-programmable gate-arrays)。随后丛教授介绍了他们的研究在几个领域的成功应用,例如机器学习和计算基因组学。最后他介绍了他们正在进行的定制计算启用自动化的工作,并重点介绍了算法和实施方面的挑战,以及他们对许多编译和运行时优化问题的解决方案。
特邀嘉宾:李志飞
报告主题:语音交互技术将如何重塑下一代消费电子
李志飞在报告中主要讲了智能音箱在整个行业中的趋势以及语音交互的一些标准。
他首先举例亚马逊的echo,认为他们之所以成功,是因为语音是他们与用户沟通的唯一方式。现在智能音箱也是如此。
在智能音箱的行业趋势方面,他介绍了几个主要的趋势。首先,智能音箱在美国正处于高速发展的前夜,而中国还要稍晚一步。消费电子大趋势就是智能化,包括耳机、电视、汽车等。其用户渗透的趋势就是,从北美到欧洲随后到中国。
李志飞介绍了出门问问的技术探索之路,在2012年他们开始积累AI技术,13年开始探索语音助手软件,14年开始软硬结合,进行场景探索,到17年则开始开发跨场景联动的虚拟个人助理。
随后李志飞讲解了实现语音交互的五个步骤:远场唤醒、语音识别、语义理解、垂直搜索、语音合成。他认为判断语音交互体验好坏的标准可以用五个字来概括,分别为:远(远场)、快(快速响应)、准(准确率高)、全(技能有多少)、深(多轮对话)。
特邀嘉宾:何源
报告主题:从瓦萨沉船到数字孪生——物联网的机遇和挑战
何源首先非常生动地介绍了瓦萨沉船的故事,瓦萨沉船成为瑞典王国由衰转盛的标志。从这个故事中何源副教授认为可以获取三个启示:设计制造流程无法响应不断改变的用户需求;设计方案和制造进展情况无法全面细致掌握;木已成舟前无法评估战舰的安全性和可用性。
数字孪生以数字化方式为物理对象创建的虚拟模型,来反应物理对象的全生命周期过程。通过在虚拟和现实世界的无缝链接,可以协同仿真与设计、监控制造执行过程、产品使用状态跟踪,同时数据驱动的服务。
随后何源介绍了国家电网特高压换流站无人值守检测和诊断系统。这个系统包括设备状态实时跟踪、故障分析与诊断、环境人员监控和远程协作。类似的我们能够发现很多类似应用场景,例如物联网。物联网进入了新的发展阶段。物联网与传统行业深度融合,呈现出应用需求多样化、网络终端异构化、运维空间同一化的显著特征,推动该领域研究向纵深发展。何源在报告中简单介绍了他们的近期的一些研究,包括无缘感知网络的并发传输、跨协议通信技术。最后何源介绍了未来的机遇和挑战,认为最卓越的技术恰恰是会消失的技术,未来的计算机将不仅融入到我们的生活,而且他们将深度地连结在一起,为我们创造更加智慧的未来。
特邀嘉宾:刘偲
报告主题:图像的像素级语义理解
刘偲首先通过自己一天中可能遇到的事情,生动地引入了深度学习的图像视频分析问题。近年来,基于深度学习的图像视频分析技术取得了巨大成功。相比于传统的物体分类识别技术,图像的像素级语义理解,又称语义分割,能提供更加丰富的像素级信息, 因而成为一个新的研究热点。
刘偲在报告中介绍了他们小组在语义分割领域的三个方向的研究,分别为场景解析、人体解析、人脸解析。
场景解析氛围室内场景和室外场景。他们在室内场景提出了一个魔幻墙的系统,能够自动的换壁纸的效果;室外场景中她介绍了一个去雾霾的效果。
人体解析的重要性在于能够帮助进行视频监控,他们针对这个问题设计了一个时序上下文的视频解析算法,包括三个模块,分别为单帧图片解析、帧间光流估计、时序上下文融合。
针对人脸解析,他们设计了一套自适应调节视野域的人脸解析模型。其应用包括智能美妆、妆容迁移、人脸老化。
虽然基于深度学习的语义分割取得了很大的进展,但是未来依然有很大的提升空间。刘偲认为以后的方向集中在几个方面:深度模型小型化、信息源多模态化、数据标注的低成本化。
以上为八位特邀嘉宾演讲报告概览,上午同期还举办了CCF CCSP颁奖会。大会下午则有14场技术论坛、10场活动;在晚间,除了两场活动外,还有令人激动的CNCC颁奖晚宴。雷锋网作为独家战略合作媒体,后续将为读者带来更多议程的详细报道。