微软发布Bot开发框架,用人工智能对话平台豪赌未来

简介: 在微软 Bulid 开发者大会开幕前,上周被玩坏的 Tay 又悄然上线,这也为微软 CEO Satya Nadella 演讲做了注解。对微软来说,在错失移动设备的巨大红利之后,依靠云计算、机器学习带来的基础研发优势,接下来微软要将赌一把Bot。

微信图片_20211126000006.jpg


在谈到 Tay 时,Satya Nadella 对彭博新闻的记者坦言:「我吓坏了以至于不敢问它任何事情,因为谁知道它会说些什么呢?我甚至可能理解不了。」他笑着说。


但他真的不使用 Tay,他说自己更喜欢更有企业风范的 Bot。在北京时间今天凌晨的主题演讲中, Nadella 告诉场下以及全球的开发者们:「我们正在汲取人类语言中的强大能量,并将其广泛的运用到电脑中去,我们认为这将产生重大影响,就像图形用户界面首次出现在桌面电脑或触屏首次出现在智能手机上一样。」


微信图片_20211126000032.jpg

Nadella 演讲


「我们致力于将最好的技术应用在产品中,就在上周,当我们发布 Tay 时,我们很快意识到这并未达到这个要求。」现场发出一阵笑声,不过 Nadella 继续严肃的说:「所以,所以我们要回去重头做起。」


Nadella 将其定义为「对话平台」。微软展示了 Bot 的多种应用场景,比如你可以使用文本与 Bot 对话,如 Tay;而更丰富应用则是则寄托于开发者们,比如当你使用Skype 时,会有 Bot 「主动」为你规划旅行路线或预定房间,抑或是盲人或视觉障碍者使用手机摄像头调取 Bot 出来,从而帮助这些人「看见」别人的表情或图书的内容。


所有 Bot 的开发工具和模版——Microsoft Bot Framework 都可以免费下载。开发人员可利用它将各种智能对话机器人集成到自己的应用中。微软已经开发出6种工具帮助程序员创建机器人,微软不仅希望程序员能够快速上手,按照 Nadella 的想法,他还要三明治店、干洗店、汽车公司乃至无编程基础的普通用户都能开发一款属于自己的 Bot。


微软为何开始钟情 Bot ?


Satya Nadella 两年前成为微软历史上第三位 CEO,在微软错失移动互联网的背景下,Satya Nadella 一上任就提出了「云优先、移动优先」的口号,大力推进以 Azure 为核心的云计算业务,成绩斐然。在2016 年 1 月底的微软第二财季财报中,微软云服务(Azure+office365)收入增长 5%,达到 63 亿美元,占到微软第二财季总营收的 26%(总营收为 238 亿美元)。如果考虑到微软在 2010 年才开始发展云计算业务,这也就意味着,在 Satya Nadella 转型理念的推动下,微软的云计算营收已经支撑起了整个公司四分之一的营收。

说起微软在移动尤其是手机领域的辛酸历史,Satya Nadella 有自己的一番看法,「人们自然而然的以为:『因为你没在手机应用商店中捞到甜头。』」手机的应用程序当然很适合查看某项服务,但在搜集、重组、优化并以自然的交互方式与用户互动方面,Bot 的作用更重要。如果你想查看你的预算开支情况,你需要打开(记账)的 App、等待你就加载出来所有的消费和收入。而通过一个基于某个聊天应用中的财务 Bot,你可能只需要一句话就能返回自己想要的结果。是不是很酷炫?

Nadella 从去年十月份才开始计划微软的战略转移,这也是他就任 CEO 以来,第一个真正属于自己的战略思考。

在从硅谷返回西雅图的两小时航班上,他与负责必应、Skype 、 Office 等应用和服务的陆奇和搜索工程部门副总裁 Derrick Connell 进行了会谈。陆奇拿出自己的笔记本电脑,向 Nadella 展示了一些自己正在开发的人工智能的想法。他描述了一遍背后的科学原理,Nadella 问这对微软的产品意味着什么。Connell 则向他展示了用人工智能强化过的新版本的 Outlook 电子邮件程序和 Skype。到飞机降落的时候,Nadella 决定,这就是微软的转型方向。

在早前的几个月,陆奇在中国期间与中国的学生和客户进行了深入交流,并实地了解到他们使用智能手机的方式。最让他印象深刻的是中国人使用微信的方式。微信从一个最简单的聊天应用,成长为一个类似操作系统的产品——用户可以用微信预订酒店、信用卡账单分期、预约医生、购买电影票以及在线购物。当越来越多的公司开始使用微信销售自己的产品时,它们雇佣人类阅读用户发来的聊天信息,并积极回复从而完成销售。

发信息「我想要两张周五晚上的《死侍》的电影票。」陆奇说,然后你就能收到一张带有时间和座位选择的交互图像,接下来,你只需要简单地点击购买,你就得到了一段取票的文本信息。然后你就可以去影院消费了,而且这样操作的也不只是年轻人,陆奇表示,他 80 岁的母亲也生活在「微信」中,这位住在上海的老人不信任网站,但她会在微信上购物和叫出租车。这些对话 Bot 的力量「有些已被微信发明出来,但现在 Facebook 看到这一点,很多公司都在打造类似的体验。」陆奇补充道,「我认为微软会扮演一个领导者的角色。」

对话式的 bot 并非新鲜事物。第一个对话式的 Bot 可以回溯到早期的计算时代。MIT 研究员 Joseph Weizenbaum 在 1960 年代写出了一个名叫 ELIZA 的 Bot。90年代后期在互联网里为搜索引擎搜索网页索引的爬虫也是一种 Bot 。


微信图片_20211126000117.jpg

Clippy


微软在90年代也曾尝试用 Bot 提高用户交互体验,其中一个便是类似大眼夹(Clippy)的 Office助手,但这个 Bot 很傻,它不知道何时出现,很多时候都是默认出现,也不会提出真正有用的建议,这个号称基于贝叶斯算法的 Bot 几乎毫无用处。


这一次,微软要给自己的 Bot 来点不一样的。


人工智能驱动的 Bot


正如陆奇所言,几乎所有的大公司都将对话 Bot 作为重要的产品,而人工智能成为其背后强大的推动力。过去几年,人工智能已经成为硅谷新的风向标。根据CB insight的统计,2015年,基于人工智能的创业公司共完成3亿美金的融资,而在五年前的2010年,人工智能公司的融资总额只有4500万美元。

以 Facebook 秘密开发的「M」为例,这是一个基于Facebook 聊天应用 Messager 里的对话 Bot,它可以帮你搜索、预订机票、递送免费咖啡、写歌、甚至画画。当你和它聊天时,「M 」会通过自动化、深度学习、人工智能相结合的技术架构,并结合人类「教练」的建议,从而完成在海量数据的挖掘整理,快速回复。

微信图片_20211126000157.jpg

Facebook M


而在微软今天发布的「对话平台(Conversations as a Platform)」,微软希望将人工智能更灵活、更自然地融入到用户的对话里。


第一,将 Cortana 作为交互 的核心。当开发者在Skype 上开发一款 Bot,微软 Cortana 则可以从旁协助,甚至直接和机 Bot 进行沟通,让使用体验更顺畅。比如用户在为下一次的假期订机票旅馆时,Cortana 就可以适时地介入,从你过去的旅游经历、甚至是之前的聊天内容中,提供建议。

微信图片_20211126000229.gif


第二,HoloLens 开发者版本发售。微软不仅在新版本 Skype 里增加了视频通话功能,还将支持 HoloLens。作为目前唯一不需要外部摄像头、线缆、手机,也不需要连接PC,就可以提供自然全息计算的设备,Hololens 开发者版本的发售将给微软的 Bot 带来更多惊喜,这意味着用户可以在任何地点启动对话,并通过 Cortana 获取帮助或建议。比如日本航空正在开发一款HoloLens 应用,其想象力空间非常大。


1637856220(1).png点击查看原视频链接


第三,推出HoloLens 模拟器。与 Hololens 开发者版本发售的同时,微软还悄悄推出 HoloLens 模拟器,帮助没有买到 Hololens 的开发者开发相关应用。利用 Hyper-V 虚拟机器,开发者同时使用微软的 Visual Studio 开发工具就能做出类似于 HoloLens 上的功能。不再是依靠眼镜的环境输入,模拟器使用键盘和鼠标(或者Xbox控制器)进行控制,得到的回应和在 HoloLens 上操作一样。进行控制时就像你打游戏,使用键盘的 WASD 按键进行移动控制,移动鼠标调节摄像头。如果你打算开发全息应用,HoloToolkit on GitHub上提供很多脚本和组件,能够加快开发进度。


第四,开放更多认知技术。此次大会上,微软更新了一组机器学习工具,这些认知服务工具包共包含22项 API。其中的脸部识别程序也是去年朋友圈刷屏的「How old do you look」的基础技术,也包括去年11月推出的可侦测面部情感的API,还包括语音识别以及智能自定义识别API等等。开发者可以随时调用这些 API,将其加入到自己的 Bot 中。


第五,更简单的 Bot 开发工具。Nadella 告诉彭博新闻记者,「这(Bot 开发工具)几乎是我见过的最简单的一段代码。」一位微软工程师打开 Bot 基础模版,接着他添加了几行代码,从而让 Bot 和 Domino 披萨店的点单系统连接起来,并设置了几个选项,诸如披萨的尺寸和配料,然后这个 Bot 就完成了。试想一下,如果你在路上与朋友们用 Skype 聊天,而且每个人都想吃披萨,你就可以在不离开 Skype 的情况下快速预定披萨。

微信图片_20211126000605.jpg


就在当天会议的最后,微软展示正在处在研发阶段的人工智能项目「Seeing AI」,利用计算机视觉和自然语言处理技术,通过这款下载在智能手机以及微软合作的Pivothead 智能眼镜的应用,盲人可以「看到」和「了解」他眼前的世界。视频中,当盲人工程师萨科戴上 Pivothead 智能眼镜时,滑动镜腿就可以拍下眼前看到的景象,而 Seeing AI 则可以帮助萨科识别出景象,并通过语音告诉萨科眼前是什么,例如「一位男人在玩滑板,一个小女孩在公园扔飞盘」。当萨科在与人会谈时,滑动镜腿拍照,「Seeing AI」还可以识别出面前坐客的年龄、性别以及情绪,让他可以向普通人一样参与到真正的对话当中。当萨科在餐馆点菜时,他可以拿出下载Seeing AI的智能手机,在人工智能的语音提示帮助下找到并对着菜单拍照,而Seeing AI可以自动读出菜单,帮助他选择自己想点的美食。


1637856395(1).png

点击查看原视频链接


对微软来说,在错过移动互联网浪潮之后,这一次的转型对公司的未来至关重要。而从此次大会第一天所发布的产品和技术来说,微软已经迈出了坚实的第一步,那么接下来呢?Nadella 比任何人都清楚实现这一目标有多么困难。可能还会有更多 Tay (不完美的产品)。彭博新闻记者记录一个细节:他靠在椅子上对自己的管理团队微笑道:「这很困难,对吧?」



相关文章
|
17天前
|
人工智能 自然语言处理 自动驾驶
深入理解ChatGPT:下一代人工智能助手的开发与应用
【10月更文挑战第27天】本文深入探讨了ChatGPT的技术原理、开发技巧和应用场景,展示了其在语言理解和生成方面的强大能力。文章介绍了基于Transformer的架构、预训练与微调技术,以及如何定制化开发、确保安全性和支持多语言。通过实用工具如GPT-3 API和Fine-tuning as a Service,开发者可以轻松集成ChatGPT。未来,ChatGPT有望在智能家居、自动驾驶等领域发挥更大作用,推动人工智能技术的发展。
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
91 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
2月前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
55 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
机器学习/深度学习 移动开发 自然语言处理
基于人工智能技术的智能导诊系统源码,SpringBoot作为后端服务的框架,提供快速开发,自动配置和生产级特性
当身体不适却不知该挂哪个科室时,智能导诊系统应运而生。患者只需选择不适部位和症状,系统即可迅速推荐正确科室,避免排错队浪费时间。该系统基于SpringBoot、Redis、MyBatis Plus等技术架构,支持多渠道接入,具备自然语言理解和多输入方式,确保高效精准的导诊体验。无论是线上医疗平台还是大型医院,智能导诊系统均能有效优化就诊流程。
|
2月前
|
人工智能 自然语言处理 前端开发
基于ChatGPT开发人工智能服务平台
### 简介 ChatGPT 初期作为问答机器人,现已拓展出多种功能,如模拟面试及智能客服等。模拟面试功能涵盖个性化问题生成、实时反馈等;智能客服则提供全天候支持、多渠道服务等功能。借助人工智能技术,这些应用能显著提升面试准备效果及客户服务效率。 ### 智能平台的使用价值 通过自动化流程,帮助用户提升面试准备效果及提高客户服务效率。 ### 实现思路 1. **需求功能设计**:提问与接收回复。 2. **技术架构设计**:搭建整体框架。 3. **技术选型**:示例采用 `Flask + Template + HTML/CSS`。 4. **技术实现**:前端界面与后端服务实现。
|
3月前
|
人工智能 自然语言处理 算法
【人工智能】探索GPT-4o mini:解锁成本效益新纪元,赋能开发创新与效率
在人工智能领域的浩瀚星空中,OpenAI再次以其创新之光照亮了前行的道路,推出了备受瞩目的GPT-4o mini模型。这款被誉为“迄今为止最具成本效益的小模型”不仅继承了GPT系列强大的自然语言处理能力,更在成本控制上实现了重大突破,为开发者们开启了一扇通往高效与创新的大门。
68 1
|
3月前
|
人工智能 自然语言处理 搜索推荐
谷歌 ai人工智能平台叫什么?请记住答案是:Gemini
Gemini 是 Google 开发的一个大型AI语言模型 ,代表着人工智能领域的一项重大进步。它是一个强大的工具,旨在理解和生成人类语言,并具备广泛的功能,可以帮助人们完成各种任务,从创作不同类型的文本到回答复杂的问题,再到翻译语言等等。
|
3月前
|
人工智能 网络协议 Java
23.12月中旬 上海寻序人工智能科技-上海嘉定-Java开发实习生-薪资150-230/d 面经
关于上海寻序人工智能科技有限公司Java开发实习生岗位的面试经验分享,涵盖了技术问题如对象存储MinIO、ArrayList扩容、Object类方法、hashCode和equals方法、处理哈希冲突、JVM垃圾回收器、GC算法、网络协议、邮件协议、HTTP请求方法、Linux和Docker命令、Dockerfile制作等。
|
6天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用