从算法平台到机器视觉和语音识别,优必选全面布局人工智能

简介: 从 2008 年到 2012 年,周剑用了第一个五年时间,研发出满意的舵机。这成为周剑在 2012 年创立优必选科技(下简称优必选)的底气,也成就了优必选的第一个五年————舵机是优必选的核心技术,覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品。

从 2008 年到 2012 年,周剑用了第一个五年时间,研发出满意的舵机。这成为周剑在 2012 年创立优必选科技(下简称优必选)的底气,也成就了优必选的第一个五年————舵机是优必选的核心技术,覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品,由于市场对其产品的看好,公司也在 2016 年完成 B 轮 1 亿美元融资,估值超 10 亿美元,入选 CB Insights 发布的全球独角兽榜单。


微信图片_20211128142000.jpg


在舵机技术上站稳脚跟之后,周剑为优必选下一个五年定调。今年 2 月,优必选创始人兼 CEO 周剑宣布,「2017 年优必选将重点布局人工智能领域,通过产品创新和商业创新实现 15 亿元的销售目标。」

 

今年的两会将人工智能写进政府报告,人工智能在国内的发展达到了前所未有的热度。无论是 BAT 这样的巨头,还是众多创业公司,都试图在人工智能上找到能落地的应用场景。周剑认为,「在人工智能这件事上,优必选有天然的优势。因为从某种意义上来说,机器人是人工智能落地最好的平台。」

寻找人形机器人商业化突破口


「机器人的最终形态应该是能适应人类生活环境的双足人形机器人,比如它能像人类一样,在多种环境中行走,比如上下楼梯,这其中的核心问题就是驱动,只有解决这个问题,机器人才能真正意义上进入家庭环境。」周剑说。目前国际上名气较大的人形机器人产品并不多,比如软银收购的 Aldebaran Robotics 公司研发的人形机器人 NAO、以及本田的 ASIMO 机器人和波士顿动力的轮式、腿式机器人等。

 

在周剑看来,目前市面上很多机器人产品都是过渡型产物,比如现在的一些音箱产品。「如果实现商业化,是没有人愿意跟一个音箱对话的。」因为智能家居最终无法满足人类的情感需求,「它代替不了类似于《太空旅客》真正的人形机器人。」


然而,目前人形机器人在驱动,包括关节驱动、运动技术、控制运动算法上面,还没有实现真正突破,尤其是可商业化的驱动技术。据周剑介绍,在驱动方面,波士顿动力用的是液压技术,本田的阿西莫(ASIMO)机器人用的是电机伺服的控制方式,这两种技术都能实现不错的驱动,但是问题在于成本太高,阿西莫(ASIMO)一台机器人搭出来需要 200 多万美金。


微信图片_20211128141956.jpg


除了高昂的成本外,使用中繁琐的技术方式也让一些机器人很难真正走进市场,比如 ASIMO 机器人的传动中用了 20 多根皮带,在使用过程中,每隔一段时间都需要重新打开机器人内部来调整皮带的松紧度。这种技术方式导致 ASIMO 很难实现商业化量产,而且本田在这条技术道路上耕耘了几十年,某种程度上有些积重难返,即便他们的核心算法和机器人躯干部分都搭建的很好。


因此,用高性价比的技术方式,让人形机器人价格降下来,被一般家庭所接受,是优必选的目标。周剑说,「优必选一直在朝着一个能够真正让驱动关节模块化、商业化的方向去努力,所以我们现在做的伺服舵机,包括在腿部的一些舵机,某种意义上就是在朝着商业化目标努力。」


人形机器人的市场才刚刚开始,优必选需要做一些比较前沿性、引导性的工作。「未来我们希望在某种意义上建立一套全球化的机器人标准,比如人形机器人的标准是什么、规格是什么、它的曲轴运动,包括人工智能的一些基本的需求。」

 

不过,虽然轮式机器人不是人形机器人的最终形式,但周剑也坦言,「目前技术平台下面,轮式机器人还有一些优势,包括在 2B 的一些场所。」因此,优必选在今年年初的 CES 上推出了首款商用服务机器人 Cruzr。Cruzr 是首款提供企业级商用服务的机器人,可为客户提供定制的人工智能商务服务。

 

全面布局人工智能战略


优必选的机器人研发从舵机开始,经过近 10 年的研发,舵机已经成为优必选的核心技术,并由此开拓了多个产品线。在舵机这条技术产品线上,优必选一直专注于核心零部件的供应,硬件开发逐渐成为优必选的优势。


而机器人商业化所需要的语音识别、机器视觉以及算法平台等软件技术能力,则是优必选明显存在的劣势。周剑也坦言,「优必选是硬件起家,舵机一直是其引以为豪的核心技术,而软件是最薄弱的地方」,这也是优必选决定大力布局人工智能的原因。


据周剑介绍,优必选在北京、硅谷分别设有研发中心,研发方向侧重在机器视觉、语音识别、语义理解、算法平台等人工智能领域,博士背景的核心研发人员达到数十人,公司在人工智能方面投入的资金比重也大大提升,占总营收的 45%。


除了大型的伺服舵机关键驱动技术外,算法平台和人工智能,将成为优必选最为重要的发展阵地。

 

周剑希望能够自助搭建出一个类似于比波士顿动力更好的平台的一个算法。在此之前,优必选对谷歌、波士顿动力、本田等全球所有大型人形机器人公司的技术都进行了长期研究。在周剑看来,与优必选在驱动产品上下功夫不同,「这些机构不算纯商业化的公司,也根本没有打算很快推出商业化的产品。」他接着补充道:「我们现正在研发中的伺服舵机,跟波士顿他们的完全不一样。此外优必选把能耗看的很重,在运动算法上投入了很大力量。」


微信图片_20211128141950.jpg


在人工智能方面,优必选主要力量放在机器视觉和数据上。周剑解释称:「因为信息来源大部分还是来自机器视觉,另外由于机器视觉技术需要更大量的数据,数据是其要推动的技术。」比如光线的细微变化都能影响到机器对物体的判断。这一点周剑印象颇深,他举了一个例子,在家庭厨房场景中,炒菜时的油烟会导致机器人的视觉判断模糊,针对这个问题就需要做雾化、去白、去油烟的技术。


事实上,优必选去年年底就开始为人工智能布局招揽人才,前 IEEE 主席霍华德博士、清华大学赵明国教授、欧洲科学院院士陶大程博士,先后加入并分别担任其教育 CTO、「人形机器人首席科学家」。


去年科大讯飞入股优必选,也给了后者在语音识别上得到了强有力的支撑,周剑称,讯飞的技术「能用的我们都会拿来用」。

 

在视觉和语音之外,另一个无法回避的问题是语义理解。「这是一个全球性难题」,周剑说,「单纯的自然语言理解(NLU)解决不了所有的机器人问题,未来的识别理解是多模态的,是基于视觉、语音、语意的多模态的理解。包括识别人体的姿态,人类的动作有很多,机器人会做很多动作,到底这个动作的目的、意义是什么?」比如,当两人第一次见面时,举手就意味着是握手打招呼,在离别的时候,举手的含义就是道别,这些都需要机器人能够准确的识别。

 

但优必选并不打算全面开展这些技术的自主研发,周剑表示,「不可能所有的东西都由优必选自己来做,可以通过融资来收购、并购一些技术公司。」据了解,优必选已经有了比较中意的合作对象,可能会对其进行战略投资、入股,甚至是更加深入的合作,与此同时,其新一轮融资也在进行中。 微信图片_20211128141703.jpg

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
93 55
|
19天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
77 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
78 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
80 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
2月前
|
人工智能 自然语言处理 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07(下)
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07(下)
25 2
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07(下)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
19天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
61 3
|
2月前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13(上)
42 2

热门文章

最新文章