从算法平台到机器视觉和语音识别,优必选全面布局人工智能

简介: 从 2008 年到 2012 年,周剑用了第一个五年时间,研发出满意的舵机。这成为周剑在 2012 年创立优必选科技(下简称优必选)的底气,也成就了优必选的第一个五年————舵机是优必选的核心技术,覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品。

从 2008 年到 2012 年,周剑用了第一个五年时间,研发出满意的舵机。这成为周剑在 2012 年创立优必选科技(下简称优必选)的底气,也成就了优必选的第一个五年————舵机是优必选的核心技术,覆盖 Alpha1、Alpha2、Jimu 和 Cruzr 等重要产品,由于市场对其产品的看好,公司也在 2016 年完成 B 轮 1 亿美元融资,估值超 10 亿美元,入选 CB Insights 发布的全球独角兽榜单。


微信图片_20211128142000.jpg


在舵机技术上站稳脚跟之后,周剑为优必选下一个五年定调。今年 2 月,优必选创始人兼 CEO 周剑宣布,「2017 年优必选将重点布局人工智能领域,通过产品创新和商业创新实现 15 亿元的销售目标。」

 

今年的两会将人工智能写进政府报告,人工智能在国内的发展达到了前所未有的热度。无论是 BAT 这样的巨头,还是众多创业公司,都试图在人工智能上找到能落地的应用场景。周剑认为,「在人工智能这件事上,优必选有天然的优势。因为从某种意义上来说,机器人是人工智能落地最好的平台。」

寻找人形机器人商业化突破口


「机器人的最终形态应该是能适应人类生活环境的双足人形机器人,比如它能像人类一样,在多种环境中行走,比如上下楼梯,这其中的核心问题就是驱动,只有解决这个问题,机器人才能真正意义上进入家庭环境。」周剑说。目前国际上名气较大的人形机器人产品并不多,比如软银收购的 Aldebaran Robotics 公司研发的人形机器人 NAO、以及本田的 ASIMO 机器人和波士顿动力的轮式、腿式机器人等。

 

在周剑看来,目前市面上很多机器人产品都是过渡型产物,比如现在的一些音箱产品。「如果实现商业化,是没有人愿意跟一个音箱对话的。」因为智能家居最终无法满足人类的情感需求,「它代替不了类似于《太空旅客》真正的人形机器人。」


然而,目前人形机器人在驱动,包括关节驱动、运动技术、控制运动算法上面,还没有实现真正突破,尤其是可商业化的驱动技术。据周剑介绍,在驱动方面,波士顿动力用的是液压技术,本田的阿西莫(ASIMO)机器人用的是电机伺服的控制方式,这两种技术都能实现不错的驱动,但是问题在于成本太高,阿西莫(ASIMO)一台机器人搭出来需要 200 多万美金。


微信图片_20211128141956.jpg


除了高昂的成本外,使用中繁琐的技术方式也让一些机器人很难真正走进市场,比如 ASIMO 机器人的传动中用了 20 多根皮带,在使用过程中,每隔一段时间都需要重新打开机器人内部来调整皮带的松紧度。这种技术方式导致 ASIMO 很难实现商业化量产,而且本田在这条技术道路上耕耘了几十年,某种程度上有些积重难返,即便他们的核心算法和机器人躯干部分都搭建的很好。


因此,用高性价比的技术方式,让人形机器人价格降下来,被一般家庭所接受,是优必选的目标。周剑说,「优必选一直在朝着一个能够真正让驱动关节模块化、商业化的方向去努力,所以我们现在做的伺服舵机,包括在腿部的一些舵机,某种意义上就是在朝着商业化目标努力。」


人形机器人的市场才刚刚开始,优必选需要做一些比较前沿性、引导性的工作。「未来我们希望在某种意义上建立一套全球化的机器人标准,比如人形机器人的标准是什么、规格是什么、它的曲轴运动,包括人工智能的一些基本的需求。」

 

不过,虽然轮式机器人不是人形机器人的最终形式,但周剑也坦言,「目前技术平台下面,轮式机器人还有一些优势,包括在 2B 的一些场所。」因此,优必选在今年年初的 CES 上推出了首款商用服务机器人 Cruzr。Cruzr 是首款提供企业级商用服务的机器人,可为客户提供定制的人工智能商务服务。

 

全面布局人工智能战略


优必选的机器人研发从舵机开始,经过近 10 年的研发,舵机已经成为优必选的核心技术,并由此开拓了多个产品线。在舵机这条技术产品线上,优必选一直专注于核心零部件的供应,硬件开发逐渐成为优必选的优势。


而机器人商业化所需要的语音识别、机器视觉以及算法平台等软件技术能力,则是优必选明显存在的劣势。周剑也坦言,「优必选是硬件起家,舵机一直是其引以为豪的核心技术,而软件是最薄弱的地方」,这也是优必选决定大力布局人工智能的原因。


据周剑介绍,优必选在北京、硅谷分别设有研发中心,研发方向侧重在机器视觉、语音识别、语义理解、算法平台等人工智能领域,博士背景的核心研发人员达到数十人,公司在人工智能方面投入的资金比重也大大提升,占总营收的 45%。


除了大型的伺服舵机关键驱动技术外,算法平台和人工智能,将成为优必选最为重要的发展阵地。

 

周剑希望能够自助搭建出一个类似于比波士顿动力更好的平台的一个算法。在此之前,优必选对谷歌、波士顿动力、本田等全球所有大型人形机器人公司的技术都进行了长期研究。在周剑看来,与优必选在驱动产品上下功夫不同,「这些机构不算纯商业化的公司,也根本没有打算很快推出商业化的产品。」他接着补充道:「我们现正在研发中的伺服舵机,跟波士顿他们的完全不一样。此外优必选把能耗看的很重,在运动算法上投入了很大力量。」


微信图片_20211128141950.jpg


在人工智能方面,优必选主要力量放在机器视觉和数据上。周剑解释称:「因为信息来源大部分还是来自机器视觉,另外由于机器视觉技术需要更大量的数据,数据是其要推动的技术。」比如光线的细微变化都能影响到机器对物体的判断。这一点周剑印象颇深,他举了一个例子,在家庭厨房场景中,炒菜时的油烟会导致机器人的视觉判断模糊,针对这个问题就需要做雾化、去白、去油烟的技术。


事实上,优必选去年年底就开始为人工智能布局招揽人才,前 IEEE 主席霍华德博士、清华大学赵明国教授、欧洲科学院院士陶大程博士,先后加入并分别担任其教育 CTO、「人形机器人首席科学家」。


去年科大讯飞入股优必选,也给了后者在语音识别上得到了强有力的支撑,周剑称,讯飞的技术「能用的我们都会拿来用」。

 

在视觉和语音之外,另一个无法回避的问题是语义理解。「这是一个全球性难题」,周剑说,「单纯的自然语言理解(NLU)解决不了所有的机器人问题,未来的识别理解是多模态的,是基于视觉、语音、语意的多模态的理解。包括识别人体的姿态,人类的动作有很多,机器人会做很多动作,到底这个动作的目的、意义是什么?」比如,当两人第一次见面时,举手就意味着是握手打招呼,在离别的时候,举手的含义就是道别,这些都需要机器人能够准确的识别。

 

但优必选并不打算全面开展这些技术的自主研发,周剑表示,「不可能所有的东西都由优必选自己来做,可以通过融资来收购、并购一些技术公司。」据了解,优必选已经有了比较中意的合作对象,可能会对其进行战略投资、入股,甚至是更加深入的合作,与此同时,其新一轮融资也在进行中。 微信图片_20211128141703.jpg

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
23天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
27 5
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
87 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
机器学习/深度学习 人工智能 开发框架
【AI系统】AI 学习方法与算法现状
在人工智能的历史长河中,我们见证了从规则驱动系统到现代机器学习模型的转变。AI的学习方法基于深度神经网络,通过前向传播、反向传播和梯度更新不断优化权重,实现从训练到推理的过程。当前,AI算法如CNN、RNN、GNN和GAN等在各自领域取得突破,推动技术进步的同时也带来了更大的挑战,要求算法工程师与系统设计师紧密合作,共同拓展AI技术的边界。
72 1
|
25天前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
25天前
|
人工智能 算法 JavaScript
无界SaaS与AI算力算法,链接裂变万企万商万物互联
本文介绍了一种基于无界SaaS与AI算力算法的商业模式的技术实现方案,涵盖前端、后端、数据库及AI算法等关键部分。通过React.js构建用户界面,Node.js与Express搭建后端服务,MongoDB存储数据,TensorFlow实现AI功能。提供了项目结构、代码示例及部署建议,强调了安全性、可扩展性和性能优化的重要性。
|
2月前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
51 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
2月前
|
人工智能 自然语言处理 前端开发
基于ChatGPT开发人工智能服务平台
### 简介 ChatGPT 初期作为问答机器人,现已拓展出多种功能,如模拟面试及智能客服等。模拟面试功能涵盖个性化问题生成、实时反馈等;智能客服则提供全天候支持、多渠道服务等功能。借助人工智能技术,这些应用能显著提升面试准备效果及客户服务效率。 ### 智能平台的使用价值 通过自动化流程,帮助用户提升面试准备效果及提高客户服务效率。 ### 实现思路 1. **需求功能设计**:提问与接收回复。 2. **技术架构设计**:搭建整体框架。 3. **技术选型**:示例采用 `Flask + Template + HTML/CSS`。 4. **技术实现**:前端界面与后端服务实现。
62 1
|
3月前
|
存储 SQL 消息中间件
B端算法实践问题之设计一套实时平台能力如何解决
B端算法实践问题之设计一套实时平台能力如何解决
37 1
|
3月前
|
存储 人工智能 算法
AI算法的道德与社会影响:探索技术双刃剑的边界
【8月更文挑战第22天】AI算法作为一把双刃剑,在推动社会进步的同时,也带来了诸多道德与社会挑战。面对这些挑战,我们需要以开放的心态、严谨的态度和创新的思维,不断探索技术发展与伦理规范之间的平衡之道,共同构建一个更加美好、更加公正的AI未来。
下一篇
无影云桌面