华为AI芯片+微软研发=第一款移动端离线推理神经网络

本文涉及的产品
自定义KV模板,自定义KV模板 500次/账号
车辆物流识别,车辆物流识别 200次/月
文档理解,结构化解析 100页
简介: 10 月下旬,华为的 NPU AI 专用处理单元和 HiAI 移动计算平台亮相华为上海发布会,引起了诸多关注。在发布会上,余承东通过微软为华为开发的 Microsoft Translator 的 AI 离线翻译功能介绍了人工智能专用芯片 NPU 与 HiAI 移动计算平台。随后,我们与微软全球技术院士黄学东进行了对话,仔细聊了聊这款包含了世界上第一个能够在智能设备上进行离线推理的自然语言处理神经网络的应用的诞生始末。

微信图片_20211129135926.jpg


Microsoft Translator 是一款部署在 iOS 和 Android 平台上的应用,支持包括英文、中文等在内的超过 60 种语言的互译。


其翻译模式按照输入类别可以分为三种,分别是文本翻译(text)、图像翻译(photo)和语音翻译(voice)。其中图像翻译是借助 OCR 技术,读取出图片内的文本然后进行翻译,语音翻译则借助了语音识别技术。


按照翻译所用的模型类别,则可以分为在线的 NMT 模式和离线的 SMT 模式。


NMT 指神经机器翻译,是以神经网络为基础,以句子为单位进行整体翻译的方法,是当下的最佳模型(state-of-the-art model),然而神经网络模型通常规模庞大,需要大量计算资源,因此只能部署在云端。


SMT 以词和短语为单位进行翻译,是 NMT 出现前的上一代最佳模型,主要依赖于对大量语料进行统计找出规律,SMT 模型相比于 NMT 模型规模较小,能够保存在本地,以 Microsoft Translator 的 iOS 版本为例,一个简体中文离线包的大小是 205MB。


而为华为特别开发的这一款 Microsoft Translator 的特别之处就在于,其文本翻译和图像翻译模式均采用了离线的神经机器翻译模型。


这一原先仅仅能通过微软 Cognitive Services API 调用的,部署在微软云上的神经机器翻译系统,采用了惯用的多层 LSTM 编码器、注意力(attention)算法和解码器组成的系统。


微信图片_20211129135921.gif

图:LSTM 编码器 + 注意力模型 + 解码器系统演示


这类复杂的神经网络通常带有数以百万计的参数,每次解码过程需要进行大量的运算,通常都会以云端的 CPU 或 GPU 进行。例如,谷歌翻译利用 GPU 进行推理,有道翻译利用 CPU 进行。而开发一款神经机器翻译系统最大的障碍之一就是推理速度。谷歌和有道的工程师都曾表示,开发的初期阶段,模型虽然准确率很高,但翻译一句话需要 10 秒钟甚至更多。这使得系统完全达不到「可用」的标准。工程师们投入了大量的精力对模型做不影响效果前提下的修改和简化,才让部署在云端处理器上的系统变得可用。而这一次,微软的工程师直接将这个原本难倒了大型 CPU 和 GPU 的模型放在了移动端芯片里。


微软将模型中最耗费计算资源的 LSTM 编码器用深层前馈神经网络(deep feed-forward neural network)替代,转换为大量低运算难度的可并行计算,充分利用华为 NPU 能够进行大规模并行计算的特点,让 NPU 在神经网络的每一层中同时计算神经元的原始输出和经过 ReLU 激活函数的非线性输出,由于 NPU 有充足的高速存储空间,这些计算可以免受 CPU 与 NPU 间数据交换的延迟,直接并行得到结果。


微信图片_20211129135915.jpg

图:替代后的翻译模型


搭载于最新的 Mate 10 系列上的麒麟 970 芯片及其内置的 AI 专用处理单元 NPU,是华为第一次在移动设备的层面上把机器学习硬件计算加速能力叠加进芯片中去,也让 Mate 10 成为全世界的消费者拿到的第一款有专用于进行人工智能方面计算的处理单元的手机。


黄学东表示,从手机 CPU 到 NPU 有接近 300% 的计算加速,正是这个加速让神经网络在终端设备上的离线推理越过了阈值,从不可能变成可能。


以前在 CPU 时代,离线操作就要承受巨大的性能损失,而在线服务就无法脱离开对网络的依赖。尤其是翻译这样一项服务,很多应用场景都并没有稳定的网络支持,是需要有强大的离线功能存在的。而华为手机的用户大多为商务人士,很多应用场景都在国外,网络条件并不能得到保障,离线功能可以说是必不可少。


因此微软的工程师联合华为的工程师,对现有的神经翻译模型进行了层数、模型结构、工程实现方法等多方面优化,能够在大幅减小所需运算量的情况下让离线模型效果可以媲美在线模型,「大家应该感觉不出来二者的差距」,黄学东说。同时也研究了如何更好地同时使用 NPU 与 CPU :利用 NPU 完成推理工作,利用 CPU 辅助程序所需的其他操作。


而选择了神经机器翻译作「第一个吃螃蟹的 AI」,则主要是出于两个考量,一是翻译是一个痛点十分明确的需求,二是神经机器翻译模型的简化和提速相比于语音模型更容易。


黄学东十分看好神经网络处理单元在移动端的前景:「未来会有更多手机有神经网络处理单元,例如苹果 iPhone X 需要做面部识别解锁,就一定需要手机具有离线运行深度神经网络的能力。另外 iPhone X 的照相功能中的三维打光,也需要进行大量的计算。未来这样的需求会越来越多,因此专门的处理单元是很必要的。」


而对于微软来说,下一步可能会研发在线与离线相结合的混合系统,能够在网络条件好的时候自动调用性能更好的在线模型,在网络条件不足以支持的时候进行离线推理。这对于微软以 Cognitive Service 为代表的云服务是一个很自然的拓展,增加了终端的适用性。


同时微软的 PowerPoint 实时翻译功能也能够在华为手机上使用,能在演讲中、课堂上提供实时的帮助。演讲者在台上进行演讲的同时,PowerPoint 的自动翻译插件会识别语音、转换为文本,并可以进行超过 60 种语言的同传。台下的每个人都可以在自己的手机上获得自己需要的语言的翻译。」


「我们最终的目标是去掉语言障碍。」黄学东说,「We want to bring people together. 当年我带着美式英文的底子去爱丁堡大学留学,很是为教授的苏格兰口音英语吃了一些苦头。如果现在的爱丁堡大学的教授下载了 Presentation Translator,而每一位留学生的手里有一部华为 Mate 10 手机,他们就不必经受我当年的痛苦了。希望通过这次与华为合作,能够帮助更多用户打破语言障碍。」


最后,让我们通过一组截图感受一下 NPU 与神经网络的强大之处。以下全部截图来自华为 Mate 10 Pro。


主屏界面:


可以看到有文本、图像、语音和对话四种翻译模式,用图标代替文字说明也体现了「消除语言障碍」的目标。


微信图片_20211129135910.jpg

文本翻译模式英翻中:


我们选择了一段机器之心对 Christopher Manning 的专访文章的开篇:


「Deep Learning waves have lapped at the shores of computational linguistics for several years now. but 2015 seems like the year when the full force of the tsunami hit the major Natural Language Processing(NLP) conferences.」Two years ago, Christopher Manning began his speech on ACL2015 this way.


复制完文档内容后,打开 Microsoft Translator,可以看到屏幕右侧有黏贴快捷方式。


微信图片_20211129135906.jpg


粘贴后不到一秒翻译完成,效果如下:


微信图片_20211129135902.jpg

你可以用全屏模式展示给他人:


微信图片_20211129135859.jpg


或双击复制内容:


微信图片_20211129135854.jpg


或用其他方式分享:


微信图片_20211129135850.jpg


图像翻译模式中翻英:


这里主要测试 OCR 模型的识别能力、准确度,以及翻译速度与精度。


我们截取了一段本文中的内容:


微信图片_20211129135846.jpg

微信图片_20211129135829.jpg


应用在不到一秒的时间里完成了 OCR 文本识别和翻译两项工作。


可以看出,该系统准确翻译了自然语言处理(natural language processing),神经网络(neural network)等专有名词,并能够主动调整句式,将「包括英文、中文在内的超过 60 种语言的互译」翻译为「translation of more than 60 languages, including English, Chinese, etc.」。


图像识别英翻中:


我们采用了两张 Christopher Manning 的演讲幻灯片作为样本:


微信图片_20211129135838.jpg

微信图片_20211129135835.jpg


可以看到幻灯片右下角,连人眼很难看清的标识版权的蝇头小字都被 OCR 捕捉到。


微信图片_20211129135832.jpg

微信图片_20211129135829.jpg


它也能自动区分哪些是专有名词与缩写,采用原文而不翻译。


目前看来,华为 Mate 10 系列上搭载的第一款移动端神经网络应用的效果很棒,相信随着开发者的跟进,我们很快就会看到人工智能芯片驱动的更多 AI 新应用。

相关文章
|
1月前
|
人工智能 JavaScript 测试技术
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
通义灵码 2.0 是阿里云基于通义大模型推出的先进开发工具,具备代码智能生成、研发问答、多文件修改和自主执行等核心功能。本文通过亲身体验,展示了其在新功能开发、跨语言编程和单元测试生成等方面的实际效果,并对比了 1.0 版本的改进。结果显示,2.0 版在代码生成完整度、跨语言支持和单元测试自动化上有显著提升,极大提高了开发效率,但仍需进一步优化安全性和个性化风格。推荐指数:⭐⭐⭐⭐⭐。
|
1月前
|
人工智能 JavaScript 测试技术
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
**通义灵码 2.0 体验报告:AI 赋能智能研发的新范式** 本文详细评测了阿里云推出的通义灵码 2.0,基于通义大模型,提供代码智能生成、研发问答、多文件修改等核心能力。通过亲身体验,探讨其在新功能开发、跨语言编程、单元测试生成等场景的实际效果,并对比1.0版本的改进点。结果显示,2.0版本在代码生成完整性、自动化程度及跨语言支持方面有显著提升,但也存在安全性优化和个性化风格调整的空间。推荐指数:⭐⭐⭐⭐⭐。 (239字)
|
4天前
|
人工智能 自然语言处理 IDE
通义灵码 2.0 评测:AI 赋能编程,开启高效研发新旅程
通义灵码2.0通过AI赋能编程,显著提升开发效率与代码质量。安装便捷,支持自然语言描述需求自动生成高质量代码框架及注释,大幅简化新功能开发流程。其单元测试Agent能快速生成全面测试用例,覆盖更多边界情况。相比1.0版本,2.0在智能问答和代码生成速度上均有显著提升,为开发者带来高效研发新体验。
64 6
|
22天前
|
机器学习/深度学习 人工智能 搜索推荐
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
BioEmu 是微软推出的生成式深度学习系统,可在单个 GPU 上每小时生成数千种蛋白质结构样本,支持模拟动态变化、预测热力学性质,并显著降低计算成本。
42 2
BioEmu:微软黑科技炸场!生成式AI重构蛋白质模拟:千倍效率碾压传统计算,新药研发周期砍半
|
1月前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
253 10
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
25天前
|
人工智能 安全 测试技术
山石网科×阿里云通义灵码,开启研发“AI智造”新时代
山石网科与阿里云的合作由来已久,双方在云计算、网络安全等领域保持着紧密的合作关系。此次山石网科全面接入阿里云通义灵码专属版,是双方合作关系的进一步深化,也是双方共同推动AI技术在网络安全领域应用的一次重要实践。未来,山石网科将继续与阿里云携手共进,积极探索AI技术在网络安全领域的创新应用,不断提升产品研发效率和服务质量,为用户提供更智能、更安全的网络安全解决方案,共同守护数字世界的安全!
山石网科×阿里云通义灵码,开启研发“AI智造”新时代
|
5天前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
近日,阿里云与深势科技联合推出创新的Bohrium®科研云平台和Hermite®药物计算设计平台,实现了分子模拟技术的飞跃。
|
5天前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
11天前
|
缓存 人工智能 自然语言处理
微软发明全新LLM语言,AI智能体交互效率翻倍!
微软发布DroidSpeak技术,优化大型语言模型(LLM)间的通信,显著提升AI智能体交互效率。该技术通过嵌入缓存和键值缓存重用,减少预填充延迟,降低高达50%的延迟,同时保持高质量生成。DroidSpeak适用于多种AI任务,提高协作效率,但在资源受限环境和处理模型差异性方面仍面临挑战。
37 3
|
17天前
|
人工智能 安全 数据中心
D1net阅闻 | 微软CEO对话特朗普和马斯克:豪掷800亿美元建AI数据中心
D1net阅闻 | 微软CEO对话特朗普和马斯克:豪掷800亿美元建AI数据中心

热门文章

最新文章