人工智能的技术变革:HMS Core 让你也拥有《星球大战》中的机器人

简介: 你还记得《星球大战》电影中的礼仪机器人 C-3PO 吗?就是那个承担着不同种族、不同物种间翻译交流作用的礼仪机器人。C-3PO 通过从数据库中下载资料来更新自己的语言技能,精通 700 万种语言交流形式,可以说是对宇宙间的所有已知语言尽数掌握。

你还记得《星球大战》电影中的礼仪机器人 C-3PO 吗?就是那个承担着不同种族、不同物种间翻译交流作用的礼仪机器人。C-3PO 通过从数据库中下载资料来更新自己的语言技能,精通 700 万种语言交流形式,可以说是对宇宙间的所有已知语言尽数掌握。

image.png

/*来源:电影《星球大战》场景截图

对于有翻译需求的人来说,愿望就是拥有一个像 C-3PO 机器人一样可以翻译无限语种、在各种场景下都可以即刻准确进行语言翻译的设备。在解决这个用户需求时,对于技术能力没有那么强的企业来讲,靠自研能力并不是那么容易做到,因为这其中涉及到了自然语言处理等一系列的人工智能(AI)技术难点。

这背后映射的便是如今国内企业技术开发的现状。近些年来,虽然 AI 技术在企业经营管理各环节的价值已得到市场验证,但企业在进行 AI 开发时,却面临着技术人才储备不足、AI 应用部署困难、投入产出比不达预期等问题。

所以,如果开发者能在产品开发过程中集成一些像 C-3PO 机器人一样可快速且准确识别、翻译等功能的服务套件,那将帮企业大大提高开发质量和效率,有效缩减开发成本,也缓解了开发者的技术研发压力。

但我今天想说的是,或许 HMS Core 机器学习服务(ML Kit)已经帮助各位开发者解决了上述问题。开发者通过 ML Kit 可以搭建属于你自己的“C-3PO 机器人”。

一、ML Kit 为 AI 语音技术发展做出的努力

自 2021 年起,Meta、谷歌和 NVIDIA 等厂商陆续加入了虚拟世界的潮流,推动语音 AI、计算机视觉、自然语言理解 (NLP) 和虚拟现实 (VR) 方面的创新,以创建能够识别语音和与用户交流的服务。从市场增长维度来看,语音激活系统、语音虚拟助手和语音设备的需求增加带动了相关行业的发展。那么,ML Kit 为此做出了哪些努力?

在 5 月 24 日 HDD 大会上 HMS Core 机器学习服务产品经理发表的《ML Kit 高效助力跨语种沟通》 演讲中,我们就领略到了 ML Kit 翻译服务的超强能力。该服务支持丰富多样的使用场景,比如邮件翻译、通话翻译、阅读翻译、实时语音翻译、AR 翻译。

image.png

ML Kit 翻译服务的最大优势在于端云协同,云侧低时延、多垂域覆盖、支持 50+ 语种互译,端侧在隐私保护、无网络使用、轻集成方面做得十分出色。

image.png

从系统架构来看, 算法层作为 ML Kit 翻译服务的核心,大语种整体基于英文翻译进行桥接,同时正积极打造中文直译的翻译系统,运用三角翻译、术语增强和课程学习等技术在低资源场景下进行了优化,打造出 HMS Core 差异竞争力。通过训练多语种模型来实现了小语种的翻译,让系统变得全知全能。在业务层的实现上则是打了一套前后处理、Feedback 回流、路由服务、中间件管理的组合拳。

ML Kit 文本翻译的解决方案以文本编码 + 受限解码的 Transformer 架构为核心,算法方案则是以多头 + 高维多层结构的 Transformer-encoder(Large),搭配应用了剪枝 +Rnn 解码算法、在行业内具有优势的 Rnnformer-Decoder(Shallow)的模型结构,通过数据清洗、数据脱敏、数据增强的过程完成平行语料的构建。比如,通过标点归一化、DNT 替换、句长控制和语义去重,进行数据清洗;通过 DNT 替换、句长控制和语义去重等方法,进行数据增强等。

image.png

值得一提的是,在推理加速方面,ML Kit 翻译服务基于华为自研的诺亚 bolt 推理框架,应用了权重共享、动态小词表、混合精度计算、量化存储、图优化、缓存配置、快速矩阵乘法、ARM 大小核优化、GPU 加速、算子加速等 10 多种算法,整个翻译模型的速度和稳定性都得到了保障。

ML Kit 文本翻译服务可以同时支持端侧、云侧的调用,不仅服务覆盖全球,安全性能也很高,数据处理过程符合 GDPR 标准,这些特性让 ReadEra(俄罗斯的一款免费图书阅读类 APP)用很少时间就解决了相关技术难题。举个例子,集成 ML Kit 文本翻译服务后,ReadEra 解决了过去“只能通过调用第三方的翻译软件实现翻译,不能实现 App 内翻译”的业务问题,目前该 APP 已支持 12 种语言翻译,服务覆盖全球。

在 AI 语音技术领域,ML Kit 算是一位入局较早并全面发展的选手,陆续实现了文本翻译、语种检测、实时语音识别、音频文件转写、实时语音转写、声音识别等语音语言类服务的支持与迭代。ML Kit 表现也比较突出,比如实时语音识别准确率能达到 95% 以上。另外,今年 6 月,ML Kit 翻译服务将上线同声传译功能,能力矩阵再次扩充。

image.png

二、ML Kit 不仅只研究语音语言

ML Kit 是一个提供机器学习套件的平台,除了 AI 语音语言类服务,ML Kit 还提供丰富的文本类、图像类和人脸人体类、自定义模型等简单易用、技术领先的 AI 服务。

image.png

ML Kit 支持图像分类、对象检测、地标识别、图像分割、场景识别、拍照购物、图像超分、文档矫正八大图像类服务。其中,ML Kit 图像分割服务的精细化分割,平均交并比 mIoU(衡量图像分割精度的一个指标)优于业界参考水平。

一款以抠图为特色玩法的专业图片编辑 App——Cut Cut 的行业强竞争力就是得益于 ML Kit 图像分割服务的集成。ML Kit 图像分割服务分割图片速度快、准确度高,支持端侧处理,不依赖用户网络环境,算法随时随地可在本地流畅、精准运行,且无数据上传泄露风险。ML Kit 模型伴随 HMS Core 版本动态更新,无需重复、频繁发布应用版本,Cut Cut 的开发者集成该服务后,仅进行了一次开发,便享受到了模型持续更新升级的便利。

image.png

ML Kit 支持人脸检测比对、活体检测、骨骼点检测、手势识别、人脸检测五大人脸人体类服务。比如俄罗斯的 Photo Deformer 图像编辑 APP,通过集成 ML Kit 补全了图像中多人脸检测的功能,通过 855 点的人脸轮廓检测,增加了检测精度,扩展了业务场景,为用户提供了更加准确、全面的图像编辑服务,改善用户体验,大大提升了产品竞争力。

三、除了 ML Kit,HMS Core 还有其它“AI 超能力”

HMS Core 是华为移动服务提供的端、云开放能力的合集,是华为为其设备生态系统提供的一套应用程序和服务,开发者只需集成 HMS SDK 即可使用华为的多个开放能力。ML Kit 以外,HMS Core 还有许多可应用于 AI 领域的开放能力。比如:

视频编辑服务(Video Editor Kit)是帮助开发者快速构建视频编辑能力的服务,AI 实时处理能力最低时延控制在了 20 秒以内,GPU 解码速度和合成视频的导出时长均低于行业水平 30% 以上。HEVC 编码高效,目前高清视频文件大小已低于行业水平 20% 以上。

image.png

音频编辑服务(Audio Editor Kit)是帮助开发者快速构建各类应用音频能力的服务,提供 AI 配音、音源分离、空间渲染、变声、多种音效等一站式音频能力,音源分离能通过 4 行代码集成实现人声与乐器伴奏音轨分离的效果。

image.png

作为 HMS Core AI 领域构建中的重要一环,面向智能终端的 AI 能力开放平台 HUAWEI HiAI Foundation,目前已支持 KwaiNN、TNN、MindSpore Lite、ByteNN、MNN、Paddle Lite 等国内主流框架。

image.png

5 月 24 日 HDD 大会上海思 HiAI Foundation 生态技术专家就《HUAWEI HiAI Foundation 助力开发者快速部署 AI 应用》的演讲中对该产品做了全面介绍:

端云协同、优化算子库推送:运用算子库、性能优化推送到端侧和通过插件进行模型编译的关键技术,针对新业务场景和已有典型业务场景算子,提供性能优化、快速升级平台能力的解决方案。客户云侧建立保存模型、数据、软件栈,华为云则负责保存算子库、优化策略(如融合、异构)等,力求做到重要数据不出端、优化策略快速使能设备,助力应用快速上线。

Model Zoo 助力开发者使能 NPU 加速:从 AI 基础学习、模型设计、AI 产品开发、技术交流 4 个维度出发,辅助开发者优化模型结构。将 NPU 模型结构、Backbone、算子投入其中供开发者自行挑选使用,更好地利用 NPU 的加速优势,从而更大程度地利用底层算力。

硬件底层多 IP 深度协同:多 IP 协同使能 E2E 业务极致性能,CPU、NPU、ISP、GPU 等各计算 IP 可以共用 DDR 内存,全流程数据零拷贝。节点自动融合优化,节点间内存自动分配;调度任务自动编排,支持优先级控制,提升性能又能降低功耗。

自主调优工具包帮助精准优化模型:提供模型量化工具包,正常情况下开发者 32bit 的训练模型直接可被量化为更小、更轻便且更适合 NPU 结构的低比特模型,无需二次调整便可降低计算资源的消耗;提供网络结构搜索工具包,支持多种主流训练框架使能,比如 Caffe、tensorflow、pytorch,针对多种主流硬件平台具有算力和时延建模的能力。

像应用了 HUAWEI HiAI Foundation 的拍立淘,NPU 算力赋能阿里 MNN 模型推理加速,拍立淘模型推理提速可达 3 至 5.8 倍,毫秒级以图搜图的体验。而且 NPU 算力为模型精度带来了更多提升空间,模型推理功耗大大降低。

随着 HMS 生态不断壮大,截至 2021 年 12 月 31 日,HMS Core 全球注册开发者已超过 540 万, 全球集成 HMS Core 的应用超过 20.3 万个。HMS Core 持续构建多终端、跨 OS、全场景的创新开放能力,面向开发者持续提供行业解决方案,对此感兴趣的开发者可以到华为开发者联盟官网了解更多信息。

四、写在最后

AI 技术已经在众多行业里得到应用,比如电商、物流、运输、工业等。麦肯锡发布的报告发现,如今全球有 56% 的企业至少在一项业务功能中使用 AI,还有近三分之二的企业计划在未来三年内增加对 AI 研发与应用的投资。Gartner 的一项调查也发现,36.3% 的客户服务领导者计划到 2023 年部署人工智能。

AI 技术的应用是大势所趋,但把视角拉到具体实践上时,我们会发现,人工智能一度被许多企业认为是空中楼阁。因为在智能技术与实体经济结合与迭代过程中,算法、算力与数据都难以捉摸,企业没有技术能力和大量成本去获取这些资源。降低 AI 开发的门槛是目前所有企业都在关注的问题,也是人工智能下一代技术的演进趋势。

这些现象都很好解释,AI 技术在促进各行各业快速高效发展的同时,现实的业务需要也在反向促进着 AI 技术的迭代变革。而 HMS Core 在做的事情就是帮助企业快速完成技术迭代,基于华为长期的技术积累,通过持续不断的创新,为企业带来源源不断的发展动力,为客户和社会创造价值,共建绿色智能世界。

目录
相关文章
|
25天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
81 3
|
6天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与前景
本文探讨了人工智能(AI)技术在医疗领域的应用,包括疾病诊断、治疗方案制定、药物研发等方面。通过对现有研究成果的梳理,分析了AI技术在提高医疗服务效率、降低医疗成本、改善患者体验等方面的潜力。同时,也指出了AI技术在医疗领域面临的挑战,如数据隐私保护、伦理道德问题等,并展望了未来的发展趋势。
27 2
|
7天前
|
机器学习/深度学习 人工智能 机器人
AI技术在医疗领域的应用及挑战
本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的定义和分类开始,然后详细介绍其在医疗领域的具体应用,如疾病诊断、药物研发等。最后,我们将讨论AI在医疗领域面临的挑战,包括数据隐私、伦理问题等。
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗健康领域中的多维度应用,从疾病诊断、个性化治疗到健康管理,展现了AI如何革新传统医疗模式。通过分析当前实践案例与最新研究成果,文章揭示了AI技术提升医疗服务效率、精准度及患者体验的巨大潜力,并展望了其在未来医疗体系中不可或缺的地位。 ####
|
15天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗领域的应用####
本文探讨了人工智能(AI)技术在医疗领域的创新应用及其带来的革命性变化。通过分析AI在疾病诊断、个性化治疗、药物研发和患者管理等方面的具体案例,展示了AI如何提升医疗服务的效率和准确性。此外,文章还讨论了AI技术面临的挑战与伦理问题,并展望了未来的发展趋势。 ####
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在医疗领域的应用与前景####
本文探讨了人工智能(AI)在医疗领域的多方面应用,包括疾病诊断、个性化治疗、患者管理以及药物研发等。通过对现有技术的梳理和未来趋势的展望,旨在揭示AI如何推动医疗行业的变革,并提升医疗服务的质量和效率。 ####
48 5
|
23天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
54 7
|
25天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
28天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
91 4