xMedia来了!支付宝客户端的智能化“武器”-阿里云开发者社区

开发者社区> 技术小能手> 正文

xMedia来了!支付宝客户端的智能化“武器”

简介:
+关注继续查看

1、智能终端的发展趋势

1983年摩托罗拉第一台移动电话问世开始,手机已走过了30多年的历史。在最初的功能机时代,手机提供语音通话和短信功能,初步解决了人和人之间的交流需求;在随后的智能机时代,高质量的图像、视频能力成为竞争的重点,语音消息、图片共享、视频通话成为社交的主流方式,有效的丰富了人们之间的交流体验。

从苹果2007年发布IPhone开始,智能手机经过10年的发展,目前的视网膜分辨率、4K2K视频拍摄,12M双目拍照已经成为业界主流,音频、视频的效果已基本达到普通用户的体验上限。更高的显示分辨率、更高的图像、视频分辨率对用户的边际价值越来越低,智能手机又一次走到了发展的拐点。

1.1 传感器

摄像头作为最重要的传感器,在过去几十年产生了翻天覆地的变化:

8481c8f592b7f349aa84a1de5c171db681516edf分辨率:从最初的2M增长到现在的主流12M,Nokia曾推出过高达41M的手机;
8481c8f592b7f349aa84a1de5c171db681516edf多目相机:双目相机成为主流,通过双目视觉计算周边环境的深度Depth信息,从而实现大光圈效果、 3D建模等能力;据传华为新一代P20聚成将搭载三目摄像头,增强变焦效果;
8481c8f592b7f349aa84a1de5c171db681516edf主动光源相机:苹果IPhoneX首次将结构光相机引入手机,获得高精度深度Depth信息,实现FaceID;

麦克风作为重要但是容易被忽视的传感器,也有了很大的演进。以IPhoneX为例,通过不同个位置的4个麦克风形成麦克风阵列,实现对声场的重建,实现声源定位、远距离拾音、定向拾音等一系列相应功能。其他手机也基本采用类似设计,提升语音交互及音频体验。

除此之外,手机中集成了陀螺仪(Gyro),加速传感器、距离传感器、气压计、磁力感应器等多种类的传感器,并且精度和种类越来越多,随着多传感器的信息融合,可以提供更丰富的对外界的感知能力。

1.2 计算能力

手机搭载的CPU、GPU能力持续增强,苹果iPhoneX的A11芯片集成43亿个晶体管, 6核CPU (2大4小),3核GPU(对3D游戏、深度学习、AR进行优化),搭载神经网络引擎。高通、华为等手机均在主芯片上搭载NPU支持,可有效的加速深度学习在终端上的运行效果。

1.3 发展趋势

我们认为随着各种传感器的增加、计算能力的增强,尤其是NPU的普及,智能手机会迎来新的变革:

智能化:即手机会更加智能化。手机的发展的重点从增强人和人之间的连接(更高分辨率、更高的图片视频质量)变为对周边环境、对人和环境之间的感知,更加智能化的服务用户。现在的双目相机计算深度信息,麦克风阵列计算用户位置,已经实现了初步的周边环境感知能力;

多样化:手机作为中心的交互方式会逐渐弱化,更自然、更多样的终端设备(例如智能音箱、智能手环、VR/AR设备等)会承接手机的部分功能,从而逐渐减弱手机作为核心交互设备的重要性。目前Amazon/Google/Apple大力投入的智能音箱,就是希望音箱能成为用户在家庭中的一个更自然的交互入口。虽然未来是否能成功有待探索,仍然是一个有益的尝试;

bf6a1c86cd1254773505d6737a942452a7cdbc5e

2、多媒体客户端基础

随着支付宝业务需求,从2015年初开始多媒体技术部启动语音、图片、小视频等富媒体通信相关工作。目前在音频视频前端处理领域形成了完整的技术能力,支撑支付宝内各业务场景,为用户提供极致的音视频体验。

0ac75e252aa9e80509dc21f3f619f3e5e0685ba9

前端数据采集是智能化能力的基础,不论人脸识别,图像理解还是语音识别,高质量、低噪声的原始数据是后续高精度识别的基础。我们希望通过多媒体相关技术,在终端上结合算法和工程能力,获取到高质量的原始数据,并高速稳定的传输到云端,作为后续智能化做好准备。

2.1 富媒体通信

目前作为支付宝基础组件,对接云端AFTS/Django/TFS等系统,提供完整的音频/图像/视频编解码、处理、渲染、传输及存储能力,支撑众多业务场景。在自研算法库、缓存优化、网络优化等领域形成自己特有技术能力,并通过数据大盘实现业务数据精细化监控,有效支撑各业务场景精细优化;

6f06b12ba51c79bc56d0cb4ba82405f94b931da4

2.2 视频直播

2017年自研视频直播组件系统上线,陆续接入口碑、蚂蚁会员周周乐、商家开放平台培训等直播业务,支持最新直播答题特性;

cb017666d32b4e5b82f48b38bbccfc5e91297edc

2.3 视频通话

2017年自研视频通话系统上线,支撑闲鱼、菜鸟、IT等业务场景。在支付宝内支持财富远程证券开户(即将上线)。

c8760197983ed7258f9c3bfce24e76488de3da3b

3、多媒体客户端智能化

基于多媒体客户端高质量的数据采集,多媒体技术部在终端上布局系列技术,提升终端的理解能力(xNN)、空间感知能力(xSLAM)、3D渲染能力(xAnt3D),人机交互能力(手势识别、人体姿态识别等等)。多种能力结合支撑更加智能化的业务场景,为用户提供更加智能化的体验。

18441a19dc96227a60993d543c6f30f7d9f1d0d5

3.1 客户端深度学习引擎xNN

近年来,深度学习(DL)在图像识别、语音识别、自然语言处理等诸多领域都取得了突破性进展。DL通常给人以计算复杂、模型庞大的印象。常规应用场景都是手机终端采集数据,云端识别处理。但是对于很多需要低延时、低带宽、高隐私的应用而言,客户端的DL能力是非常必要的。对于支付宝这种海量用户APP,如果能将部分DL工作转移到客户端来实现,对用户体验和云端降成本都有很大的价值。

2017年8月,自研客户端深度学习引擎xNN上线支付宝10.0.20版本,将DL能力推到终端,通过边缘计算实现高实时应用,有效的降低云端负载,提升用户体验。自研xNN具有如下特点:

8481c8f592b7f349aa84a1de5c171db681516edf小引擎:通过移动端SDK的深度裁减,安卓平台只有200KB;
8481c8f592b7f349aa84a1de5c171db681516edf轻模型:通过高效的模型压缩算法,实现高精度+小尺寸的模型;
8481c8f592b7f349aa84a1de5c171db681516edf快速:结合指令层和算法层的优化,综合提升DL计算的效率;
8481c8f592b7f349aa84a1de5c171db681516edf普适:不仅支持经典的CNN、DNN网络,也支持RNN、LSTM、TFLite等网络形态;
8481c8f592b7f349aa84a1de5c171db681516edf易用:完整模型转换工具链,算法工程师能快速完成云端模型到移动端模型的转换和部署;

xNN上线后,已经帮助蚂蚁的多个业务,包括支付宝(扫五福等)、保险、财富、芝麻信用、网商银行,完成客户端DL算法的部署,并输出到多个外部合作公司。阿里巴巴集团范围内,也有多个BU在逐步接入。这得益于xNN自身优秀的性能,具体的:一方面,xNN能够提供提供高达近数十倍的模型压缩能力,解决了DL算法模型尺寸过大的落地瓶颈;另一方面,xNN不仅支持基础的分类任务,而且已能够为更为复杂的目标检测、语义特征点提取等任务提供高效的移动端解决方案。

4b55ec0fea5d77cbc9b9ca4ebeefaad40e71d7c4

3.2 客户端位姿计算引擎xSLAM

在我们面临的很多问题中,需要知道手机在空间中的位置和姿态,从而反向推断出用户所在的位置和姿态。SLAM(simultaneous localization and mapping)作为业界广泛使用的定位技术,通过机器视觉和手机传感器相结合,解算出手机在空间中的位置和姿态(6自由度)。SLAM涵盖了图像视觉、多视几何的几乎所有关键算法,对于算法能力、性能优化、终端适配及鲁棒性提出了很高的要求。

2017年9月,自研xSLAM引擎在支付宝10.1.5版本上线。自研算法针对算法在三维空间估计和位姿估计的准确度上,以及不同机型的硬件差异(特别是Andriod手机的IMU质量参差不齐),做了大量的算法及工程适配优化工作,同时在工程上基于各类芯片的GPU/DSP进行极致优化。

SLAM上线后,第一个业务是AR平台扫可口可乐福娃活动。目前保险、萌宝等业务接入中。作为手机位置姿态的基础能力,我们确信后续会支撑更多的业务场景。

70569507556740310ef9ded1fb653dc1c4e704df

3.3 客户端3D渲染引擎xAnt3D

3D渲染是三维计算机图形学最重要的研究课题之一,并且在实践领域与其他技术密切相关,是智能化技术的交互入口。3D渲染是指将3D模型文件(包括几何、视点、纹理、照明和阴影等信息)进行实时渲染获得3D效果。

支付宝3D渲染引擎xAnt3D来自于2017年春节红包的AR互动需求。多媒体技术部虽然之前在图片裁剪/美颜、视频渲染等等较多场景下使用过OpenGL技术,但和2D渲染场景相比,3D渲染涉及3D数学模型、view、project矩阵计算,以及粒子、阴影、光线、平面计算等知识,覆盖光学、视觉感知、数学及软件工程等技术点,对我们产生较大的挑战。

经过1年多的研发工作,xAnt3D移动端轻量级3D渲染引擎,在图像跟踪、陀螺仪跟踪、SLAM跟踪等条件下对模型动画进行稳定的渲染。同时在工程上做了深度的优化工作,Android4.3以上全机型兼容,支持特性有骨骼动画、节点动画、材质贴图、粒子效果、光线、透明视频、文字渲染,同时具备JS脚本扩展支持能力,并可以实现30fps的流畅渲染效果(依赖于手机采集帧率)。在支付宝环境中,xAnt3D渲染引擎在移动端轻量级包大小分在1MB左右。随着更高质量的人机交互要求,xAnt3D渲染引擎肯定会起到更多的作用,支撑更多业务场景。

体验效果可参考上面3.2中xSLAM福娃3D渲染效果。

3.4 客户端人机交互能力

随着终端处理能力和用户要求的提高,我们希望给用户提供类似手势识别、人体姿态识别等更加自然的交互方式,创造更加新颖有趣的玩法,打造新的应用形态。

2018年春节AR红包中的“五福到”红包,首次利用人脸+人手手势的方式进行用户交互。为了降低云端负载,提高用户相应时间,手势识别在客户端实现,业务获得了较大的影响和用户的好评。我们后续有计划在更多业务场景中使用手势识别,并且将支

持更加复杂的手势。

13de361b819aada80b2dbecec4ee93e66aa9be3e

人体姿态估计作为对人体姿态的理解能力,可给大量线上线下场景赋能,创造新的应用空间。例如在线上场景,可以在无需额外体感设备的条件下提供体感操作、体感娱乐的功能(例如QQ高能舞室)。在线下可以实现类似跳舞机的产品;在营销活动中,无论线上还是线下,该技术均可为商家营销提供用户互动体验。

ab8986309adb9b3db6dee1e82dd75f29da83969f

4、多媒体泛终端能力

如最初所述,用户交互方式会逐渐从围绕手机的中心化逐渐离散化,多媒客户端SDK也在技术上做好相应准备,以便将手机上的多媒体能力快速的移植到其他硬件平台,支撑多样性的用户终端,支持业务发展。

8481c8f592b7f349aa84a1de5c171db681516edf网络能力:网络传输使用发布/订阅消息模式,使用小型传输、开销小、协议交互最小化的协议。不同消息传输发布不同服务质量类型消息,可支持低带宽、不可靠的网络传输及弱硬件能力设备;
8481c8f592b7f349aa84a1de5c171db681516edf跨平台能力:增加底层代码跨平台覆盖,和平台特性无关逻辑下沉通过C实现增加Kernel层,上层涉及平台差异性逻辑再通过iOS/Android/Liunx等系统方法来调用;
8481c8f592b7f349aa84a1de5c171db681516edf底层驱动能力:传感器采集等其他硬件驱动扩展支持储备,如智能货柜场景需要支持多摄像头数据采集处理,增加了对USB驱动、Camera驱动等技术储备。

目前相关技术已经应用在行业智能机具管控平台、无人货柜、远程娃娃机等项目中。

5、xMedia技术沙盘

多媒体技术部围绕多媒体基础体验、智能化体验、工程及优化能力,形成完整的多媒体客户端方案xMedia。在核心算法层构建算法技术壁垒,在组件层形成多样的多媒体能力,可以快速上线支撑业务发展。xMeida SDK具有如下特点:

8481c8f592b7f349aa84a1de5c171db681516edf完备:完整多媒体解决方案,包括内容采集、处理、理解、交互、网络、缓存等,实现业务快速接入;
8481c8f592b7f349aa84a1de5c171db681516edf智能:丰富的智能化算法能力,包括智能压缩、处理、视觉理解、深度学习,可在客户端实现丰富功能;
8481c8f592b7f349aa84a1de5c171db681516edf普适:精细化的缓存管理,深入的终端适配工作,终端兼容性高;

8481c8f592b7f349aa84a1de5c171db681516edf传输:多样性的网络传输协议、自适应的网络调度策略,支持富媒体、视频通话、直播等业务场景;

654d08e54d7325fe13f652a30f4334cfcf80163b

5.1 算法层

算法及相应的工程化是xMedia的竞争力核心,我们在多媒体数据采集、处理、理解、交互及工程化等环节都进行了深入的工作:

8481c8f592b7f349aa84a1de5c171db681516edf多媒体数据采集:(1)在目前双目及多目相机、多麦克风、多扬声器成为标配的现状下,如何充分利用既有硬件提升图像、视频、音频的采集和播放效果,创造新的应用场景是我们面临的重要问题。目前我们已充分掌握多目相机及麦克风阵列等硬件设计及开发能力,既能充分使用终端上的硬件能力,也可以根据需求定制相应的软件硬件方案,形成自己技术壁垒。(2)IMU是终端上另一种重要的传感器数据,对于SLAM有重要的作用,而Andriod平台的IMU精度是我们面临的最大问题。通过大量数据的采集和测试,我们初步完成了终端适配和数据降噪问题,可以满足大部分场景;(3)未来相机、麦克风、IMU等传感器数据融合是必然的趋势,在不同场景下取长补短,获得高精度的数据。相关的技术也在储备中;
8481c8f592b7f349aa84a1de5c171db681516edf多媒体数据处理:(1)压缩:我们对于语音、图像、视频提供丰富的编解码支持,基于HEVC的图像编解码器也已上线灰度;(2)处理:我们提供丰富的图像及视频裁剪、降噪、增强能力;(3)人脸:我们提供丰富的人脸特效,支撑社交及其他场景的应用;(4)音频及语音:我们对于语音3A、音频信号处理有深入理解,支撑音频录制、语音通话、音乐播放等相关场景;
8481c8f592b7f349aa84a1de5c171db681516edf多媒体数据理解:(1)深度学习xNN 深度优化的移动端上DL引擎;(2)位姿计算xSLAM提供高精准和稳定的三维空间估计和位姿估计;(3)目标跟踪x3Dot提供2D、3D的检测及跟踪能力;(4)OCR识别用于银行卡识别、燃气表识别、汽车行驶里程等业务场景;
8481c8f592b7f349aa84a1de5c171db681516edf多媒体工程能力:工程能力和用户体验息息相关,高质量的工程能力决定了算法能否成功落地。(1)性能优化,包括摄像头启动耗时优化,精细化内存缓冲区管理,网络上传耗时优化,通过IP直连、域名收敛、线程通道隔离等优化网络下载成功率及耗时;(2)鲁棒性&兼容性,xMedia SDK在支付宝上经受复杂应用场景的考验,闪退率远低于万分之一的指标;尤其是解决众多Android多厂商及多系统各种各样的兼容性问题; (3)包大小,深度裁剪优化;

5.2 组件层

基于核心算法,我们提供丰富的多媒体组件供业务层使用:

8481c8f592b7f349aa84a1de5c171db681516edf多媒体基础能力:提供丰富的语音、图像及视频处理接口,提供完整的富媒体通信、直播及通话引擎,业务可以快速接入;
8481c8f592b7f349aa84a1de5c171db681516edf多媒体智能能力:提供客户端上深度学习引擎、位姿计算引擎、目标检测引擎、3D渲染引擎、手势识别/人体姿态识别的人机交互能力,支撑各种应用场景;

6、总结及展望

智能终端经过10多年的发展,又一次站在巨变前夕,智能化、去中心化逐渐成为趋势。多媒体技术部集成算法、工程及硬件能力,希望在终端侧构建完整的xMedia SDK:在手机上提供更加丰富的智能化体验,积极探索和适配新的硬件形态,创造新的应用场景和方式,提升用户体验。我们希望通过自己的努力,实现用户、商家、设备之间的互联互通,实现我们人人互通,万物互联的梦想!

98f25173c74462487d5113c4dd07293adb9c50cb

广告篇

能看到这里的一定是同道中人,或者对未来智能终端方面有兴趣的同学们,如果有技术交流或者技术合作的需求,欢迎联系zhenghui.zh@antfin.com。

另外最最重要的在智能化的热潮中,我们是求贤若渴,欢迎求简历、求推荐!

8481c8f592b7f349aa84a1de5c171db681516edf算法组:联系pulin.wpl@antfin.com、dajiang.zdj@antfin.com
    • 算法优化专家(汇编优化大师、gpu优化大师、反向逆向工程专家等等)、

    • 图像视觉专家(摄像头图像ISP、AR/VR/3D视觉算法、深度学习机器学习、图形图像处理等)

    • 音频算法专家 联系heyang.th@antfin.com

8481c8f592b7f349aa84a1de5c171db681516edf客户端:联系zhenghui.zh@antfin.com
    • Android/iOS开发

    • 3D渲染(有图形学经验优先)

    • 移动端/互联网后台测试专家

    • 嵌入式相关,包括Linux嵌入式技术专家、Android系统驱动移植等

8481c8f592b7f349aa84a1de5c171db681516edf服务端:勾搭热线xiaofeng.dxf@antfin.com
    • GPU/CUDA优化专家;

    • IoT/java技术专家



原文发布时间为:2018-03-20
本文作者:伯舆
本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【小程序案例实践】支付宝小程序控制智能设备(一)
目录 一.前言二.回忆支付宝小程序移植的过程三.注册账号了解支付宝开发者工具结构四.移植过程中特别注意的点 4.1 连接 4.2 websocket的连接和监控数据接收 4.3 websocket的发送五.如何使用? 六.下载 前言 感谢大家一直支持我,当你看到这篇文章的时候,我已经实现了在支付宝小程序上控制我们的esp8266了。
22397 0
百度瞄准客户端 迅雷、360、腾讯皆是目标
业界传闻百度将推出电脑管家已有一段时间,今日据知情人士透露,百度电脑管家1.0 beta版已经泄漏,且有安装包可以下载,相关图片显示,百度电脑管家将使用域名guanjia.baidu.com。 图片表明,该泄露版本系百度电脑管家1.0 beta版,于今年9月29日更新。
900 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4480 0
Redisson是GitHub里星星最多的Redis Java客户端
Redisson成为GitHub里星星最多的Redis Java客户端
12542 0
微信电脑版真的要来了 微信Windows版客户端1.0 Alpha推出
  微信电脑版的搜索量一直很大,但只有网页版,之前也写了微信网页版APP - 网页微信客户端电脑版体验,在键盘上打字的感觉就是快。现在微信Windows版客户端1.0 Alpha推出了,来一睹芳容吧(2015.1.25微信电脑版-微信for windows客户端发布)   和网页版微信一样,Windows版PC同样需要在手机端扫一扫才能登陆,成功之后,手机端会有提示,点击确认即可。
1033 0
【转】ubuntu10.10下安装锐捷客户端
            想在大学玩linux,那就必须考虑一下那个死锐捷了,在网上搜了一下,找到了linux版的锐捷(不是官方那个)(下载地址:http://code.google.com/p/ruijieclient/downloads/list)根据自己的需要,找相应格式包,这里我们下deb包。
843 0
+关注
技术小能手
云栖运营小编~
5957
文章
9
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载