
资浅小编,关注人工智能、机器学习、深度学习、计算机视觉、语音识别、NLP....
今日,云栖大会·上海峰会正式在上海世博中心拉开序幕,本次大会一共有两天的议程,而首日发布的ET农业大脑以及升级的ET城市大脑等便吸引了诸多眼球,话不多说,一起来看看都有哪些重磅发布吧!
编者按:本文作者阿里巴巴机器智能技术实验室高级算法工程师张仕良。文章介绍了阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN),目前基于DFSMN的语音识别系统已经在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。本次,我们开源了基于Kaldi语音识别工具实现的DFSMN代码,同时开源了相关训练脚本。 通过开源的代码和训练流程,我们在公开的英文数据集LibriSpeech上可以获得目前最好的性能。 This post presents DFSMN, an improved Feedforward Sequential Memory Networks (FSMN) architecture for large vocabulary continuous speech recognition. We release the source codes and training recipes of DFSMN based on the popular Kaldi speech recognition toolkit and demonstrate that DFSMN can achieve the best performance in the LibriSpeech speech recognition task. Acoustic Modeling in Speech Recognition Deep neural networks have become the dominant acoustic models in large vocabulary continuous speech recognition systems. Depending on how the networks are connected, there exist various types of neural network architectures, such as feedforward fully-connected neural networks (FNN), convolutional neural networks (CNN) and recurrent neural networks (RNN). For acoustic modeling, it is crucial to take advantage of the long term dependency within the speech signal. Recurrent neural networks (RNN) are designed to capture long term dependency within the sequential data using a simple mechanism of recurrent feedback. RNNs can learn to model sequential data over an extended period of time and store the memory in the connections, then carry out rather complicated transformations on the sequential data. As opposed to FNNs that can only learn to map a fixed-size input to a fixed-size output, RNNs can in principle learn to map from one variable-length sequence to another. Therefore, RNNs, especially the short term memory (LSTM), have become the most popular choice in acoustic modeling for speech recognition. In our previous work, we have proposed a novel neural architecture non-recurrent structure, namely feedforward sequential memory networks (FSMN), which can effectively model long term dependency in sequential data without using any recurrent feedback. FSMN is inspired by the filter design knowledge in digital signal processing that any infinite impulse response (IIR) filter can be well approximated using a high-order finite impulse response (FIR) filter. Because the recurrent layer in RNNs can be conceptually viewed as a first-order IIR filter, it may be precisely approximated by a high-order FIR filter. Therefore, we extend the standard feedforward fully connected neural networks by augmenting some memory blocks, which adopt a tapped-delay line structure as in FIR filters, into the hidden layers. Fig. 1 (a) shows a FSMN with one memory block added into its -th hidden layer and Fig. 1 (b) shows the FIR filter like memory block in FSMN. As a result, the overall FSMN remains as a pure feedforward structure so that it can be learned in a much more efficient and stable way than RNNs. The learnable FIR like memory blocks in FSMNs may be used to encode long context information into a fixed-size representation, which helps the model to capture long-term dependency. Experimental results in the English recognition Switchboard task show that FSMN can outperform the popular BLSTM while faster in training speed. Fig. 1. Illustration of FSMN and its tapped-delay memory block DFSMN Open Source Fig. 2. Illustration of Deep-FSMN (DFSMN) with skip connection In this work, based on our previous FSMN works and recent works on neural networks with very deep architecture, we present an improved FSMN structure namely Deep-FSMN (DFSMN) (as show in Fig. 2) by introducing skip connections between memory blocks in adjacent layers. These skip connections enable the information flow across different layers and thus alleviate the gradient vanishing problem when building very deep structure. We can successfully build DFSMN with dozens of layers and significantly outperform the previous FSMN. We implement the DFSMN based on the popular kaldi speech recognition toolkit and release the source code in (https://github.com/tramphero/kaldi). The DFSMN is embedded into the kaldi-nnet1 by adding some DFSMN related components and CUDA kernel functions. We use mini-batch based training instead of the multi-streams which is more stable and efficient. Improving the State of Art We have trained the DFSMN in the LibriSpeech corpus, which is a large (1000 hour) corpus of English read speech derived from audiobooks in the LibriVox project, sampled at 16 kHz. We trained DFSMN with two official settings using kaldi recipes: 1) model trained on the “cleaned data” (960-hours-setting); 2) model trained on the speed-perturbed and volume-perturbed “cleaned data” (3000-hours-setting). For the plain 960-hours-setting, the previous kaldi official release best model is the cross-entropy trained BLSTM. For comparison, we trained the DFSMN with the same front-end processing as well as the decoding configurations as the official-BLSTM using the cross-entropy criterion. The experimental results are as shown in Table 1. For the augmented 3000-hours-setting, the previous best result is achieved by the TDNN trained with lattice-free MMI followed by sMBR based discriminative training. In comparison, we trained DFSMN with cross-entropy followed by one epoch sMBR based discriminative training. The experimental results are as shown in Table 2. For both settings, our DFSMN can achieve the significantly performance improvement compared to the previous best results. Table 1. Performance (WER in %) of BLSTM and DFSMN trained on cleaned data. Model Small LM Large LM Official-BLSTM 6.85 5.22 DFSMN 4.73 4.36 Relative Gain +30.95% +16.48% Table 2. Performance (WER in %) of BLSTM and DFSMN trained on speed-perturbed and volume-perturbed cleaned data. Model Small LM Large LM TDNN 6.15 4.31 DFSMN 5.10 3.96 Relative Gain +17.07% +8.12% How to get our implementation and reproduce our results We have released two methods to get the implementation and reproduce our results: 1) Github project based on the Kaldi; 2) A PATCH file with the DFSMN related codes and example scripts. Get Github project git clone https://github.com/tramphero/kaldi Apply PATCH The PATCH is built based on the Kaldi speech recognition toolkit with commit "04b1f7d6658bc035df93d53cb424edc127fab819". One can apply this PATCH to your own kaldi branch by using the following commands: #Take a look at what changes are in the patch git apply --stat Alibaba_MIT_Speech_DFSMN.patch #Test the patch before you actually apply it git apply --check Alibaba_MIT_Speech_DFSMN.patch #If you don’t get any errors, the patch can be applied cleanly. git am --signoff < Alibaba_MIT_Speech_DFSMN.patch The training scripts and experimental results for the LibriSpeech task is available at https://github.com/tramphero/kaldi/tree/master/egs/librispeech/s5. There are three DFSMN configurations with different model size: DFSMN_S, DFSMN_M, DFSMN_L. ********************************************************************************** # ## Training FSMN models on the cleaned-up data # ## Three configurations of DFSMN with different model size: DFSMN_S, DFSMN_M, DFSMN_L local/nnet/run_fsmn_ivector.sh DFSMN_S local/nnet/run_fsmn_ivector.sh DFSMN_M local/nnet/run_fsmn_ivector.sh DFSMN_L ********************************************************************************** The DFSMN_S is a small DFSMN with six DFSMN-components while DFSMN_L is a large DFSMN consist of 10 DFSMN-components. For the 960-hours-setting, it takes about 2-3 days to train DFSMN_S only using one M40 GPU. And the detailed experimental results are listed in the RESULTS file. For more details, take a look at our paper and the open-source project.
5月23日,在云栖大会·武汉峰会上,阿里云总裁胡晓明系统阐述了这家公司坚守的三条生命线—— -坚持自主研发之路,“‘拿来主义’盖不出高楼大厦,自主研发的云才能走得更远”; -生态是阿里巴巴血液里流淌的基因,阿里云与合作伙伴共生共存; -重申阿里云一直以来的承诺——坚决不碰客户数据。 “拿来主义”盖不出高楼大厦,自主研发的云才能走得更远 胡晓明在武汉峰会上进一步阐述了“两种云”的理念,以及阿里云为什么始终坚持自主研发。他认为,坚持自主研发不仅仅是民族情感的问题,更是商业和技术上的选择,“拿来主义”看似是一条技术上的捷径,长远来看却盖不出高楼大厦。 自研云优势非常明显。如阿里云飞天云操作系统源自阿里巴巴18年的技术积累,并经历全球最大规模电商、支付等业务考验以及大规模公共云商业化实践,稳定性高,可随时随地升级。飞天拥有统一的体系结构规划,且软硬件一体设计,性能优异、容错能力高,能够实现计算能力在全球范围水平扩展。 作为新时代的“生产力”,云之上运行着政务、金融等核心关键业务,安全性稳定性要求极高,也因此,其自主可控与可持续发展在当下尤为重要。与此同时,60%以上的全球客户将身家性命放在前五大云厂商,他们无一例外都是自主研发云。可以说,云计算已经告别DIY时代。 自主研发是为了生态更开放 胡晓明同时强调,阿里云坚持自主研发,但不等于不开放:阿里云飞天兼容各种主流的开源技术标准,包括Hadoop、Docker、K8S、Spark等;阿里巴巴贡献了中国最多的开源服务;合作伙伴在阿里云云市场上提供了超过一万种应用和服务;阿里云提供丰富的API接口,供所有开发者平等使用,并保证兼容性。 经过9年发展,阿里云已经建立起了庞大的生态体系,合作伙伴超过8000家,遍布咨询公司、系统集成商、行业头部ISV。 “生态是阿里巴巴血液里流淌的基因”,胡晓明说:“坚持自主研发让我们走得远,而坚持与合作伙伴共生共存则让我们一起做大了云计算的市场和生态”。目前,阿里云生态体系下的合作伙伴服务客户超过10万家,伙伴业务年增长率超过200%。2017年,阿里云合作伙伴在云市场上的订单数超过200万单。 坚决不碰客户数据 是阿里云的底线 此次大会上,胡晓明再一次强调了数据安全是阿里云的底线。“今天,我们再次重申我们的承诺,阿里云坚决不碰客户数据。”胡晓明说。 在2015年7月,阿里云第一个发起《数据保护倡议》,将“不碰客户数据”写入正式文本,开创了行业的先河并被同行认可跟进。倡议书明确规定:“运行在云计算平台上的开发者、公司、政府、社会机构的数据,所有权绝对属于客户;云计算平台不得将这些数据移作它用。平台方有责任和义务,帮助客户保障其数据的私密性、完整性和可用性。” 胡晓明说:“阿里云发展到今天,正因为我们始终坚持自主研发,始终坚持与合作伙伴共生共存,坚持数据安全第一,我们才有这样的行业地位和市场领导。我们正在打造最安全的云计算平台,助力数字中国的快速发展。” 一图看懂“三条生命线”——
本月早些时候,阿里巴巴量子实验室成功研制当前世界最强的量子电路模拟器“太章”的消息引起了一阵热议,有关量子霸权争夺战的言论不绝于耳。根据官方信息,基于阿里巴巴集团计算平台在线集群的超强算力,“太章”在全球范围内率先成功模拟了81(9x9)比特40层的作为基准的谷歌随机量子电路,之前达到这个层数的模拟器只能处理49比特。 关于“太章”本身,此前已经有不少媒体有报道,我们就不再赘述了。那么最强量子电路模拟器到底强在哪呢?云栖社区采访了阿里巴巴量子实验室团队的施尧耘博士和陈建鑫博士,为大家做出科普解读。 此次研究成果的核心成员,陈建鑫表示,量子计算最终实现的形式应该是基于量子硬件,但是电路模拟有其重要意义,在硬件尚不能达到足够规模与质量的时候,可以作为验证量子算法、辅助算法及硬件设计的工具。 在量子计算领域,目前业界主流的模拟方案有两种:一是存储量子状态的所有振幅,另一种方法是对于任意振幅都可以迅速计算得到结果。阿里巴巴量子实验室采用的是第二类模拟方案,即在阿里巴巴计算平台的在线集群上,通过快速有效的计算任意振幅,任务拆分后可以将子任务十分均衡地分配到不同节点,极少的通信开销使得模拟器适配现在广泛提供服务的云计算平台。 而在此之前,全球范围内的研究团队都未曾成功模拟谷歌超过50比特40层的第一代随机测试电路。此次“太章”最大的突破在于,阿里巴巴量子实验室团队同时将若干层进行并行化。 “我们采用了第二类模拟方案。通常拆分电路模型需要把每一层来并行化,但这样会导致整个电路层数很大的时候,并行的任务数指数增加过快。我们同时将若干层进行并行化,可以有效控制并行任务数的增加。”陈建鑫说。 此外,他还指出“太章”也在一定程度上说明了谷歌在今年3月提出的72比特40层该随机电路采样任务不能超越经典计算机能力,换言之,谷歌Bristlecone芯片目前是无法实现量子霸权的。 以下是云栖社区对阿里巴巴量子实验室科学家陈建鑫以及量子计算首席科学家施尧耘的采访实录。 注:图片来源网络 云栖社区:能否通俗的介绍下量子电路模拟器?在全栈量子计算中的作用是什么? 陈建鑫:在量子计算目前的模型中,有一类是量子电路模型,实现形式是将信息存储在量子比特中,通过类似经典逻辑门的量子门来实现计算。 量子计算最终实现的形式应该是基于量子硬件,但是电路模拟有其重要意义,在硬件尚不能达到足够规模与质量的时候,可以作为验证量子算法,辅助算法及硬件设计的工具。在硬件实现突破可以达到足够规模以后,可以预见量子硬件的资源依旧足够昂贵,在执行量子程序前,通过经典计算机模拟检查是否符合预期也是不可或缺。云栖社区:最新研制的81比特量子电路模拟器为何取名太章? 陈建鑫:“太章”取自:《淮南子·墬形训》:「禹乃使太章步自东极至于西极,二亿三万三千五百里七十五步;使竖亥步自北极至于南极,二亿三万三千五百里七十五步。凡鸿水渊薮自三百仞以上二亿三万三千五百五十里有九渊·禹乃以息土填洪水以为名山。」 “太章”模拟器目的是用一种经典、我们能理解的方式来理解量子的运行,就和太章徒步测量东极至西极的距离类似。云栖社区:81比特40层,这两个数据意味着什么?为何是81比特和40层? 陈建鑫:我们实现该模拟器的目的是为了以后的应用层研究,这里单独提出来81比特40层只是为了与Google今年3月提出的72比特方案来比较。Google 2016年提出的随机电路采样方案在大于50比特的时候硬件很难突破40层,因此模拟81比特40层意味着他们今年3月提出的72比特40层该随机电路采样任务是不能超越经典计算机能力的。 nxn二维网格上,计算随机电路输出每一个振幅的执行时间与电路深度的对应关系 云栖社区:此外实验室还成功模拟的100比特35层、121比特31层、144层27层?比特数和层数二者的逻辑关系是什么? 陈建鑫:比特数越多,能模拟的层数越少。在同等算力下,能模拟的电路层数与比特数约成反比。云栖社区:按照媒体报道,此前40层的模拟器只能处理49比特?“太章”做出了哪些突破? 陈建鑫:目前业界主流的模拟方案有两类,一类是存储量子状态的所有振幅,一类是对于任意振幅都可以迅速计算得到结果。第一类模拟方案,基本都在超级计算机上实现,因为存储 45 比特的量子状态需要 Petabyte 量级的内存,在存储这么多数据的同时对该量子态进行操作并进行计算,需要不断地在不同的计算节点之间交换数据,这样的通讯开销对于普通云服务是难以承受的。 “太章”模拟的随机量子电路规模(黑线)与谷歌量子硬件可以实现的规模(红线) 比较(基于谷歌在[Characterizing quantum supremacy in near-term devices]中对7x7的估计)* 我们采用了第二类模拟方案。通常拆分电路模型需要把每一层来并行化,但这样会导致整个电路层数很大的时候,并行的任务数指数增加过快。我们同时将若干层进行并行化,可以有效控制并行任务数的增加。云栖社区:团队只用了阿里计算平台在线集群14%的计算资源就实现了以前超算无法完成的任务,这其中的难点在那?你们是如何克服的? 陈建鑫:计算资源跨若干机房,这意味着跨机房的进程间开销极为昂贵。因此,我们侧重于尽可能减少通信开销,使得模拟器适配现在广泛提供服务的云计算平台。云栖社区:这次在量子电路模拟器上的成果对阿里研究量子计算有何意义? 陈建鑫:在没有硬件的条件下如何进行前期布局,这是我们做这个量子电路模拟器的初衷。基于这个电路模拟器我们可以进一步辅助算法设计,开发应用并测试。云栖社区:阿里巴巴量子实验室下一步的规划是什么? 施尧耘:A central mission has been to develop quantum algorithms that are of significant value to our business. To identify such problems, we hope very much our technology community can help(核心任务是研发对阿里巴巴业务有价值的量子算法).云栖社区:现在离量子霸权还有多远? 陈建鑫:谷歌2016年提出的量子霸权方案是一个很好的想法,但是我们的结果说明了照之前的随机电路采样方案,无论将比特数扩大到多少,都无法超越经典计算机。但是我们也看到随着规模增加,经典模拟难度越来越大。毕竟我们利用了大量的经典计算资源,换一句话说,如果只是为了和一台普通的台式机相比,现在的量子硬件在这个特定任务上已经可以实现超越。随着硬件技术的发展,我相信量子霸权不会是太远的事情。
编者按:从2008年到2018年,从阿里巴巴中间件团队到飞天八部——小邪与阿里的十年。 2008年4月,小邪正式入职阿里巴巴,首次接触淘宝商城项目开启了其十年的阿里技术生涯,去年12月加入阿里云,任飞天八部掌门人。本文邀请到小邪进行了专访,就其在阿里十年的经历进行了深入的访谈,此外他还分享了阿里的技术发展史以及他的职业生涯感悟。 阿里云研究员、飞天八部掌门人蒋江伟(花名:小邪),原阿里巴巴中间件团队负责人。 一切从淘宝商城谈起 小邪加入阿里正值淘宝商城(现天猫)公测阶段,而这也是他来到阿里的第一个项目。这几乎是一个和淘宝并行的项目,工程之浩大可想而知,当时小邪主要负责品牌导购,即淘宝上的品牌页,通俗点说就是,用户可以根据字母(例如耐克、阿迪达斯等等)顺序筛选品牌。 对于外界而言,鉴于阿里巴巴在电商领域扎根多年的经历,要复制淘宝的成功看似并非难事。但事与愿违,早期的淘宝商城表现并不尽如人意。 “2008年正是电商快速膨胀的阶段,整个行业都呈现出较为浮躁的氛围,不断有巨头进入,也不断有公司倒下”,小邪如此回忆。 而在这样的大环境下,淘宝商城的问题很快凸显出来,整个网站的流量持续走低。在小邪看来,淘宝商城业务不理想的原因主要有两个:一是商品进入门槛非常高;二是淘宝的流量无法分流。因为淘宝商城和淘宝完全独立,除了会员数据之外,所有的系统都是独立的,包括商品、交易、积分、商品管理甚至还有论坛全部是独立的两套体系。 淘宝是按照商品纬度来展现商品,淘宝商城的结构则是按照SPU纬度展现的。只要是技术能解决的问题都不是问题。在淘宝商城整体业绩表现不佳之后,两个团队的负责人很快便开始规划将两个平台的数据打通,内部称这个项目为“五彩石”,这距离小邪第一个项目完成才短短数月。 “我在这里面主要承担了几个事情:一是重建原来的导购系统,以打通淘宝和淘宝商城的底层;二是与搜索团队对接;三是负责商品管理方面的研发工作,例如商品的上下架、补货等等。” 五彩石项目从2008年10月开始,历时半年才正式完成。 无论是对小邪个人还是对阿里巴巴而言,五彩石项目都极具意义,它把淘宝和淘宝商城彻底打通,并且是首次在整个架构层面引入中间件,并对整个系统进行了分布式化的改造。小邪坦言,在此之前,由于业务体量大、需求变更频繁,导致项目整体的研发效率非常低,而且在数据库上还是采用传统的IOE架构,也带来了很多复杂性问题,中间件的应用很好地解决了这些问题。 “五彩石项目为天猫后续的发展奠定了坚实的基础,也奠定了今天的系统架构;对我个人而言,这个项目也让我对整个电商系统有更深的理解。” 技术进阶:全链路压测和双十一 当然,这仅仅是开始。淘宝商城业务的高速增长又给整个技术体系带来了新的问题。 小邪表示,分布式系统的应用对稳定性的挑战非常大,简单来看,保持稳定性需要做监控、流量规划、服务治理等等很多事情,而这些产品后来都成为了阿里巴巴集团的整个稳定性的基础设施。 “我印象最深刻的就是2013年开始做全链路压测。” 以双十一为例,全链路压测就是模拟双十一的流量以及用户规模,通过模拟这样复杂的场景来监测错误并且提前解决。2013年,淘宝商城的体量急剧增长给分布式系统带来了很多复杂的问题,而在当时来看,做全链路压测技术是最有效的解决方案:它可以合理规划系统流程,可以让集群的资源被充分利用,用最少的资源具备最高的流量水位。 “但我们在2013年把这些问题都有效地解决了,所以2013年的双十一表现得非常好”,这也是技术的核心价值所在。 风云十年:历数阿里技术体系变革 2008年入职阿里,到2012年执掌中间件团队,再到如今的阿里云飞天八部负责人,小邪的角色在不停转变,整个阿里技术体系这十年更是迎来了翻天覆地的变革,在他看来,主要有三个变化: 第一个变化是从开源到自研。阿里从大量使用开源技术到越来越多的自研技术,因为开源技术不管是从代码质量、还是功能需求上都难以满足业务需求,所以团队必须要有很强的自研能力。当然,到自研之后团队又做了很多开源,来使产品运行得更好。 第二个变化是从烟囱式架构到分布式架构。随着业务规模的增长,分布式是必然,今天没有一台服务器、一个系统能够支持如此大的计算能力。 第三个变化是从追求合格到追求极致。阿里在不断地推动技术进步,并在落地过程不断应用完善。不论是云计算,还是团队正在研发的IaaS、数据库、服务器、业务系统等等,它都是一个不断迭代生长的过程,在领域内追求极致创新。 技术成长:角色转变也是职责转变 在阿里云意味着更贴近客户,这对小邪来说是最大的改变。 “以前在中间件团队,产品以及团队磨合都比较成熟了,因此我们的关注点都聚焦在每年双十一的挑战上。但是在阿里云,我们会面对各种需求,并且要求我们通过产品去呈现——这个是很大的区别”,小邪认为,阿里云既是一个技术团队也是一个商业团队,这是非常本质的区别,需要不断通过客户反馈的需求来对产品进行优化。而整个需求的反馈到响应,都需保持通畅。 但对小邪而言,经历这样的转变并没有水土不服,无论是在中台的中间件团队还是更贴近业务的阿里云,不变的是大家都有共同的使命跟愿景,以及对创新的极致追求。在阿里云的这半年时间里,这支团队的战斗力也超出了他的预期。“阿里云团队的整体技术实力非常强,团队经过多次锤炼对市场的敏锐度都非常出色,这个团队的战斗力非常强。” 阿里云飞天八部对外输出了弹性计算、数据库、网络以及存储等核心业务,毫不夸张的说,这也许是小邪近十年最大的一次战役。对此,小邪认为团队接下来主要做三件事:第一是去解决客户痛点;第二个是提升产品竞争力,提升产品性价比、稳定性等指标;第三是持续引进云计算方面的顶级人才。 “我不希望团队去盲目追逐热点,对于研发团队来讲,专注于技术是最核心的任务。” 附部分QA实录: 飞天八部最近在技术领域取得的一系列突破,令人瞩目。新一代关系型云数据库POLARDB、全球首发8K视频直播技术、飞天云操作系统核心技术及产业化项目”获得中国电子学会科技进步特等奖等。在这些成就的背后,你认为有哪些成功因素? 小邪:这得益于我们的研发策略“上拉客户需求,下推产品竞争力”策略,阿里云所有的技术产品都是围绕客户需求展开的,产品要围绕市场需求,用户体验来做,通过销售、实施、服务团队的需求建立持续跟踪的机制,确保客户需求是被很好的反馈和收集的,并被持续完成发布上线。 8K视频就是我们观察到在企业现场直播市场对此有很大的潜在需求,所以我们会快速通过技术研发和技术整合进行产品化。另外阿里巴巴集团自身的场景主够的丰富,全世界最大的电商平台,最大的支付平台,还有物流平台、视频直播、地图等等,就像是一个很大的预演社会,什么场景都会遇到,也是的我们在绝大多数公司遇到技术挑战之前已经完成了探路和建路的过程,我们提前把路上遇到的坑也都填平了,再加上阿里巴巴的中台机制,能够将这些场景化的技术转化为通用类技术,所以通过这个“社会”+“中台”机制沉淀出来的产品有主够远见和竞争力。 技术拓展商业边界,是我们经常听到阿里技术人挂在嘴边的一句话。技术不只服务业务,也为业务提供创新驱动力。对此你是如何理解的?能否举例和大家说明呢? 小邪:技术创新能为业务提供创新驱动力,长远来看,所有的业务的成功都是由技术来推动的。我们需要做的就是不断通过领域内的创新,简化技术使用门槛,推动贵族技术的不断平民化的过程。原本需要用人解决的问题,用技术解决,原本昂贵的技术用便宜的技术解决,这种朴素的诉求是不会改变的。比如原来需要自建,自运维IDC,今天在阿里云上只需要一个账号就能解决,原来需要“高端企业的数据库”场景,明天可以简单实用我们的POLARDB就能解决。技术的创新有个临界值,很多技术不成功不是方向不对,而是没到临界值。车牌的识别准确率在95%以下的时候是没有商业价值的,一旦超过这个值之后,就会出现技术推动商业发展,然后商业又推动技术进步的正循环过程。 今天每个技术要么成熟的支撑于业务,要么还处在类似 “车牌识别的95%准确度” 之下,这种处在创新中的技术,只需要花点时间,给点耐心,就会有爆发的那一天。 十年阿里人,在这十年中,你觉得印象最深刻的事是哪一件?能否和大家聊聊心得体会。 小邪:今天回过头来看,最有意义的一件事情是完成了阿里巴巴集团各个业务板块的中间件技术统一,中间件决定了我们技术的分布式架构体系,这些技术的统一使得我们系统的运维统一、研发统一、学习过程变的简单,我们的工程师从一个部门到另一个部门工作不存在技术门槛。同时集团所有业务的分层架构也变的统一而清晰,业务板块业务的互相依赖调用也变得非常简单,对集团整体的中台战略提供了技术基础。 后来把这些分布式技术产品化,推动并完成了在阿里云上技术的输出,使得中国大量企业在往互联网业务转型过程中可以简单的获取阿里云互联网中间件的产品和服务。 后记 小邪是一个谦卑柔和、极易相处的技术大神,在采访过程中,小邪多次强调技术人应当认真、谦虚、自我学习、并且保持自信。此外,尽管在阿里云工作的节奏很快,但他从未忽视对家庭的责任担当。 “在工作之余也要处理好家里的事情,我会把工作中一些有成就感的事、有趣的事都分享给他们。”
5月4日晚上,阿里巴巴集团正式公布了2018财年第四季度和全年财报,根据财报显示,在2018财年(2017年4月-2018年3月),阿里巴巴集团收入2502.66亿元,同比增长58%,再次超越预期并创下IPO以来最高增速。 值得注意的是,2018财年第四季度(2018年1月至3月底)阿里云营收43.85亿元,同比增长103%;2018财年(2017年4月至2018年3月底)营收133.9亿元,同比增长101%。 过去三年,阿里云每个季度以三位数左右的增速在不断扩大自己的市场领先优势。截止2017年上半年,研究机构IDC通过销售、市场等渠道得到的调研数据显示,阿里云在中国云计算IaaS市场份额为47.6%,几乎为市场所有追随者的总和,也是市场第二名的5倍。 阿里云于2009年创立,当时阿里巴巴正在面对极端复杂的商业和技术难题,从购买软件走向了技术自研道路,由此累积的技术产品和方法论,为阿里云的成功创造了历史机遇。 经过18年的发展,阿里巴巴本身已经成为数字经济体的最佳案例,其在自身业务场景中形成了完善的数字化转型技术和方法论。面对数字化转型的挑战,大中型企业们也纷纷转向阿里云来寻求解决方案。 财报中还披露,中石油、国泰航空、马来西亚首都吉隆坡等正在使用阿里云提供的数字化转型解决方案。其中,马来西亚首都吉隆坡正在落地阿里云ET城市大脑,辅助城市交通、规划、环保等方面的治理。 在全球范围内,阿里云正在将中国市场的优势拓展至“一带一路”沿线国家。 据权威研究机构Gartner数据,阿里云全球市场份额排名第三,仅次于亚马逊AWS和微软Azure,被合称为全球云计算“3A”。其中,作为唯一的中国企业,阿里云持续保持三位数增幅,被华尔街认为是亚马逊和微软的有力挑战者。 除此之外,根据财报显示,阿里巴巴集团核心电商业务收入2140.20亿元,同比增长60%;天猫实物GMV增速高达45%,持续扩大其市场优势。2018年3月,阿里巴巴中国零售平台的移动月度活跃用户达到6.17亿,较一年前增长1.1亿。阿里巴巴还上调了2019财年收入指引,预计集团整体收入的增长将超过60%。
编者按:今天是阿里云年会,一起来感受一下阿里云人的狂欢时刻吧! 在活力组合阿里云Cloud Girls组合热舞后 阿里云ET人偶公仔投射出一束光,触发大屏幕大门的开启 2018大阿里云年会正式开幕! 杭州、北京、上海、深圳、新加坡五地的阿里云人通过网络直播完成互动,全体阿里云人一阵狂欢。 欢迎来到2018阿里云年会现场! 本次阿里云年会由《非凡·无限》、《责任·无限》、《创造·无限》三个篇章组成,诠释了阿里云人活力无限的面貌,以及勇于探索、敢于担当的精神。 但和以往不同,这是低碳环保的一次年会,杭州、深圳、上海、北京、新加坡五地连线为地球节约能量 这次年会一共节省了100万千克碳排放量,相当于种下了55000棵梭梭树,减少了560万的飞行距离,所有节约下来的费用都将用于公益! 开场后首个节目,《不平凡人生》Rap演唱...唱不完阿里云的非凡人、非凡事! 当然,这背后离不开家人的支持,最困难的时候家人总能给你温暖。 不怕寂寞,誓要结果,这是每位阿里云人兼备的特质 数千位阿里云人同心协力,我们正在赋能各大行业,推动新一轮科技革命,YunOS正在赋能互联网汽车以及IoT领域。 指尖代码正创造的是奇迹,由阿里云程序员组成的男子天团Coding Boys就是奇迹幕后的缔造者。 公益与社会责任心烙印在每位阿里人的心中 公益永无止境,公益遇上科技会引发什么样的“蝴蝶效应”? 阿里云年会现场精彩图片: 阿里云总裁胡晓明 阿里巴巴集团CTO行癫
3月31日,由云栖社区和拉勾联合主办的云栖大讲堂第三期——《人机交互技术沙龙》在北京中关村创业大街3W咖啡正式举行。本次活动邀请了四位来自阿里巴巴集团、北京大学的人机交互领域顶级专家做分享,共吸引了150余位行业资深人士和学者,他们来自阿里巴巴、百度、搜狗、滴滴、小米等企业,以及中科院、北京大学、清华大学等学术机构。活动现场,四位演讲嘉宾详细地分享了工业界和学术界在人机交互行业的应用、研究现状,并对未来的发展趋势做出了解读。 活动视频:https://yq.aliyun.com/video/play/1390 以下为本次活动的回顾: Topic 1《阿里NUI (natural user interface)-自然语音交互实践的经验和教训》 分享嘉宾:阿里巴巴机器智能技术实验室高级算法专家高杰,博士毕业于中国科学院声学研究所,现任职于阿里巴巴机器智能技术实验室语音交互组,有十多年的语音交互和机器学习的研发经验。曾任职于腾讯,主导研发了腾讯首代语音识别引擎,广泛应用于腾讯公司的搜索引擎、QQ音乐、腾讯地图、浏览器等多种应用;后就职于微软中国任语音研究员(Speech Scientist),负责了微软语音部门新一代分布式超大规模模型训练系统的研发工作,支持了cortana语音助手、xbox Kinect的语音模型构建和应用工作;现任职于阿里巴巴机器智能部语音交互组。致力于自然交互界面(Natural User Interface)的普适应用,主导多种设备(汽车、电视、手机等)的人机交互界面系统的架构和实施。 从2011年苹果推出siri后,业界便掀起了一股个人语音助理大潮。高杰表示,2015年阿里巴巴推出了NUI(Natural User Interface)平台,目的就是希望赋予设备自然交互的能力。他认为智能个人助理就是在基于服务和用自然交互的的方式,为人提供信息、操控设备或者完成其他任务的产品形态。 在分享过程中,他还提到了自然的交互应该是文本、语音、图像多模态的交互,此外还需要实现个性化、场景化以及主动交互等功能,这些都是其团队在NUI设计实现过程中总结的经验。 Topic 2《神经网络翻译的进展与实践》 分享嘉宾:阿里巴巴机器智能技术实验室资深算法专家陈博兴,研究方向是机器翻译,自然语言处理和机器学习。在加入阿里之前,他是加拿大国家研究委员会(NRC)的研究员(2009-2017),再之前先后是法国格勒诺布尔大学和意大利FBK-IRST的博士后,新加坡信息与通信研究所的研究员。他1998年本科毕业于北京大学,2003年博士毕业于中科院声学所。他和同事合作先后发表了50来篇会议和期刊论文,并且担任过NLP领域所有顶级会议和期刊的审稿人或程序委员会成员。他领导的团队先后在各种机器翻译评测中取得优异成绩,如获得了2017年WMT俄语到英语第一名,NIST2012机器翻译中文到英文第一名,2007和2005年IWSLT口语机器翻译比赛第一名等。 神经网络翻译技术作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术,并成为目前学术界和工业界研究的热点。 陈博兴在现场分享了神经网络翻译目前在技术上的进展,以及阿里巴巴在将这些技术付诸实践中所作的探索尝试。 他认为,目前很多互联网公司也上线了自主开发的神经网络翻译系统或发布了相关产品,但将神经网络翻译落地真实应用场景并非一个简单的过程,其间面临诸多挑战,包括模型选择与优化,搭建面向海量语料的高性能训练平台,加速预测算法以响应高并发请求,以及应对真实需求给标准模型带来的全新挑战等。 Topic 3《云小蜜智能服务对话机器人的现状和未来展望》 分享嘉宾:阿里巴巴智能服务事业部资深算法专家孙健,阿里巴巴智能服务事业部北京团队负责人。他主导的自然语言处理基础平台有力支撑和服务了淘宝搜索、阿里妈妈广告等核心业务,主导了阿里巴巴自然交互平台(Natural User Interface, NUI)的设计开发,NUI平台广泛应用于天猫魔盒、互联网汽车等各种设备中。目前他正带领团队打造面向全行业的企业智能服务对话机器人(云小蜜),从而让每一家企业/组织能够及时响应用户的需求,与用户进行7*24的自然交互。 2015年7月,阿里推出了阿里小蜜,这是一个围绕着电子商务领域中的服务、导购以及任务助理为核心的智能人机交互产品。通过电子商务领域与智能人机交互领域的结合,提升传统电商领域的能效,带来传统服务行业模式的变化与体验的提升。孙健表示,阿里小蜜已经经历了多次双十一海量服务的考验。 Topic 4《人工智能在机对话系统中的技术现状与挑战》 分享嘉宾:北京大学助理教授严睿,博士生导师,前百度公司资深研发,华中师范大学与中央财经大学客座教授与校外导师。主持研发多个开放领域对话系统和服务类对话系统,发表高水平研究论文近50篇,担任多个学术会议(KDD, IJCAI, SIGIR, ACL, WWW, AAAI, CIKM, EMNLP等)的(高级)程序委员会委员及审稿人。 在三位工业界专家的精彩演讲之后,严睿站在学术界的角度分享了人机交互的研究现状及成果。严睿认为,虽然现在人机对话系统产品已经逐渐渗透到大众生活中,但行业实际上并没有媒体鼓吹的那么美好,几乎所有的人机交互应用都不能实现真正的自然交互,无论是学术界还是工业界都有很长的路要走。 现场观众与嘉宾互动 PS:本次活动的PPT及视频回顾将在本周上线,敬请期待!
Kirell Benzi, Vassilis Kalofolias, Xavier Bresson and Pierre Vandergheynst Signal Processing Laboratory 2 (LTS2), Swiss Federal Institute of Technology (EPFL) 代码参见:https://github.com/hxsylzpf/recog 摘 要 本文正式地形式化一个全新的的歌曲推荐算法,其将歌曲推荐的问题转化为矩阵补全的问题来考虑,并通过基于非负矩阵分解(non-negative matrix factorization, NMF)的协同过滤算法以及图上的结合图的全变分(total variation, TV)的基于内容的过滤方法相结合来解决这个问题。相关的图通过使用音频、元数据以及社交特征等丰富的信息的结合,对歌单的邻接信息以及歌曲的相似度信息进行编码。我们证明,我们提出的这个融合了几种知名的方法的混合推荐系统,有着广阔的应用前景,并在效果上超过融合的相关算法。通过在真实数据上进行的实验,我们证实了我们的模型能仅仅根据低秩矩阵的信息或者基于图的信息以及两者的结合进行歌曲的推荐。 关键字:推荐系统,图,非负矩阵分解,全变分,音频特征 一 引言 在 Netflix上推荐电影,在Facebook上推荐好友,或者在LinkedIn上推荐工作等任务在过去几年中吸引了越来越多的关注。大部分Netflix奖的获得者喜爱用的著名的低秩矩阵分解算法需要明确的用户评级作为输入。一些其他相似的方法则通过用户对物品的操作来反映用户对物品的偏好,以致力于解决用户的不明确的反馈问题。具体到歌曲和歌单推荐问题,也已经有了各种不同的方法,其中既有单纯的基于内容的方法,也有各种混合的模型。最近,图的正则化被提出,用来提高矩阵补全算法的效果。 本文的主要贡献在以下几个方面: l 设计并实现了一个数学上的融合协同过滤以及内容过滤的声音混合系统; l 介绍了一个新的图正则化项(TV),在推荐系统的背景下,其效果要优于广泛应用的 Tikhonov 正则化; l 一个良好定义的基于近端分裂方法的迭代优化模式。 大量的实验证明我们提出的推荐系统具有很好的表现。 二 本文的歌曲推荐算法 1. 歌曲推荐算法 假设我们有n个歌单,每个列表都包含m首歌中的其中一部分。我们定义矩阵C∈{0,1}n×m,矩阵中的元素 Cij 为 1 则表示歌单 i 中包含歌曲 j,否则为 0。我们再定义一个权重矩阵Ω∈{0,1}n×m,当输入的 Cij 可能为 1 时,Ωij=1,否则等于一个很小的值 ε(我们使用的 ε=0.1)。这里应用了不明确反馈问题的思路。在矩阵 C 中一个元素为 0 不代表这首歌与这个歌单无关,而是更可能不相关。 训练阶段的目标是找到一个近似的低秩表示,使AB ≈ C,其中A ∈ R+n×r,B ∈R+r×m都是非负的,且 r 很小。这个问题被称为非负矩阵分解(NMF),并引起了广泛的关注。相比其他的矩阵分解方法,NMF 由于只使用了加性因子,能够学习到物体(本文中即为歌单)的各个部分。NMF 的方法的缺点是其为 NP-hard。所以对于找到一个局部最小点来说正则化使很重要的。在我们的问题中,我们使用歌曲和歌单的图来确定因子 A 和 B。我们模型的公式计算如下: (1) 其中(∘)代表点级别的乘法运算符,θA, θB∈R+。我们使用一个加权 KL 散度作为 C 和 AB 之间距离的衡量,有研究表明对于不同的 NMF 设置,这比Frobenius 范式更为准确。公式中的第二项是歌单图中 A 的行的全变分,所以对其进行惩罚就提升了分段恒定信号。公式中的第三项与第二项类似,是 B 的列的全变分。最终我们提出的模型利用了参考文献[9, 16],并利用 TV 半范式将其扩展到图。 1.1 利用全变分进行图的正则化 在我们基于 NMF 的推荐系统中,每个歌单 i 都被矩阵 A 中的第 i 行 Ai 投影到一个低维空间。为了学习到歌单 Ai 的低秩的表示,我们通过歌单的低秩表示,定义歌单之间成对的相似度ωAii’。我们可以从 TV 正则化项的定义中推导出, ‖A‖TVA= ∑i∑i’~ iωAii’‖Ai-Ai’‖1所以当两个歌单 i 和 i'是相似的,那么它们在图中则是连通的,且连接这两个歌单的边的权值ωAii’很大(这里ωAii’≈ 1)。另外,相应的低维向量表示(Ai,Ai’)间的距离过大就会被惩罚,这使得在低维空间中,(Ai,Ai’)的距离会保持较近。同理,每首歌 j 都由矩阵 B 中的一列 Bj 表示到一个低维空间。如果两首歌(j,j’)很接近(ωBii’′≈ 1),那么(Bj,Bj’)以及图的正则化‖B‖则遵循上述的规律。 参考文献[10]的思路与本文相似,通过 Tikhonov 正则化将图的信息引入到模型中,例如通过 Dirichlet 能量项1/2∑i∑i’~ iωAii’‖Ai-Ai’‖22。然而这种方法促进了A 的列之间平滑的变化,而本文的方法图的 TV 项的惩罚则促进了在列 Ai 和 Ai’间具有潜在的突变边缘的分段恒定信号。这对于需要寻找多个类别的任务是有益的,例如聚类,或者本文中的推荐系统所涉及的相似歌单属于不同的目录的情况。 我们在第 4 部分会详细分析,歌曲和歌单的图的使用可以显著的提升推荐效果,且 TV 项的表现要比 Tikhonov 正则化更好。 1.2 原始-对偶优化 对于矩阵 A 和 B 来说,优化问题是全局非凸,但是各自凸的。一个常用的方法是固定 A 去优化 B,然后再固定 B 去优化 A,反复直到收敛。我们这里以固定 A 而优化 B 为例来描述上述优化方法。相同的方法可以在固定 B 时应用于A。我们将上述问题重新写为如下形式: F(AB) + G(KBB) (2) 其中 F(AB)=KL(Ω∘(C‖AB)) =(âΩijCij(log)+Ωij(AB)ij (3) (4) 其中KB∈Rne×m是图的梯度算子,ne 是图 B 中的边的条数。使用函数 F 和G 的共轭函数 F*和 G*,则等价于鞍点问题: (5) 其中Y1 ∈ Rn×m,Y2 ∈ Rne×r。我们定义最近项和时间间隔 σ1,σ2,τ1,τ2: (6) 迭代的方式是,当 k≥0 时: Y1K+1 = proxσ1F∗(Y1K+ σ1ABK) (7) Y2K+1 = proxσ2G∗(Y2K+ σ2KBBK) (8) BK+1=(BK-τ1ATY1K+1-(KTBY2K+1)T)+ (9) 其中 prox 是最近算子,(∙)+ = max(∙, 0)。在我们的问题中,我们选择了标准Arrow-Hurwicz 时间间隔σ1 =τ1 = 1⁄‖A‖,σ2 =τ2 = 1⁄‖K‖,其中‖∙‖是算子范数。 则最近解为: (10) 其中 shrink 即为软缩减算子。注意到,同样的算法也可以应用于 Tikhonov正则化,例如,通过将上面的第一个式子改为proxσ2G*(Y)=Yï¼å°±å¯ä»¥å°âKBBâ1æ¿æ¢ä¸ºG(KB B) = ‖KBB‖22。在式(10)中的正则化使用的是 KL 散度的一个对称变形,但是与我们使用的这种方法不同的是,Tikhonov 正则化不存在解析解。所以其目标函数并不像我们的一样满足一个有效的原始-对偶优化方法。我们保留这种非对称的 KL 模型,并称其为 GNMF,来将 TV 与 Tikhonov 正则化进行比较。 1.3 推荐歌曲 我们通过式(1)学到矩阵 A 和 B 之后,我们希望已知一些歌曲 cin 时(如图 1-1),能够推荐新的歌单 crec。我们也希望能实现实时的推荐,于是我们定义一个快速推荐方法如下: 图1-1 我们的播放清单推荐系统结构 给定一些歌曲 cin,我们先通过解决一个正则最小平方问题来在歌单的低秩空间学习一个好的表示:ain=arg min a∈R1×r||Ωin。(cin-aB)||22+ε||a||22。其解析解ain=(BTΩinB+εI)-1(BTΩincin)当 r 很小时较容易计算(我们令ε = 0.01)。 与给定的歌单有相似表示的歌单也对于我们推荐歌单有益。所以在低维空间中,我们用加权和arec=Σni=1ωiAi/Σni=1ωi来表示被推荐的歌单。这里权重ωi=e-||ain-Ai||22/σ2, 取 决 于 与 其 他 歌 单 的 表 示 的 距 离ain, 且 σ =mean({||ain-Ai||2}ni=1)/4。最终推荐歌单的低秩表示为: crec=arecB (11) 这里crec并不是二元的,而是一个连续的值,表示歌的排名。 2.歌曲和歌单的图 2.1 歌单的图 歌单的图中包含了歌单间成对的相似度信息。图的节点为歌单,边的权重表示了两个歌单之间的距离,当权重很大时(ωAii’ ≈ 1),表示两个歌单具有很高的相似度。在我们的模型中,歌单图中边的权重的计算不仅与外部信息例如元数据有关,还与内部信息有关,例如歌单中的歌曲信息。我们使用预定义好的 Art of the Mix 歌单分类来标注用户的歌单。则歌单的图中边的权重的计算定义为 ωAii’=Υ1δcat{i}=cat{i’}+Υ2simcos(Ci,Ci’) 其中 cat 表示歌单的标签,Ci是矩阵 C 的第 i 行simcos(p,q)= pTq/||p||.||q||是两个歌单的歌曲向量之间的余弦相似度距离。余弦相似度为两首歌相似的比例比上两个歌单长度乘积的均方根。两个正的参数Υ1和Υ2满足Υ1 + Υ2 = 1,用于决定歌单标签的相似度和歌单元素级别的相似度之间的相对重要程度。为了控制每个分类的边缘概率密度并让我们的模型更灵活,我们在同一个分类的节点之间保留 20%的边的一个子集。在实验中我们发现,令Υ2 = 0.3能获得较好的效果。 歌单图的效果通过使用标准 Louvain 方法对图进行分割进行衡量。分块的数目由在模块最大的地方切开形成的模块化系数的树图自动给出。第 4 节使用的图的模块化系数在使用只余弦相似度(Υ2 = 0)时为 0.63。如果我们加入元数据的信息,将每个分类下所有歌单对中的 20%进行连接,并令Υ2 = 0.3,则模块化系数增长到 0.82。 2.2 歌曲的图 我们模型中使用的第二个图是歌曲的相似度图。歌曲的图由从音频信号中抽取的 Echonest 特征与元数据信息结合以及音轨的社会信息混合组成。表 2-1 给出了用于构建歌曲图所使用到的特征。 表2-1 用于生成歌曲的图的特征 为了提高我们的音频特征的质量,我们使用从 LastFm 相关标签中抽取的歌曲类型训练了一个大间隔最近邻模型(Large Margin Nearest Neighbors,LMNN)。为了抽取到真实的音乐类型,我们使用了这些标签经过其流行度(根据 LastFm)加权的 Levenshtein 距离以及 ID3 标签中定义的音乐类型。 最终,我们用 k 近邻(k=5)来构建歌曲的图,其中,对于 j 的 k 个最近邻中的一首歌 j’,两首歌 j 和 j’之间的边的权重ωBjj’=exp(-||xj-xj’||1/σ),参数σ是尺度参数,表示 k 个邻居之间距离的平均值。得到的图的模块化系数很高(0.64),使用 k-NN 进行非监督的准确率为 65%左右。 3. 实验结果 在这部分,我们通过在一个真实数据集上进行实验,将我们的模型与其他 3个不同的推荐系统进行比较。我们的测试数据集是从由 McFee 等构建 的 Art of the Mix 语料库中抽取的。我们之前就是在这个数据库中抽取了上述的特征。 评价一个音乐推荐系统是一个众所周知的难题。在本文中,我们使用一个经典的评价使用间接反馈的推荐系统的模型的方法,Mean percentage Ranking(MPR)以及歌单分类准确度,即在查询的分类中,过去已经出现过的歌单中的歌曲的百分比。 3.1 模型 我们先将我们的模型与一个只基于图的方法(我们称为 Cosine only)进行比较。对于给定输入,这个模型使用余弦相似度计算 t 个最接近的歌单(这里 t=50),通过将歌单中的所有歌曲用余弦相似度进行加权从而计算出一个柱状图进行推荐,如式(11)所示。第二个模型是使用了 KL 散度的 NMF,我们成为 NMF。最后一个模型 GNMF 是基于使用了 Tikhonov 正则化的 KL 散度,并应用了我们模型中的图。 3.2 查询 我们用 3 种不同的查询来测试我们的模型。在所有 3 种查询中,一个查询ctest包含 s=3 首歌作为输入,系统以一个歌单的形式返回最相近的 k=30 首歌作为输出。第一种查询为随机查询,从所有类别的歌中随机选择歌曲,其结果仅作为比较的基准。第二种测试查询,在测试集中的一个歌单中随机选择 3 首歌。第三种采样查询,在一个类别下随机选择 3 首歌。这种查询模拟了用户通过歌曲类别查询歌单的推荐系统。 3.3 训练 我们使用从所有歌单中随机选择出 70%的子集作为训练集,由于我们的模型不是联合凸的,初始化可能会对系统的表现产生影响,所以我们使用现在常用的 NNDSVD 技术来得到一个好的近似解。在我们的所有实验中,r=15 的结果很好,这意味着每行都有 5-20 个非零元素。最好的参数θA = 18以及θB= 1使用了网格搜索的方法。为了防止过拟合,我们在验证集的 MPR 刚停止增长的时候就使用提前停止的方法。 3.4 验证集 我们通过人工的在不用的歌单类别中进行查询的方法来构建验证集中的歌单。对于每个类别,我们在之前已经在用户创建的标注了类别的歌单中出现的歌曲中随机的选择 s=3 首歌。 3.5 结果 模型的结果,即不同模型的歌单分类准确率和 MPR 我们列在表 3-1 和表 3-2 中。如我们所预料的,对于随机查询,所有的模型都不能根据输入的歌曲返回歌单,而且使用了协同滤波同时没有假如图信息的 NMF 表现很差。这可以理解为是数据集的稀疏性造成的,数据集每行只含有 5-20 个非零元素,稀疏度只有 0.11-0.46%。协同过滤模型在有越多的观察到的等级时的表现越好,cosine 模型在类别准确率上表现更好,因为它直接使用了输入歌曲和歌单之间的余弦距离。然而,它的 MPR 说明即使状况很复杂,我们的模型在歌曲推荐时表现的更好。 表3-1 所有模型对不同类别的类别查询准确度 表3-2 所有模型对不同类别的查询的平均准确度排名(MPR) 图 3-1 测试集上每个播放清单类别的MPR 4. 结论 在这篇论文中我们介绍了一个新的灵活的歌曲推荐系统,这个系统结合了歌单的协同过滤信息以及图中包含的歌曲相似度信息。我们使用一个基于原始-对偶的优化模式来得到一个高度并行的、可以用来处理大型数据集的算法。我们选择图的 TV 而不是 Tikhonov 正则化,并通过将我们的系统与 3 个不同的算法在真实的音乐歌单数据集上做比较,展示了我们模型的良好的实验效果。 参考文献 Bach, F.; Jenatton, R.; Mairal, J.; and Obozinski, G. 2012. Optimization with sparsity-inducing penalties. Foundations and Trends in Machine Learning 4(1):1–106. Byrne, S., and Girolami, M. 2013. Geodesic Monte Carlo on embedded manifolds. Scandinavian Journal of Statistics 40(4):825–845. Casella, G. 2001. Empirical Bayes Gibbs sampling. Bio-statistics 2(4):485–500. Dobigeon, N., and Tourneret, J.-Y. 2010. Bayesian orthogonal component analysis for sparse representation. IEEE Transactions on Signal Processing 58(5):2675–2685. Fazel, M. 2002. Matrix rank minimization with applications. Ph.D. Dissertation, Stanford University. Goldberg, K.; Roeder, T.; Gupta, D.; and Perkins, C. 2001. Eigentaste: A constant time collaborative filtering algorithm. Information Retrieval 4(2):133–151. Griffiths, T. L., and Ghahramani, Z. 2011. The Indian buffet process: An introduction and review. Journal of Machine Learning Research 12:1185–1224. Hastie, T.; Mazumder, R.; Lee, J.; and Zadeh, R. 2014. Matrix completion and low-rank SVD via fast alternating least squares. arXiv preprint arXiv:1410.2596. Hoff, P. D. 2009. Simulation of the matrix Bingham–von Mises–Fisher distribution, with applications to multivariate and relational data. Journal of Computational and Graphical Statistics 18(2). James, I. M. 1976. The topology of Stiefel manifolds, volume 24. Cambridge University Press. Lim, Y. J., and Teh, Y. W. 2007. Variational Bayesian approach to movie rating prediction. In Proceedings of KDD Cup and Workshop, volume 7, 15–21. Citeseer. Marlin, B. 2004. Collaborative filtering: A machine learn- ing perspective. Ph.D. Dissertation, University of Toronto. Mazumder, R.; Hastie, T.; and Tibshirani, R. 2010. Spectral regularization algorithms for learning large incomplete matrices. Journal of Machine Learning Research 11:2287– 2322. Rennie, J. D., and Srebro, N. 2005. Fast maximum margin matrix factorization for collaborative prediction. In International Conference on Machine Learning, 713–719. Salakhutdinov, R., and Mnih, A. 2008. Bayesian probabilistic matrix factorization using MCMC. In International Conference on Machine Learning. Srebro, N.; Rennie, J.; and Jaakkola, T. S. 2004. Maximum-margin matrix factorization. In Advances in Neural Information Processing Systems, 1329–1336. Stiefel, E.1 1935. Richtungsfelder und fernparallelismus in n-dimensionalen mannigfaltigkeiten. Commentarii Mathematici Helvetici 8(1):305–353. Todeschini, A.; Caron, F.; and Chavent, M. 2013. Probabilistic low-rank matrix completion with adaptive spectral regularization algorithms. In Advances in Neural Information Processing Systems, 845–853. Xu, M.; Zhu, J.; and Zhang, B. 2012. Nonparametric max-margin matrix factorization for collaborative prediction. In Advances in Neural Information Processing Systems, 64–72. Xu, M.; Zhu, J.; and Zhang, B. 2013. Fast max-margin matrix factorization with data augmentation. In International Conference on Machine Learning, 978–986.
“在爱因斯坦诞辰这天,霍金去世了。” 根据外媒报道,著名物理学家斯蒂芬·威廉·霍金(Stephen William Hawking)去世,享年76岁,霍金的家人已经确认了这一消息。 1942年1月8日,霍金出生于英国牛津,他被誉为继爱因斯坦之后最杰出的理论物理学家。霍金生前一直致力于研究宇宙论和黑洞,并证明了广义相对论的奇性定理和黑洞面积定力,提出了黑洞蒸发理论和无边界的霍金宇宙模型,他获得了CH(英国荣誉勋爵)、CBE(大英帝国勋章)、FRS(英国皇家学会会员)…... 当然,霍金之所以伟大,还因为他有一段传奇般的人生。 也许鲜有人知道,霍金出生当天正好是伽利略逝世300年忌日,同时这也是英国最动荡的时期。1942年1月,纳粹德军几乎夜夜不停地轰炸伦敦。这迫使霍金一家搬离海格特的家园迁到牛津避难。他们在霍金诞生后又回到了伦敦。童年时的霍金学业成绩并不突出,但他喜欢设计极为复杂的玩具,据说他曾用一些废弃用品做出一台简单的电脑。 童年霍金 但就是看似平凡的少年,却从17岁开始了他的传奇人生。 1959年17岁的霍金考入牛津大学,攻读自然科学,用了很少时间而得到一等荣誉学位,随后转读剑桥大学研究宇宙学。 大学时期的霍金 1963年,21岁的他不幸被诊断患有肌肉萎缩性侧索硬化症即运动神经细胞病。时,医生曾诊断身患绝症的他只能活两年,可他一直坚强地活了下来。 1965年,23岁时他取得了博士学位留在剑桥大学进行研究工作。 1973年,他考察黑洞附近的量子效应,发现黑洞会像天体一样发出辐射,其辐射的温度和黑洞质量成反比,这样黑洞就会因为辐射而慢慢变小,而温度却越变越高,最后以爆炸而告终。黑洞辐射或霍金辐射(包括de Sitter空间中的霍金辐射)的发现具有极其基本的意义,它将广义相对论、量子场论和热力学统一在一起,其为弯曲时空中的量子场论。1973年以后,他的研究转向了量子引力论。虽然人们还没有得到一个成功的理论,但是它的一些特征已被发现。例如,空间-时间在普朗克尺度下不是平坦的,而是处于一种粉末的状态。在量子引力中不存在纯态,因果性受到破坏,因此使不可知性从经典统计物理学、量子统计物理提高到了量子引力的第三个层次。 1980年以后,霍金的兴趣转向了量子宇宙论,提出了能解决宇宙第一推动问题的无边界条件。2004年7月,他承认了自己原来的“黑洞悖论”观点是错误的。《时间简史》的副题是从大爆炸到黑洞。史蒂芬·威廉·霍金认为他一生的贡献是在经典物理的框架里,证明了黑洞和大爆炸奇点的不可避免性,黑洞越变越大,但在量子物理的框架里,他指出,黑洞因辐射而越变越小,大爆炸的奇点不断被量子效应所抹平,而且整个宇宙空间正是起始于此。理论物理学的细节在未来的20年中还会有变化,但就观念而言,已经相当完备了。 1985年,他因患肺炎做了穿气管手术,被彻底剥夺了说话的能力,演讲和问答只能通过语音合成器来完成。 1985年,第一次来到中国,到中国科技大学和北京师范大学访问。在科大水上讲演厅做天体物理的学术报告。 1988年,霍金的科普著作《时间简史:从大爆炸到黑洞》发行,从研究黑洞出发,探索了宇宙的起源和归宿,该书被译成40余种文字,出版逾1000余万册,但因书中内容极其艰深,在西方被戏称为“读不来的畅销书”(Unread Bestseller),有学者曾指这种书之所以仍可以如此畅销,是因为书本尝试解答过去只有神学才能触及的题材:时间有没有开端,空间有没有边界。 2001年10月,又一部作品《果壳中的宇宙》 (The Universe in a Nutshell)出版发行。书是《时间简史》的姐妹篇,以相对简化的手法及大量图解,诉说宇宙起源。 2002年,第二次来中国,在北京、杭州作主题为《膜的新奇世界》(Brane New World)科普报告,向公众阐释他的关于天体演化的“M理论”。 霍金亦试图通过通俗演讲,将自己的思想与整个世界交流,除了常在英国及美国发表演说,他90年代曾两次到访日本。 霍金曾指,大众会好奇一位残障人士,为何会想到这么多宇宙论,令他成了大众媒体的宠儿。事实上,他在《星际迷航(Star Trek)》中的电视系列剧《星际迷航:下一代》中饰演过自己,与爱因斯坦及牛顿一起打桥牌;他亦曾在美国卡通片《辛普森一家》中“演出”,拯救剧中的女孩。其形象也在卡通片《飞出个未来》中的一集里出现。卡通片《居家男人》中则有与其类似的角色(Steve)对其进行了滑稽的模仿。 2006年,他在香港透露正与女儿合撰写一套类似于《哈利波特》、但主题是理论物理学而非魔法的小说。 2006年6月,第三次来中国,他带来的仍然是自己关于宇宙学最新的研究,在香港科技大学体育馆主持一个题为"宇宙的起源"的演讲时,轰动一时,被戏称为受到“摇滚巨星”级的接待。2006年6月19日上午,在人民大会堂向北京的公众讲述《宇宙的起源》。 2009年4月6日,霍金因病取消外访,同月20日因病送院治理,情况欠佳。 2012年1月传出因脸部肌肉恶性萎缩,已严重影响其表达能力,并有可能使他无法发出独特的“电脑声”。 2012年4月6日播出的热播美剧《生活大爆炸》第五季第21集中,史蒂芬·霍金本色出演参与了客串。 2012年,霍金在赵晓凯收藏北京奥运火炬上盖上了两枚金色指纹,并题词:“为了人类长期生存,为了世界和平,我们需要销毁所有核武器”(to ensure the long term survival of the human race we need to disarm all nuclear warheads and promote world peace!)。 2017年为英国BBC录制纪录片《探索新地球》。 2018年3月14日,霍金的生命定格在了76岁。 传奇虽已谢幕,但他对未来的影响还在继续。 编者注:本文部分信息源自百度百科 关于霍金的传奇人生,如果你还有想说的话,请移步至话题:《致敬伟大的科学家史蒂芬·霍金,他留下的预言能实现吗》
最近不少朋友问,“大家都在谈论的人工智能,未来到底是什么样的?” 这其实是一个老生常谈的话题,即便到现在,可能也没人能给出准确的答案。 人工智能已经潜移默化中改变人们的生活方式,这一点毋庸置疑。最明显的改变之一就是交互方式的变化,语音交互、人脸识别、情感识别等正在逐渐取代鼠标、键盘甚至触屏的交互,如果时间再往后推10年,谁也无法预测人工智能还会给人类带来什么。 按照这样的发展趋势,这应该是一个极其梦幻的未来。 当然,人工智能界一直在讨论两种理念,我们今天看到的人工智能依旧很初级,它们的目标是减轻人类智力劳动,业界称之为弱人工智能,而对应的强人工智能又是什么样的呢? 如果你看过类似《机械姬》、《我,机器人》、《黑客帝国》这些关于人工智能题材的电影,你可能会觉得我们现在所看到的人工智能技术并没有大家吹捧的那么高大上。未来的机器应该可以和这些电影中描述的一样,可以和人实现自然的交互,甚至拥有情感。但问题是,如果真像电影那般,机器人有情感会伪装,那势必会给社会造成恐慌。对此,南京大学教授、ACM/AAAS/AAAI/IEEE/IAPR Fellow周志华不久前撰文表示,“对于严肃的人工智能研究者来说,如果真的相信自己的努力会产生结果,那就不该去触碰强人工智能。” 如果强人工智能是一条不可逾越的红线,那么未来人和机器的交互方式会是什么样的呢?云栖社区将于3月31日在北京举办一场《未来人机交互技术沙龙》,届时,来自阿里集团和北京大学的专家将分享他们对于人机交互技术现状的解读和未来展望。 时间:2018年3月31日 地点:北京中关村创业大街3W咖啡 议程: 09:00-09:45——《阿里NUI (natural user interface)-自然语音交互实践的经验和教训》,阿里巴巴机器智能技术实验室高级算法专家高杰 09:45-10:30——《神经网络翻译的进展与实践》,阿里巴巴机器智能技术实验室资深算法专家骆卫华10:30-11:15——《云小蜜智能服务对话机器人的现状和未来展望》,阿里巴巴智能服务事业部资深算法专家孙健11:15-12:00——《人机对话系统》,北京大学计算机科学与技术研究所研究员严睿 议题简介 Topic 1:阿里NUI (natural user interface)-自然语音交互实践的经验和教训 阿里NUI作为面向设备的自然语音交互系统,支持了阿里巴巴集团内外各种移动设备上的语音助手和自然语音交互系统的构建,包括手机、电视和OTT盒子、汽车等等。在此次演讲中,阿里巴巴机器智能技术实验室高级算法专家高杰将会分享NUI--一个适用于多平台的、具有丰富产品特性的交互系统的架构,并分享在过去中习得的经验和教训。 Topic 2: 神经网络翻译的进展与实践 神经网络翻译技术作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术,并成为目前学术界和工业界研究的热点。目前很多互联网公司也上线了自主开发的神经网络翻译系统或发布了相关产品,但将神经网络翻译落地真实应用场景并非一个简单的过程,其间面临诸多挑战,包括模型选择与优化,搭建面向海量语料的高性能训练平台,加速预测算法以响应高并发请求,以及应对真实需求给标准模型带来的全新挑战等。本次活动,阿里巴巴机器智能技术实验室资深算法专家骆卫华将会介绍神经网络翻译目前在技术上的主要进展,以及在将这些技术付诸实践中所作的探索尝试。 Topic 3: 云小蜜智能服务对话机器人的现状和未来展望 智能人机交互通过拟人化的交互体验已经逐渐在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。2015年7月,阿里也推出了自己的智能私人助理-阿里小蜜,这是一个围绕着电子商务领域中的服务、导购以及任务助理为核心的智能人机交互产品。通过电子商务领域与智能人机交互领域的结合,提升传统电商领域的能效,带来传统服务行业模式的变化与体验的提升。 如今,阿里小蜜已经问世了2年多,也经历了多次双十一海量服务的考验,阿里巴巴智能服务事业部资深算法专家孙健将为大家介绍全面介绍这款人机交互产品的现状。 Topic 4: 人工智能在人机对话系统中的技术现状与挑战 近年来,自动人机对话系统在学术界和工业界都获得了相当大的关注度,随着微软小冰百度度秘阿里小蜜等产品的发布,以及大量人工智能公司的建立,这些对话系统背后的技术在逐步积累,也逐步解密。随着研究者的探索愈发深入,人们看到了一个对话系统逐渐从科幻电影中走进现实生活的可能。在讲座中,我将回顾人机对话的发展历程,以及随着深度学习技术盛行之后,由数据驱动模型带来的革命性改变。讲座将从人机对话的已有应用出发,再分析现有对话系统的不足,展望下一代人机对话系统的挑战。同时会分享我们组在人机对话研究所做的努力与探索,以及相应的代表性成果。 报名传送门
随着语音交互、自然语言处理、多模态等技术的发展,人机交互方式已经变得越来越简单,目前人机交互也已经成为当下最热的研究方向之一。但是平心而论,作为人工智能领域的核心技术,现有的交互技术与大家憧憬的人工智能终极形态依旧有较大的差距... 毫不夸张的说,人机交互未来的发展方向已是业界关注的焦点!为此,云栖社区将于2018年3月31日在北京中关村创业大街3W咖啡举办一场《未来人机交互技术沙龙》,届时将有4位行业顶级专家对人机交互技术进行全方位的解读,议题如下: 09:00-09:45——《阿里NUI (natural user interface)-自然语音交互实践的经验和教训》,阿里巴巴机器智能技术实验室高级算法专家高杰 09:45-10:30——《神经网络翻译的进展与实践》,阿里巴巴机器智能技术实验室资深算法专家骆卫华 10:30-11:15——《云小蜜智能服务对话机器人的现状和未来展望》,阿里巴巴智能服务事业部资深算法专家孙健 11:15-12:00——《人工智能在人机对话系统中的技术现状与挑战》,北京大学助理教授严睿 看到这里你可能要问了,这四位专家究竟会分享哪些干货呢? 别急,云栖社区小编现在就为大家一一解读。 Topic 1:阿里NUI (natural user interface)-自然语音交互实践的经验和教训 阿里NUI作为面向设备的自然语音交互系统,支持了阿里巴巴集团内外各种移动设备上的语音助手和自然语音交互系统的构建,包括手机、电视和OTT盒子、汽车等等。在此次演讲中,阿里巴巴机器智能技术实验室高级算法专家高杰将会分享NUI--一个适用于多平台的、具有丰富产品特性的交互系统的架构,并分享在过去中习得的经验和教训。 Topic 2: 神经网络翻译的进展与实践 神经网络翻译技术作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术,并成为目前学术界和工业界研究的热点。目前很多互联网公司也上线了自主开发的神经网络翻译系统或发布了相关产品,但将神经网络翻译落地真实应用场景并非一个简单的过程,其间面临诸多挑战,包括模型选择与优化,搭建面向海量语料的高性能训练平台,加速预测算法以响应高并发请求,以及应对真实需求给标准模型带来的全新挑战等。本次活动,阿里巴巴机器智能技术实验室资深算法专家骆卫华将会介绍神经网络翻译目前在技术上的主要进展,以及在将这些技术付诸实践中所作的探索尝试。 Topic 3: 云小蜜智能服务对话机器人的现状和未来展望 智能人机交互通过拟人化的交互体验已经逐渐在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。2015年7月,阿里也推出了自己的智能私人助理-阿里小蜜,这是一个围绕着电子商务领域中的服务、导购以及任务助理为核心的智能人机交互产品。通过电子商务领域与智能人机交互领域的结合,提升传统电商领域的能效,带来传统服务行业模式的变化与体验的提升。 如今,阿里小蜜已经问世了2年多,也经历了多次双十一海量服务的考验,阿里巴巴智能服务事业部资深算法专家孙健将为大家介绍全面介绍这款人机交互产品的现状。 Topic 4: 人工智能在人机对话系统中的技术现状与挑战 近年来,自动人机对话系统在学术界和工业界都获得了相当大的关注度,随着微软小冰百度度秘等产品的发布,以及大量人工智能公司的建立,这些对话系统背后的技术在逐步积累,也逐步解密。随着研究者的探索愈发深入,人们看到了一个对话系统逐渐从科幻电影中走进现实生活的可能。在讲座中,我将回顾人机对话的发展历程,以及随着深度学习技术盛行之后,由数据驱动模型带来的革命性改变。讲座将从人机对话的已有应用出发,再分析现有对话系统的不足,展望下一代人机对话系统的挑战。同时会分享我们组在人机对话研究所做的努力与探索,以及相应的代表性成果。 以上就是本次活动议题的相关信息,如果你也对人机交互技术感兴趣,赶紧点击报名吧,报名通道!
自2015年底成立至今,云栖社区现已在云计算、大数据、人工智能、移动开发、VR/AR、研发管理等技术领域积累了上百万内容,通过博客、论坛、直播、线下会议等服务方式,每天帮助数十万开发者成长与进阶。我们相信每一位专家的专业度,也尊重每一位博主的劳动成果,感谢每天在云栖社区分享干货的技术人! 当然,云栖社区是一个开放的平台,为了能帮助越来越多的技术人,让技术内容发挥更大的价值,即日起,云栖社区将持续举办云栖博主引路人活动,提供丰厚的奖品,诚邀各位一起,寻找更多的战友。 本次活动正在进行中,活动信息如下(详情请查看活动页面https://yq.aliyun.com/blog/transfer/event): 参与方式 选择你喜欢奖励方式参与并获取邀请码; 邀请其他网站你认识的博主将内容同步到社区,切记需要在对应的位置键入邀请码; 受邀博主通过https://yq.aliyun.com/blog/transfer搬家页面进行内容同步申请,并在对应的位置键入邀请码; 云栖社区对申请进行审核,通过后系统会自动同步内容(同步成功时间最迟+2 Day); 用户持续邀请,并累计战果,云栖社区将按结束当天(2018年1月14日)23:59分的邀请情况为用户颁发奖品; 奖励在活动结束两周内寄出; 奖励方式 通过累计博主邀请数量获得奖励;一等奖,邀请博主中内容同步数量>50篇超过100个;二等奖,邀请博主中内容同步数量>50篇超过60个;三等奖,邀请博主中内容同步数量>50篇超过30个;四等奖,邀请博主中内容同步数量>50篇超过20个;五等奖,邀请博主中内容同步数量>50篇超过10个;六等奖,邀请博主中内容同步数量>50篇超过4个。 通过累计文章迁入数量获得奖励;一等奖,邀请博主同步内容>10000篇;二等奖,邀请博主同步内容>6000篇;三等奖,邀请博主同步内容>3000篇;四等奖,邀请博主同步内容>2000篇;五等奖,邀请博主同步内容>1000篇;六等奖,邀请博主同步内容>400篇; 活动奖品 奖品种类:6个 一等奖:Apple iPad 平板电脑 9.7英寸(32G WLAN版/A9 芯片/Retina显示屏/Touch ID 二等奖:亚马逊 Kindle Paperwhite 电子书阅读器 全新升级版 6英寸电子墨水触控显示屏 wifi 黑 三等奖:罗技(Logitech)MX MASTER 蓝牙鼠标优联双模无线鼠标 四等奖:ikbc c87 樱桃轴机械键盘 87键原厂Cherry轴 白色 红轴 五等奖:爱科技(AKG)K420 头戴式耳机 折叠便携式手机耳机 重低音 通用 音乐耳机 经典蓝色 六等奖:小米(MI) 10000毫安 移动电源2/充电宝 双向快充 银色 适用于安卓/苹果/手机/平板等
农历新年前,云栖社区专门为在读大学生/研究生准备一份学(huan)习(zhuang)攻略也已经,而现在寒假已经结束,活动共有近两百名学生报名,一共收到了700余篇干货文章,当然,在针对所有活动文章的盘点过程中,我们也发现不少文章并没有达到活动奖项的要求(相关要求请查阅活动详情:新年大招,你的装备升级了吗?),例如字数不够,内容不够充实等等...但不论如何,相信所有参与本次活动的同学都度过了一个充实并且有意义的寒假。 言归正传,鉴于文章发布截止日已到,本次活动的各奖项也将逐一公布啦! 获奖公布: 分享达人:night李、kissjz 优秀博文: NLTK基础教程学习笔记(二) PV 24037,博主:night李 ssm整合配置实例 PV 20476,博主:欧小明 算法学习之路|数位dp简要分析 PV 12278,博主:kissjz 机器学习入门|决策树(一) PV 7791,博主:kissjz ResNet论文复现 PV 7085,博主:veetsin Maven工程建立疑问 PV 7062,博主:欧小明 算法学习之路|拓扑排序 PV 6363,博主:kissjz 主成分分析PCA学习笔记 PV 4944,博主:night李 机器学习入门|决策树(二) PV 4441,博主:kissjz NLTK基础教程学习笔记(一) PV 3690,博主:night李
上海作为全球最繁华的都市之一,其城市轨道交通极其发达。然而现有的地铁线路网络复杂,购票步骤繁琐,难以满足乘客智能化、自动化语音购票的强烈需求。基于此诉求,阿里巴巴达摩院携手上海地铁,开展地铁语音售票概念机研制,通过完全自然的语音交互,实现了乘客指定站点购票、模糊地名查询购票等操作,为市民提供智能、高效的购票服务。 本文邀请到iDST智能语音交互团队负责人鄢志杰,与其深入探讨了下一代语音人机交互方案背后的项目背景、技术解读、功能实现、落地应用等细节问题(鄢志杰将在云栖社区主办的云栖大会北京峰会开发者进阶专场上进行分享,对人工智能、智能语音交互技术感兴趣的读者可以来现场与专家互动)。 阿里巴巴iDST智能语音交互负责人鄢志杰 项目背景 作为全球最繁华的都市之一,上海的城市轨道交通工作日客流量超过1100万,位居全国之首,世界第二;截至目前,上海地铁已有16条线路、374个站点,线路总长617公里(含磁悬浮),而预计到2020年将达到800公里。如此繁重的客流压力下,自然带来了技术升级的智能化购票需求。 鄢志杰表示,以往乘客需要依次选择线路、站点、购票张数,购票步骤极为繁琐;而且在乘客事先无法得知具体线路和站点的情况下,只知目的地却不知应坐到哪一站、如何换乘。阿里巴巴与上海申通地铁签署的全面合作战略协议,就是要将阿里巴巴全球前沿的人工智能和大数据技术落地上海地铁,推出能让市民以免唤醒的自然人机交互方式实现在地铁售票机上快速、便捷的购票操作,这些操作包括指定站名或票价购票、目的地模糊搜索购票等功能。 事实上,阿里巴巴在智能语音交互技术上的投入已有数年,目前已形成了杭州、北京、西雅图、硅谷、新加坡五地联动的实验室布局;并且随着达摩院的成立,越来越多的人才正加速向阿里巴巴集聚。上海地铁语音售票机正是源于iDST语音团队此前一个略带神秘感的秘密孵化项目——来自麦克风阵列硬件、语音信号处理、计算机视觉、语音识别和对话系统的科学家们在一次头脑风暴中,判断出若将某些技术做重点攻关、辅以多模态融合及全链路端到端的集成优化,有可能突破真实嘈杂环境下远场语音识别的技术瓶颈。一开始,只有很少的“特种部队”投入到关键技术的研发,这其中就包括此前刚刚加入iDST西雅图实验室的冯津伟博士,前Polycom(宝利通)首席工程师;同时,另一位iDST的计算机视觉大牛任小枫所领导的团队,也为该项目提供了多目标人脸检测和跟踪技术。 “这个孵化项目在取得初步研究成果后,正巧遇到了上海地铁集团项目。”鄢志杰谈到,地铁车站内车声、人声、广播声在封闭空间内形成强噪声复杂环境,加上上海地铁的线路复杂性带来的用户购票痛点,是阿里巴巴这项先进技术最好的落地场景和试金石。 技术解读 上海地铁语音售票机使用了达摩院的下一代人机交互方向的最新研究成果,即“多模态智能语音交互解决方案”,它由数个子系统组成,包括大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。 鄢志杰介绍到,整套方案由阿里巴巴iDST自主研发,其中包含了iDST在语音增强、声源定位、人脸和图像识别、远场语音识别、语音合成、自然语言处理、对话管理、多模融合人机交互等方面的最新前沿研究成果。此外,整套系统还深入整合了支付宝的扫码支付,并展示了未来人脸支付在购票场景的应用。同时,充分结合了阿里的高德地图在地理数据方面的优势,实现了围绕地铁的模糊地点购票乘车指引和路径规划——所有的核心技术均为阿里巴巴独家/自有专利技术,并将在后续逐步对外公开。 目前,项目实现的具体功能包括有: 1.公众场所强噪声环境下的高准确率远场语音识别:当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。此次针对地铁强噪声环境,项目首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。并且,针对地铁售票机的时变空间,同时进行本地和云端的动态全链路模型匹配,实现端到端的自适应优化,保障每一次流畅的语音交互。 2.免唤醒主动语音交互:目前市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。上海地铁语音售票机通过“语音+视觉”多模态融合技术,能够自动检测乘客走近售票机的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。 3.支持复杂口语理解并自我进化的对话系统:用户面对机器表达时往往存在语气词、犹豫、停顿、重复等口语化表达,繁琐的多轮询问确认式对话也使得主流的人机交互略显呆板。上海地铁语音售票机能够理解这些口语化表达,并不断从乘客真实对话模式中进行自我进化,变得越来越智能。 “下一代人机交互,是阿里达摩院首批公布的重点研究方向之一。”他表示,其他重点研究方向还包括量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等。 应用前景 历时短短半个月的搭建,目前上海地铁语音售票概念机已在线下展示试用,实施效果也远远超出预期。此次的技术成果,无疑也将为自然人机交互技术打开一片全新的世界。 对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地,而未来阿里巴巴将会将这项技术带入人们的生活,将有望应用于火车站、地铁、机场等公共服务,餐厅、贩卖机、零售店等新零售行业,以及智能前台、交互式导览等企业服务场景中,如餐厅快速点餐机、咖啡售卖机、公司智能前台、商场导览机、机场问询机等等。 作为阿里巴巴技术中台的一股重要力量,iDST在研发新技术的同时,也将新技术在阿里云上进行产品化落地和商业化输出,目前在阿里云的产品集合名称为“ET智能语音交互”,技术成果也已通过阿里云人工智能ET不断对外输出。在语音交互产品方面,阿里iDST研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT设备、互联网汽车、电视、智能音箱等各类终端。此外在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景也有成功应用。 “接下来,阿里会与申通集团一道,将上海地铁语音售票概念机迅速推向实际落地。”最后,鄢志杰如是说。
摘要:12月20日的北京云栖大会上,由云栖社区主办的开发者技术进阶峰会再度开启(报名请戳这里,输入邀请码yqsqz3)。在此之前,我们整理了2017杭州云栖大会开发者技术进阶专场上的精彩分享内容,本文是新浪微博高级架构师谌贻荣的分享内容,他带来人工智能人才技术进阶的心得,他先确立了人工智能的发展思考维度层次,进而分析了想要进阶需要远见和明确自己的志向,重点对人工智能的未来进行畅想并提出知行合一的方法论。 以下是精彩视频内容整理: 层次 在人工智能上我们进步空间到底有多大?在内容广度上,会有DNN、CNN卷积网络、RNN循环神经网络、GAN和RL等;在深度上可以分为两大阶段,一是认知上的了解-理解,一是行动上的应用、改造和创造。越向上的人会越少,比如应用层的从业者就会少一些。 认知层即了解概念、理解原理,应用即将所学及时的付诸于实践,改造即针对问题用自己的理解进行更好的改变,改造变多了累积起来就是一种创造。除此之外,前沿的时间维度也是必要的,深度学习技术在不断地进展,如果没有时间维度而以静止观点去看,很快就会落后,所以必须形成立体空间三维架构。 立志 从我个人来说,大学时期经常会写程序赚点外快,后来觉得许多程序是雷同的,我不禁问我自己,为什么要做这种相似的事情呢?我的成绩也不好,看东西也比别人慢,能否实现自动化呢?我平时也会写许多工具,那么,工具是否也是在浪费时间呢?有没有更快的办法呢? 所以,我联想到自动编程,与之最相近的领域就是自然语言处理,因此我开启了我的硕士求学路。 接触自然语言处理后,我发现人工智能需要做词典、做规则,这不是我追求的东西。于是,我又攻读博士,博士期间我想清楚了智能从何而来,智能是在交流当中产生的,随着技术的进步,技术要提高人的效率,技术要作为人的中介,它使用的层次、概率、比例、宏观和微观,机器占比越高,获得的数据越多,更易于我们优化。真正的智能不在于学界而在于业界,在于服务。 除了自我外,我们还需要有一定的远见。预测未来是很难的事情,但我们仍然要这样做,只有一开始向更高层去看,才能有更大的空间。 人工智能 十年十倍,然后只是一个时代的开始。现在是人工智能的爆发期,那么,人工智能未来是什么样子呢? 我们不妨大胆畅想包括以下几个方面: 1.自动化变成自主化运行,机器可以自主决策一些事情。微博已经取得了一些进展,首先我们有一些脚本报警自动化的过程,其次我们在业务当中有一些自动投稿模型,几乎全部机器自主化投稿。 2.云计算+移动化变成云智能+端智能。阿里云就是典型的云端智能的体现,端上有很大的机会,终端介入世界,比如自动驾驶、眼镜和机器设备,还有机器人组成阵列军队或其它形体,端不是简单的单点端,是一个立体结构,可以是系统、生态甚至世界。 3.感知变成认知: a)机器学习是从数据里面获得一些知识作预测和判断,一些规则体系也会在其中。微博客户端排序使用机器学习,但产品还是会有一些规则体系,如果不了解系统在各个环境下不同的大小不同的规则,说明机器学习做的不够细化。如果只从数据中学得知识是行不通的,规则体系和机器学习的融合才是完整的。 b)多模数据的融合。比如多媒体音频视频,数据库中行为、文本、图像的各种方面可以融合到一块,从感知提升到认知,随着端智能的提高,许多东西汇总到一起进行场景重建,认知就是汇聚感知,辅助决策。 4.迅速模糊的虚拟和现实边界。现在的技术正在模糊虚拟和现实的边界,比如 AR+VR+Simulation for Training or Design,我们仿造世界的样子,在其中训练智能,再将智能用在实际生活当中,还有3D打印+工业制造4.0+等逐步加快了虚拟到现实的速度。5.普惠和垄断相伴而行。数据本身就有垄断的可能,越垄断服务质量越好,大智能即计算+算法+数据+人才+业务一体相伴而行。 知行合一 在战斗中学习,在学习中战斗。认识到某些东西就要拿来做事情,不能指导行动的认知没有意义,不能拓展认知的行动也是徒劳。 知行合一是要加快认知到行动的闭环速度,强调快速反馈,小步快跑,喷泉模型。在做机器学习时候,模型从简单到复杂,快速迭代;为了更快得到结果,数据量从少到多,比如调试一个核心的小代码。知行合一也需要狂热的计算能力需求。 我们的口号是:探索前沿,落地业务。我们需要牢牢的把握前沿,同时也要做好业务的延续。 推荐阅读: 关涛:接手一个6年的平台型系统,我是如何带领团队破局前行的
摘要:12月20日的北京云栖大会上,由云栖社区主办的开发者技术进阶峰会再度开启(报名请戳这里,输入邀请码yqsqz3)。在此之前,我们整理了2017杭州云栖大会开发者技术进阶专场上的精彩分享内容,第一篇是阿里巴巴通用计算平台负责人关涛的分享:演讲内容讲述了他是如何带领团队迎接各种挑战,并从阿里大数据平台Maxcompute开始谈起,重点分享了登月项目带来的挑战以及尝试,最后作了简要总结。 以下是精彩视频内容整理: 阿里巴巴大数据平台的前世今生 MaxCompute是阿里巴巴和阿里云大数据的旗舰计算平台,该平台承接了阿里内部99%存储 + 95%计算,阿里内部所有数据最终都汇集到此平台上;对内用户数为1.4万人,每天作业数为300万+;该平台规模庞大,有超过6万台服务器在四个数据中心10+集群中,具备跨DC调度容灾能力;Maxcompute对外也提供公共云服务,每年大概有200%的业务增长;除了在公共云提供服务,我们还在专有云提供服务。作为大数据旗舰平台,专有云部署到各行各业超过50套,涵盖安全、军工、税务和水利等。 MaxCompute架构如图所示,计算平台接入DataHub数据总线系统,中间是开发套件和数据服务,上层是应用层,所有的数据和运算都落地到此。 上图为Maxcompute作业的简单例子,左侧为SQL作业,中间为SQL作业翻译得到的DAG图,每个方块是由若干个workers作业的stage,不同stage间组成有向无环图,从上向下运行,最终会得到两个输出。右侧为基线作业关键路径列表,当我们真正将一个大数据平台上线后,通常不是由一个作业完成所有工作,是多个作业组合完成的,右图即为其中淘宝商户账单列表。 发展历程 阿里云大数据平台的发展历程如下: 2009.09阿里云成立,开始要做云平台这样的事情; 2010.10自主研发平台开始运行,云计算平台飞天的第一个集群稳定运行,ODPS作为核心运算引擎; 2012.10开始建立统一数据平台,数据统一存储,数据标准统一,数据安全统一管理; 2013具备超大规模海量数据处理能力,单集群规模可以达到5K台服务器; 2014~2015 大数据平台开始日趋成熟,可以支撑双十一海量交易、支撑阿里金融业务创新,开始启动登月项目。 那么,什么是登月?为什么要登月呢? 登月项目是一个统一的过程。登月原因主要有两点: 1. 技术发展初期并不会马上诞生一个平台性系统,一般都是在统一的数据中心和硬件基础上(IaaS),集团存在大大小小数十个垂直计算平台,很难打通; 2. 技术上,阿里集团内部的技术发展路线上曾经是双“强”并立:支撑淘宝、支付宝等业务的以Hadoop为底层的云梯1和支撑阿里云、阿里金融等业务的以自主研发“飞天”及MaxCompute为底层的云梯2,当两个系统都很强大时,就需要做一个统一的平台。 登月是一个“漫长”和“昂贵”的过程。 阿里巴巴集团层面牵头,“登月计划”共有24+个项目,将所有数据、计算和硬件资源统一到一起,涉及阿里巴巴和小微金服所有的事业部,覆盖集团全部数据人员,其牵扯人员、资源之多,在集团内部罕见。 2014年1月9日,【登月计划】核心团队正式Kick Off,2015年6月30日,【登月计划】项目集正式Close,历时一年半。 统一后打造了集团统一的大数据平台,其特点体现在安全性、可管理、能开放。 安全性:不仅仅是ODPS本身产品的安全特性,登月过程中还启动并执行了数据分级打标、数据脱敏、ODPS授权流程、虚拟域接入在云端查询版…… 可管理:数据管理平台不断优化,统一任务调度中心、统一数据同步工具、统一数据地图管理、统一生命周期; 能开放:开放数据处理服务( MaxCompute )作为云产品家族的一部分正式开放给全社会使用…… 四个挑战和尝试 我们的团队面临了许多挑战,具体总结为以下四部分: 挑战一:稳定性 稳定性是首先要接受考验的,偶尔会发生集群级别不可用、部分作业系统原因失败等问题,也会有数据永久丢失的可能,当时我们该做的测试也做了(比如UT,FunctionalTest,回归测试,基于真实数据脱敏的模拟测试集合)。但是由于业务非常复杂,系统非常复杂,完全靠测试穷举不能完全覆盖。而且功能上线时间点不可控(质量问题会导致回滚),团队疲于救火。 我们对故障原因进行了分析,发现真正的不稳定因素70%来自于变更,也有硬件、用户作业触发等导致的。对此,我们使用互联网在线测试方式进行了如下尝试: 1. 我们做了线上端到端数据正确性校验机制,可以使得“沉默的”正确性问题马上被发现,我们称为DQC,它可以让用户定制很多规则; 2. Playback + Flighting,线下测试不能把所有case都覆盖到,我们可以把用户跑得所有作业都记录下来,比如让系统同时跑多个版本,可以把跑过的作业在线上重新跑一次,将以前结果和计算出来的结果作对比,通过线上验证的方式查看系统稳定性; 3. 基于平台做灰度发布,通过先切1%不重要的流量方式一步步把系统掀过来,避免震荡带来影响; 4. 我们把专门的稳定性团队拆成全员值班制度,让所有开发人员去线上看客户的问题,切身体会客户情况。 通过以上尝试,我们的故障分在2017年收敛了4倍左右,在专有云领域,我们被评为最稳定的产品,团队对发布更有信心,相对更准时。 挑战二:业务增长超过资源投入 数据爆炸真实的发生在阿里巴巴,如何在有限硬件投入的情况满足每年100%+的计算能力的增长?更深层次的问题是,几年前的设计架构无法满足业务需求和跳跃性的优化要求。 对此,我们启动了MaxCompute 2.0项目。我们从多个维度对项目进行了分析和定位,具体包括:高性能/低成本是计算平台的一个核心指标;大的性能提升需要架构升级的配合;随软件、硬件的发展,架构需要持续进化;架构方面的投入要有决心:我们投入50%的研发资源,耗时1年。 这次架构升级是为今后2-5年铺路。第一期升级完毕,性能提升1倍,平均线上水位从70%+压到50%-,对内成本30%-50%。 挑战三:平台型系统如何做到开放 一个优秀的平台系统不一定是开源的,但是一定是开放的。那么,如何让用户迁云更容易,如何满足所有业务方的需求,如何与其他系统融为一体? 开放分为五个层次,包括工具层面、开发语言、引擎层面、系统联动层面和社区合作。我们启动了联合计算平台项目,我们做到了资源统一、数据统一、元数据统一和账号体系和安全统一管理。我们在工具层面和语言层面都支持很多,可以和OSS等作对接,也可以与HBase和Mysql等作对接。 挑战四:商业和技术的平衡点 当业务需求呼声很高,高优先级的业务需求经常打乱既有的计划;当业务需求很多样,内部、公共云、专有云各有不同,哪些做哪些不做?当业务需求并不在技术的主路径上,是否应该单开分支来支持? 对此,我们先明确一件事情:技术拓展商业边界和商业体现技术价值并不矛盾,产生矛盾的是中短期内的工作优先级和不同需求对技术的“牵引”。 具体的尝试做法如下: 对于V1之后的平台系统,坚持2:8原则; 对于V1之后的平台系统,共性的抽取和模块化设计变得越来越重要(架构螺旋上升); 加快迭代速度(2个月); 可以有例外,但控制非标版本输出,回归周期不能超过2个发布; 明确不做什么,同时赋能上层。 从效果上来看,目前平台开发主线可控,满足各个业务线需求的同时,可以做到架构升级和性能优化;同时,专有云50+套(多种业务形态),研发线1.5资源投入。 总结 经历了这么多的挑战和尝试,我们总结出以下几点: 1.数据安全要从设计之初做起,数据是一种资产,需要发现、管理和优化; 2.开发效率和系统效率同样重要,当规模达到一定程度,你一定会“遇到鬼”,兜底方案(例如监控,自动扫描和清理)需要准备好; 3.系统需要智能化(自动)处理问题,但不能全部依赖自动化,需要定义清晰的范围,定义不清楚就用白名单的方式; 4.时刻关注硬件的升级,软硬结合是大势所向。同时要与人工智能密切结合; 5.打造一个企业级的平台系统,需要业务,技术和人三方面的锤炼。 推荐阅读: 人工智能进阶心得:在战斗中学习,在学习中战斗
12月13-14日19:30,阿里巴巴技术协会、云栖社区联合主办并独家直播的《2017阿里双11技术十二讲》将强势来袭。本次双11在线技术论坛将专注更深的科技层面,全方面展现时代更迭下的全新黑科技,带你详细了解2017阿里双11背后的技术,并为你提供与一线专家面对面沟通学习的机会。云栖社区直播报名直通车。 在本次峰会中,阿里巴巴资深技术专家铁花将分享话题《霸下——七层流量清洗》,阿里巴巴集团网络层恶意流量清洗产品“霸下”能够将所有请求中夹杂的CC攻击、Web攻击、爬虫、机器刷单等恶意流量进行清洗,从而保障业务系统在超负载运行状态下的安全。在此之前,笔者对其进行了专访,一起探讨了七层流量清洗的理念特点、技术和功能框架以及应用案例等内容。 阿里巴巴资深技术专家 铁花 铁花,06年加入阿里巴巴,08年开始从事安全相关工作,淘宝最早SDL的建立及实施人、淘宝第一代web安全解决方案及开发框架的主要开发、安全静态代码扫描平台的创建者。All in无线曾负责来往事业部整体服务端团队及整体技术业务安全,内部IM即时通讯云平台主要设计者之一。目前在安全部负责安全技术平台产品体系搭建及基础安全开发,正在着重进行的有安全技术平台产品的中台输出建设、基础架构霸下技术体系建设以及集团重大活动保障。 流量清洗概述 流量清洗,即网络层恶意流量清洗(Anti Malicious Network Traffic),是指针对通过网络层访问业务的所有网络流量,进行"祛除糟粕、留下精华、去伪存真"的清洗,保障达到业务系统的流量,没有外部的攻击和非人的恶意流量。从业务场景来说,流量清洗应涵盖DDoS攻击防护、CC攻击防护、Web攻击防护、批量机器行为防御、业务安全/风控、网络限流等防护能力。传统的流量清洗方案虽然在业务的整条链路上部署大量的安全产品,但是也带来了部署维护和人员运营成本大、防护能力弱、数据损耗等一系列的问题。 铁花表示,对比当下现有的恶意流量清洗平台,霸下——七层流量清洗呈现出全新的特征:首先是精细化场景,面对的不再是某个单一的技术点攻击而是某个场景下的复杂链路攻击,所以对应的防御平台也需要针对不同的类似场景进行抽象优化;其次是全链路数据打通,从客户端到网络连接层到业务层所有的数据都贯通一体进行分析和算法建模,可以达到最优效果;然后是智能化,当前平台已有部分策略模型开始智能化的调整,自动化的进行防御。 对于DDoS、恶意漏洞扫描等常见的恶意流量,业界常规的应对手段有防DDoS系统、类似WAF的web防火墙、以及一些安全公司所提供的盒子类防火墙产品等等。阿里巴巴在这些常规手段之外,还通过精细化场景纵横数据打通智能化的处置处理,能够在网络层有效抵抗黑灰产带来的恶意攻击。 最新应用成果 目前,霸下——七层流量清洗负责了阿里巴巴集团的所有网络层流量清洗和保障工作。2017年双11,其处理了峰值2000万QPS的流量,保障到达核心交易系统的流量纯净度大于99.85%。 “今年的双11是历年来最顺滑、保障效果最突出的一年,背后绝对不是单独的某一个系统或某一个平台的功劳”。铁花认为,安全的业务比较特殊,能取得如此好的成绩必须依靠线上线下形成有效的联动,从端到业务各个环节通盘考虑,稳定可靠的系统平更是不可或缺的。 功能及技术解读 得益于阿里复杂和快速发展的业务,打造对应的安全体系具有极大的难度和挑战,不仅需要满足基本的业务前提,还要加上对于未来判断的思考,以及在安全、性能和用户体验这三者间达到平衡。 “在安全分析上,我们有专门的安全威胁建模团队,针对一个产品或业务用到的技术点设计业务逻辑;对于性能的要求尤其是针对关键链路,我们会在业务可接受的限定范围内完成安全的计算和拦截,比如3ms内的延迟及限定的内存消耗;在用户体验上,我们会更多地关注策略模型的准确性,对所有的策略提出高准确率的要求,一旦监控发现准确率过低、不正常就可以做到自动下线规则。” 霸下——七层流量清洗的功能架构 未来展望 如上面所述,人工智能在阿里巴巴安全方面的运用也已经提上了日程。虽然目前与团队设想的人工智能前景还有很大的差距,但是产品已经开始尝试智能化应用,并往人工智能的方向不断发展。未来的网络安全,相信也会变成黑灰产AI与安全防御AI之间的最终对抗。 铁花最后表示,在本次双11在线技术论坛中,他将详细介绍阿里巴巴主要的防御产品平台霸下——七层流量清洗是如何设计和解决安全问题的,欢迎感兴趣的小伙伴报名围观。 预约直播请点击:https://yq.aliyun.com/promotion/428
欢迎点击进入:《云栖社区2017中国开发者大调查》 程序员拥有魔术师般的神奇,指尖代码就能改变世界,而同样,他们的世界也并非波澜不惊。 据不完全统计,全球有数千万程序员,竞争的激烈程度可见一斑,坊间甚至有传出这么一条鄙视链:写汇编的鄙视写C的,C程序员的鄙视C++,C++鄙视Java和C#,Java和C#相互鄙视,Python和Ruby相互鄙视,Scala、JRuby、Clojure一起鄙视Java… 同是天涯沦落人,相煎何太急! 不仅如此,每位程序员成长的背后都一段血泪史: 五花八门的编程语言,哪个最热门? 什么行业、什么岗位的薪资更高? 各个专业领域的技术趋势是什么? 如何才能更快速的踏上技术进阶之路,拓展自己的视野,走向人生巅峰? …… 何以解忧?正所谓知己知彼百战不殆,唯有更懂自己、更了解行业,才能更快更好的提升自己! 而现在,程序员是时候发出自己的声音了。 To:程序员 2017年10月,云栖社区特发起“2017中国开发者大调查”活动,力邀广大技术玩家一起,谱绘中国软件开发者当前最真实的生存、技术及行业现状,也希望通过这份调查问卷对广大开发者未来的职业规划有所帮助。 请收下这份调查问卷(问卷入口)! ------------------------------------------------------------ 任性有奖分割线 ----------------------------------------------------------- 为回馈广大走心答完问卷的开发者朋友,云栖君特准备了丰富的抽奖礼品,答完问卷即可参加抽奖哦~~~ 部分奖品具备以下特性:据说可显著提升程序员身心健康和工作效率… 填问卷还是可以的,万一中了呢?!^0^
今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,共历时5天。据了解,本次大会共有839篇论文被大会接受,分成109个session。众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。 那么作为语音交互领域顶级的国际会议,我们可以从INTERSPEECH 2017中看到哪些技术前沿趋势呢?为此,iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,具体安排如下: 首期分享将在10月25日(本周三)晚上7点半正式开始,欢迎关注语音识别技术的同学报名参与(报名请戳这里)!。 直播主题:语音识别技术之自适应技术 内容简介:语音识别技术是将语音转换成文字的技术,而说话人自适应技术的目的是降低语音识别中不同说话人之间的差异性带来的影响,这些差异性主要包括生理构造、语音环境和说话人情绪等。本次直播主要向大家介绍INTERSPEECH2017会议中的语音识别的自适应技术的一些研究成果。 观众受益:了解语音识别中的自适应技术及该技术的最新研究成果 讲师:黄智颖(云昔),阿里巴巴-iDST算法工程师 注:INTERSPEECH (Annual Conference of the International Speech Communication Association)是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,和ICASSP (International Conference on Acoustics, Speech, and Signal Processing)并称为国际语音领域最著名、影响力最大的两个学术会议。相对于ICASSP会议侧重声学、语音信号相关的学术讨论,INTERSPEECH会议的讨论范畴则包罗万象,从信号处理到语音识别、语音合成,以及各种相关的前处理、后处理方法,再到口语理解和语音交互,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。
编者按:为期四天的2017杭州云栖大会(10月11日-14日)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。过去一个多月,云栖社区对大会嘉宾做一系列专访(关注“云栖大会”社区公众号了解更多大会信息)。本期我们采访的是ACM Fellow,IEEE Fellow,美国微软研究院首席研究员张正友,他将在云栖大会·视觉云计算生态峰会上分享Emotionally Intelligent Vision System,探讨从终端到云端的情感智能视觉系统。 张正友博士,是世界著名的计算机视觉和多媒体技术的专家,ACM Fellow,IEEE Fellow。他在立体视觉、三维重建、运动分析、图像配准、摄像机自标定等方面都有开创性的贡献。 张正友带领的微软研究院视觉团队在学术研究上做了大量的工作,除了在顶尖会议(比如CVPR、ICCV、ACM Multimedia、ICME)上发表了大量文章和几部专著,而且在微软很多产品里都有团队的贡献,比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等等,这支团队在微软内部的重要性不言而喻。 故事从“张氏标定法”谈起 1998年,初到微软研究院的张正友发表了一篇名为《A Flexible New Technique for Camera Calibration》的论文,也正是这篇论文进一步奠定了他在计算机视觉领域的地位。文中提出的基于移动平面模板的相机标定方法,就是业界普遍采用的“张氏标定法”。 “张氏标定法是我1998年加入微软做的第一个项目”,张正友告诉云栖社区。 摄像机标定是三维计算机视觉的第一步,所以必须知道摄像机的参数才能从摄像机拍摄的二维图像里恢复出周围场景的三维信息。“那时标定都是用一个非常精确制造的三维标定物,比如印有特殊标志的正方体,贵且不实用,我这才发明了用二维标定板做摄像机标定。”他回忆道。 由于二维标定板的制作非常容易,一般的打印机就可以打印出来,因此这一方法得到了广泛应用。(这里有一篇短文分享了张氏标定法发明的经过,感兴趣的朋友可以看看。) 有趣的是,尽管张正友早在二十年前就发表了《A Flexible New Technique for Camera Calibration》这篇论文,但直到2006年,他本人才知道论文提到的方法被业界赋予了“张氏标定法”的名称。 “因为对人机交互感兴趣,我认为除了计算机视觉,语音识别应该必不可少,所以我在2001年至2006年转入语音识别研究团队,专注语音增强和说话人识别研究,没有去参加任何计算机视觉会议。2006年我开始带领现在的多媒体团队同时做语音和视觉,也开始重新参加计算机视觉的会议,这时我才知道我发明的标定法被称为了张氏标定法。” “我的研究团队在近二十年的研究工作中主要围绕着用计算机视觉来理解人的形态和行为去帮助人和人之间的沟通及人和机器的交互,最初是通过几何和物理模型对人的形态和行为建模,然后加入了机器学习。” 张正友表示,从1999年开始就提出了model-based modeling方法对人脸三维建模,也就是通过采集大量的人脸三维数据通过机器学习建立参数化的三维模型.因为这个三维模型只需要很少的人脸形状和动态参数,针对某个特定人,仅需少量的数据就可以估计出这个人的各个参数,即使图像分别率低、光照条件差,算法依然拥有很好的鲁棒性。事实上,此后很多人都在采用类似的方法,包括做人体全身三维建模。 值得注意的是,在这个最初模型里形状参数和动态参数是独立的。在研究人体全身建模时,他们发现这个最初模型太粗糙。对不同形状的人,比如肌肉强壮的和不强壮的,同样的动态变化造成的形状变化可以有很大的差别,于是他们第一个提出了tensor-based body modeling,也就是将形状、动态和三维几何描述作为一个整体用张量(tensor)来描述,取得了非常好的效果。 精准表情识别VS人脸识别 张正友带领的微软研究院团队在人脸检测方面的起步可以追溯到2006年,主要侧重于实时性和人脸侧面检测的鲁棒性。微软内部用的人脸检测技术基本上都是由团队提供,甚至也可能是最早用三维传感器做手势识别和人类行为理解的研究团队之一,早于微软推出Kinect传感器。此外,团队还在沉浸式远程呈现 (immersive telepresence)方面做了大量的研究,目的是将不同地点的人进行合成,让不同时空的人感觉是在同一个时空下,进行面对面的交流。 近年来,人脸表情识别逐渐受到了业界的关注。关于人脸表情识别,有人可能想到用这个技术去测谎,这确实是一个重要的应用,还有些应用包括医学领域比如疼痛跟踪。“我个人感兴趣的还是人机交互”,要想机器和人进行自然交互,机器必须要知道交互人的表情,也就是说机器需要情商(emotion intelligence),就像人需要有足够高的情商才能和谐的融入社会。从技术角度看,它和人脸识别都属于细分类。一个人和另一个人都有很多相同的地方,比如都有眼睛鼻子嘴巴,人脸识别就要把那些相同的东西去掉,把人和人差异的特征找出来。人脸表情识别也类似,不但需要把人和人有些相同的东西去掉,也要把人和人之间的差异去掉,但要把不同人相同的表情特征保留下来,所以非常有挑战。 要实现精准的表情识别,必然会面临各方面的技术挑战。张正友表示:“我应该是世界上第一个用神经网络做表情识别的。1996年我在日本学术休假,和研究人是如何做人脸识别的认知科学家交流,利用他们采集的数据,想用机器来做人脸识别。当然那时数据量少,我只用了三层的神经网络,特征是直接用Gabor小波参数。1997年发表了一篇会议文章,1999年发表了一篇杂志文章。二十年过去了,无论数据还是算法都有很大的发展。现在我们发布在微软Cognitive Services的Emotion API产品,用的是深度学习的方法,用了16层的神经网络和两百万张图像训练出来的。” 目前,人脸表情识别还处于婴儿阶段,研究的仅是基于图像的基本表情分类。人的表情是动态的,所以需要做基于视频的表情识别。要实现精准的表情识别,可能需要跟踪人脸每块肌肉的运动,做基于FACS(Facial Action Coding System)的表情分析。人的真正感情可能在所谓的微表情上表达出来,这样就需要用高速摄像头。此外,还需要跟认知科学家紧密合作。 视觉计算和深度学习的碰撞 在两个月前结束的CVPR(IEEE国际计算机视觉与模式识别会议)上,论文数量及参会规模都提升到了一个新的高度:收到了2620篇文章,有5000人参加,相比去年的CVPR增加了40%,计算机视觉在全球范围内的关注度可见一斑。 细心的读者可能发现了一个现象,本次大会上的优秀论文中出现了不少华人的面孔。对此,作为今年CVPR的大会主席,张正友激动的表示,“看到计算机视觉蓬勃发展很为高兴,作为华人,看到大量的华裔面孔和大批的参展的中国公司,我很骄傲。” 他认为,华人对计算机视觉的发展一直发挥重要的作用,但一个新现象是越来越多的人从中国来参加国际会议,越来越多的计算机视觉技术落地中国,视觉创业公司如雨后春笋。张正友希望,中国的计算机视觉研究和应用能更上一个台阶,为中国人工智能领域在世界上占一席重要地位发挥作用。 时下,全球视觉技术的趋势愈演愈烈,其中很大的一个原因正是因为大数据深度学习发挥的作用,在中国因为人口众多和对数据使用的宽松政策,这个优势尤为明显。但是,随着时间的推移,人们对个人隐私会更加重视,优势会偏向那些拥有原始数据的公司。因此,计算机视觉作为人工智能的一环,需要和垂直产业结合落地。 深度&丰富的场景应用 虽然深度学习的文章在现在的会议中占有很大的比例,但很多人已经开始认识到,深度学习和人的学习能力仍有很大的不同。人能够举一反三,很快学习新东西;人能够在执行任务中不断学习,在挫败中成长......等等,这都是深度学习现在所缺乏的。此外,现在视觉进步比较大的大都属于感知范畴,比如是什么物体、是谁等。视觉研究需要往更高层次发展,进入认知理解阶段并拥有常识推理,这也是为什么现在开始有不少研究将视觉和语言结合去理解图像视频。 视觉技术的应用前景无论如何都不会高估,它将涉及几乎人类的所以领域,包括人们熟知的无人驾驶、安防监控、金融认证。但随着中国经济的发展,对弱势群体的关怀必将加强,比如老年人和残疾人,计算机视觉在那些场景的应用将前途无量。 张正友表示最近一直在研究如何将计算机视觉实时地大规模地有效地应用到实际场景中,本次云栖大会上,他将就此分享计算机视觉在云计算上的看法。 云栖大会报道: 专访Dan Kohn:阡陌交迭,云原生布局开源生态构建及深度应用 专访阿里云闵万里:云上逐鹿,ET大脑要做行业化、垂直化的创新运用 专访阿里云雁杨:因需求而进化,ECS云服务器追求弹性极致 安全人工智能应用之我见:时代“风口”的交叉点 专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
2017杭州云栖大会(10月11日-14日)已经进入倒计时阶段,此前云栖社区已经为大家介绍了本次大会的概况以及各分论坛的亮点——为期4天的大会上将有20场峰会,120多场分论坛,出席的演讲嘉宾有800多位,而参会人员将会达到4万(自行脑补一下画面),毋庸置疑,这是史上规模最大的程序员大会。 截止到目前,已经有上千家行业开发商/“传统IT”公司新渠道技术部已经团购了门票参会,此外,我们也邀请了各行业的生态合作伙伴来到现场,届时这些企业将与阿里巴巴一起展示云计算、大数据和人工智能的前沿应用。 来,先和我们一睹为快吧! 亚航之家,连续9年被Skytrax评为“世界最佳低本航空公司,云端冠军,逐步兑现“现在人人都能飞”的承诺。借助阿里云全球化的基础设施和智能技术,让旅客们免受订票爬虫干扰,下一步还将探索人脸识别登机,提供更为智能的飞行体验。 “45度的酒,来一箱!”茅台酒的酿制过去都是依靠凭经验传承,如今凭借阿里云提供的物联网和大数据技术,茅台可以通过更精细化的手段,把生产过程中所有的参数和控制环节搜集起来,建立模型,优化工艺,提高茅台的产质量,甚至还可以依据度数,绵柔、回味等指标进行个性化调整,你的酒未来也会更懂你。 一朵云,让天下联通!中国联通联合阿里云共同开发的系统,支持每秒四万人同时选号,解决之前全国手机码号分散管理、利用率低、用户选号难、性能差、跨区域跨系统数据不一致的痛点问题,结束了过去联通31个省市自治区IT系统“分而治之”的局面,从而实现云化转型。 汽车老哥添新动力!借助阿里云的服务,一汽打通了消费者与汽车设计、生产、制造、服务之间的信息通道,实现接触、选车、试驾、买车、售后等全客户旅程的业务“在线化”,未来更多空间等待探索。 云,可以说是航空工作者最熟悉的事物之一,但云计算、云服务,对于中国航空人来说还是创新性的尝试。中国航发集团牵手阿里云深度合作,引入企业级互联网架构平台探索云端采购新模式,让全新的云上采购平台可以支持灵活的业务创新与应用部署,满足各层快速弹性扩展,从容应对业务的流量骤增与应用扩容 。 中国邮政联合阿里云,让物流比快还快。阿里云为满足新一代寄递业务建设的需要,在IaaS层虚拟化基础上,应用、中间件和数据库全面采用分布式技术,提供企业级分布式应用服务架构能力,支撑高并发,高可用,弹性扩展的业务需求,为寄递业务探索创新升级。 酷!轮胎合成也能数据智能化,ET工业大脑通过人工智能算法,迅速处理分析每一块橡胶的出身,匹配最优的合成方案,极大地稳定了混炼胶性能,帮助中策橡胶混炼胶平均合格率提升3%-5%,让用户出行更安心。 新希望联手阿里云破解“猪周期”难题,借助阿里云提供的云计算和数据服务能力,新希望可以动态监测并记录分析猪成长过程中的各种数据,并实时调整。通过将内部公司的系统放到阿里云上,新希望的企业成本降低了三分之二。 未来双方还将在技术创新、解决方案、商业合作、服务等领域加强合作,探索农业数据化转型模式。 当你的城市有了“大脑”,可以像人一样“思考”,智能调配各项公共资源,甚至比你还聪明,你开始发现所生活的城市其实是超级个人工智能,有没有一种黑客帝国既视感? 欲了解更多杭州云栖大会信息,请关注云栖社区公众号“云栖大会”!
编者按:10月11-14日,为期四天的2017杭州•云栖大会将再度在杭州云栖小镇起航。作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及国内外各行业企业领袖的精彩演讲。从今天开始,云栖社区将会发布一系列大会嘉宾的专访,想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。本期我们采访的是CNCF(Cloud Native Computing Foundation,云原生计算基金会)执行董事Dan Kohn,他将在云栖大会的阿里巴巴开源技术峰会论坛中介绍云原生架构的发展现状、趋势解读以及实践价值剖析。 嘉宾简介 Dan Kohn,CNCF执行董事。在加入CNCF之前,他曾是Skymoon Ventures(一个关注半导体和电信基础设施领域的种子期风险资本公司)的普通合伙人,并曾在医疗保健公司Spreemo及广告公司Shopbeam等创业公司担任CTO,还参与创建和启动了Linux基金会核心基础设施计划。此外,Dan曾帮助管理Craig McCaw旗下的大量电信公司,并以担任NetMarket(早期互联网公司之一)的创始人兼首席执行官开始了他的职业生涯。1994年,他率先发展起了网上音乐商店,并在构建了第一个Web购物车之后安全完成了第一笔网上交易。 致力云原生,CNCF携手阿里云构建生态 开源颠覆了软件开发方式,云计算颠覆了IT能力的交付管理方式,云计算和开源社区越来越互相吸引和融合。隶属于Linux基金会的CNCF以围绕“云原生”服务云计算为初衷,自2015年成立以来,一直致力于统一云计算的接口和相关标准,维护和集成开源技术,并支持编排容器化微服务架构应用。Dan Kohn表示:“云原生生态正在推动开放技术实现前所未有的创新,CNCF会进一步推动社区发展和生态建设。” 基金会成立以来,阿里云就密切关注并为CNCF旗下项目社区贡献代码。去年Docker宣布将Docker Engine核心组件containerd开源,并捐赠到CNCF基金会,阿里云就参与到第一批的支持和建设者之中,并成为了CNCF金牌会员。“阿里云加入CNCF,这对我们整个行业来说是非常积极的一步”,Dan Kohn认为,阿里巴巴的加入代表了它将与其他主要行业人士共同努力,致力于构建云计算开源软件的郑重承诺。 开源开放,云原生赋能企业生产力 随着阿里云的加入,目前CNCF的会员已基本囊括了Amazon、Google、华为、IBM、Microsoft、Oracle和腾讯等全球最大的公有云公司,这对本来就隶属于Linux基金会的组织来说无疑是如虎添翼。而伴随着Kubernetes的成功,和市场对于容器技术的需求逐渐扩大,CNCF的声势也日渐浩大,助力云原生计算基金会稳居开源容器世界的中心。 Dan Kohn表示,在云原生已然成为热门的趋势下,CNCF将联合成员一起致力于提供专业的培训和认证,帮助产出大量的行业专家。同时,CNCF会合理适配不同的云原生项目,深入挖掘项目的全部堆栈价值,助力传统应用成功迁移上云。CNCF当前版本整合的图形能够显示完整的云原生生态技术和产品,这也体现了CNCF在推动技术和服务标准的建立、构建开源生态体系方面所做的努力。 举例来说,那些建立在Kubernetes之上的云原生架构具有将应用程序的各个部分划分为微服务的能力,而且可以分别集装箱化,这样每个微服务都能用自己的语言编写,有自己的框架及独特的库。“这也证明了通过解耦团队中不同部分间的依赖关系,云原生能够显著提高开发者和团队的生产力”,Dan Kohn如是说。 实践解读,云原生助力企业上云之路 事实上,大多数遗留代码都是由大型的单片代码库组成,而不是微服务应用程序。二次系统综合症的教训也表明了试图代码重写只会以失败告终,这是由于第一个系统的进化会明显快于替换系统,只对新绿地部署有效的云原生架构并不适用于所有情境。因此为了有效利用开发运维变革所产生的开发人员生产力,如何将其演变成现代云原生架构是一个很大的难题。 Dan Kohn在2017杭州•云栖大会10月14日将进行《A Brief History of the Cloud: From Servers to VMs to Buildpacks to Kubernetes and Cloud Native》的主题分享,该分享将立足真实案例,分析一个存在单片集成的数十亿美元资产公司是如何将遗留应用部署慢慢演变成Kubernetes云原生微服务架构的。他们会一步一步剔除各个部分的功能,并整合打包成新的微服务应用程序,直到最初的庞然大物被分割成一个个合理的大小。在这一过程中也有力证明了,在绿地和棕色地带的发展中,云原生架构对大多数类型的计算都是可用的。 备注: 绿色地带(greenfield):形容在一个全新的环境下开发,不用担心与其他的历史系统集成。 棕色地带(brownfield):形容在历史遗留的软件应用程序/系统中部署新式软件系统,这需要考虑与已有软件的兼容性等限制,必须涉及一些开发和部署的额外工作。 最后,附上本次采访部分内容: 云栖社区:在您看来,云原生的主要特性和关键技术是什么?CNCF将如何推动技术和服务标准的建立,建立一个开源的生态体系? Dan:CNCF会合理适配不同的云原生项目,深入挖掘项目的全部堆栈价值。CNCF当前版本整合了一个有用的图形,可以显示完整的云原生生态技术和产品。 云栖社区:云原生已然成为了一个热门趋势,但在传统应用迁移上云的过程中仍然面临着许多技术挑战。CNCF如何帮助社区和企业成功上云? Dan:CNCF将提供专业的培训和认证,帮助产出大量的行业专家。 云栖社区:最近,阿里云等云供应商成为CNCF的成员,这对CNCF和云计算产业来说意味着什么? Dan:阿里云加入CNCF,这对我们整个行业来说是非常积极的一步,因为它代表了阿里巴巴将与其他主要行业人士共同努力,致力于完善云计算开源软件的承诺。随着阿里云的加入,目前CNCF的会员还包括Amazon、Google、华为、IBM、Microsoft、Oracle和腾讯,基本囊括了全球最大的公有云公司。 云栖社区:这是您第一次参加云栖大会,您对会议有什么期望吗?还有是否可以分享一些关于演讲的主题和细节,以及选择这个话题的原因? Dan:事实上大多数遗留代码都是由大型的单片代码库组成,而不是微服务应用程序。二次系统综合症的教训也表明了试图代码重写只会以失败告终,这是由于第一个系统的进化会明显快于替换系统,只对新绿地部署有效的云原生架构并不适用于所有情境。因此为了有效利用开发运维变革所产生的开发人员生产力,如何将其演变成现代云原生架构是一个很大的难题。 这次分享将立足真实案例,分析一个存在单片集成的数十亿美元资产公司是如何将遗留应用部署慢慢演变成Kubernetes云原生微服务架构的。他们会一步步剔除各个部分的功能,并整合打包成新的微服务应用程序,直到最初的庞然大物被分割成一个个合理的大小。在这一过程中也有力证明了,在绿地和棕色地带的发展中云原生架构对多数类型的计算都是可用的。 云栖大会报道: 专访阿里云闵万里:云上逐鹿,ET大脑要做行业化、垂直化的创新运用 专访阿里云雁杨:因需求而进化,ECS云服务器追求弹性极致 安全人工智能应用之我见:时代“风口”的交叉点 专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访(关注“云栖大会”社区公众号了解更多大会信息)。本期我们采访的是阿里云人工智能科学家闵万里,他将在10月的云栖大会·阿里云生态峰会上分享阿里云ET大脑的项目实践,并重点介绍ET大脑的应用场景、技术挑战和未来发展。 2017杭州云栖大会详情请戳这里! 闵万里,阿里云人工智能科学家,ET大脑负责人。2004年博士毕业以后加入IBM,参与IBM智慧城市研究,主攻大数据的研发和运用,2010-2012年在IBM新加坡做智慧城市,推动创新项目落地。2012年加入Google,担任数据科学家,做广告竞价的竞价模型。2013年9月加入阿里巴巴,组建了数据科学团队,支持聚划算和天猫做数据化运营。2015年加入阿里云,组建大数据孵化器团队,探索DT技术在垂直行业的创新及落地。2017年开始担任阿里云大数据事业部的总经理继续推动DT技术在各行各业的普及应用。 数据智能在阿里云的应用 闵万里加入阿里后,便迅速组建了一直能够兼顾项目研究和商业化落地的人工智能团队,这其中不得不提阿里云ET。 2016年4月,阿里云ET首次亮相,与此同时这也是首次以人工智能技术为背景,在歌唱比赛垂直业务场景中运用ET。 “这是ET首次直面公众,风险还是比较高的。”闵万里回忆道。 而最后的结果还是在这支团队的意料之中,最终ET以42%的胜率一举命中总决赛歌王李玟,并且在三轮比赛中都预测准确。“这个项目集合了阿里巴巴实时流计算的能力和多元数据实时分析的能力,还有实时预测的能力”,闵万里表示,这也阿里巴巴实时数据处理能力的一个集中展示。 和阿里巴巴其它人工智能应用场景不同,ET的首次亮相综合运用了多数据来源,包括互联网采集数据、湖南卫视的收视率数据、还有ET对上百万首歌曲的学习和理解(包括每首歌好听的层度、演绎好坏的层度、现场歌手的声调)。闵万里告诉云栖社区,ET能够对多种信号做实时解析,动态更新,每五秒做一次预测更新,而要处理这样的任务对技术的挑战是巨大的。 “这里体现了很多能力,包括对歌曲的理解,以及对歌手每一句唱得好不好的分析。因为歌曲唱得好不好本身是很主观的判断,没有明显的客观标准。”在开始比赛之前的一次性预测是很好实现的,但要收集这么大的数据量,五秒预测一次并更新,这就非常有挑战性了。 闵万里提到,为此,前期项目团队花了很长的时间来准备数据,以及让ET学习歌曲并且做出预测。用机器学习歌曲的特征,需要结合网络上歌曲的点播量、下载量、好评量等指标来判断这是不是一首好的歌,这个主要体现了项目的实时计算能力。 2016年,正值人工智能最火的那段时间,而ET凭借优异的表现毫无悬念的成为了业界关注的焦点。 不过对于闵万里而言,如何把技术对外赋能,如何让人工智能成为普惠技术,才是最终的目的。 阿里云ET项目之后,闵万里便开始推动ET大脑项目。ET大脑起初是从几个垂直行业中孵化出来的,如城市大脑、工业大脑、环境大脑、医疗大脑这些具有明显行业背景的。可以说,ET可以归属于音乐大脑。 在闵万里看来,ET用于音乐,而城市大脑用于城市管理,工业大脑用于工业生产线,它们都是实时数据、活数据、在线更新的。云栖社区了解到,ET城市大脑项目在杭州、萧山、苏州等地与相关部门合作,用城市大脑协助城市管理,具体内容包括实时信号灯控制——用互联网、高德数据实时控制信号灯,这也意味着,大脑能消费的数据变得更多。 除了信号灯的控制,利用iDST团队研发的专有算法, ET大脑还可以自动巡检几千路的视频信号,自动发现其中的异常点,极大降低人工巡查的时间和精力;另外,城市大脑还能分析市民的出行意愿,调整公交班次,自动调配;除此之外,闵万里还透露,他们正在做一些新的尝试,比如在杭州某地最近进行的城市绿波带尝试,把单个智能设备、单个智能系统串联起来,形成一个全局的智能系统,形成智能设备之间的有效联动,来最大限度的服务社会,激发数据的价值。 在这样的复杂场景下,ET大脑集成了多种人工智能技术,而这样的项目研发所遇到的挑战包括技术上的挑战和社会环境的挑战。 闵万里谈到,技术上的挑战主要来自数据源和产品化两方面:数据源的挑战是指在很多垂直场景下,很多数据拿不出来,或者没办法实时拿出来。一是因为数据获取比较复杂,或者数据拥有者有很多顾虑;二是因为有的数据拥有者虽然积极配合,但是数据残次不齐,例如说有的城市的交警数据,地面上很多线圈已经坏了,有的工业上的数据读取中有很多工业协议读取不了。 而产品化的挑战则是大多人工智能应用场景的通病:很多先进的人工智能技术和算法在实验室里效果很好,但是移植到实战当中部署的时候,需要面临实验室产品运用到行业的挑战,包括运行效率、稳健性等,比如出现数据断传的情况怎么办,出现数据被污染的情况怎么办,这些都是项目需要解决的问题。除了技术上的挑战,团队也面临环境的挑战。很多人对这种出现的新技术是质疑的,当大家看不到价值的时候都喜欢问做这些有什么价值。对于一个创新者来说,没有机会去证明他自己是很难回答这个问题的。 坚持普惠的ET大脑项目应用 目前,ET大脑涵盖了城市大脑、工业大脑、医疗大脑以及环境大脑。对于这些领域的选择,闵万里给出了他的解答:第一,项目始终坚持普惠的理念,这些行业服务的是全人类,工业制造的效率提升可以让老百姓从中受益;第二,技术上说这几个行业都是数据密集型行业,数据密度够高,价值密度也很大;第三,这些行业痛点尤其突出,因为大量的数据没有被利用起来,数据不流动就成为了“库存”,就会导致资产负担,所以要把负债变成价值。 迄今各个大脑的进展都很顺利,并且表现出了惊人的成绩。城市大脑方面,项目在杭州和苏州与相关单位已经开始合作,逐步推广落地。目前在部分区域的视频自动巡检和交通状态报警已经初见成效。工业大脑方面已经有不少成功的案例,比如流程制造的中策橡胶、协鑫、天合光能。除此之外,在装备制造、离散制造中也开始了初步尝试。医疗大脑方面,项目通过生态的力量推进医疗大脑在各个细分领域的研发,提供计算能力与算法服务。项目举办的医疗肺结节诊断大赛,在本次云栖大会中即将完美收官,并且在肺结节的诊断上已经取得了阶段性成果。环境大脑方面正在推进内蒙古自治区和阿里云ET环境大脑的合作,通过人工智能技术寻找保护环境的新方式,还利用环境大脑在江苏对固废污染源实现了智能感知。 事实上,现在的ET大脑已然成为了阿里云人工智能的代名词,它很好地解决了两方面的问题。第一,ET大脑能够解决更多行业的问题,创新性的问题;第二,ET大脑能够承载一个平台的使命,让更多有想法的人利用ET大脑的开放架构来探索更多创新应用。ET大脑的身先士卒,在一些垂直行业做出了创新的示范,极大证明了阿里云计算及大数据产品的潜力。此外,城市大脑、工业大脑、交通大脑、医疗大脑则会在接下来的航空、能源、新零售甚至安全领域做一些创新性的示范。闵万里表示,“我们希望通过这些示范能够激活更多的外脑,让社会上一些有创造性想法、有技术的公司能在ET大脑的架构上做自主创新,让ET大脑不仅仅成为阿里云自主创新的大脑,更是成为一个平台支持全民创新。”所以可以说,ET大脑希望的是把公共数据资源的价值与业务的场景快速结合,产生实战效果。 拨云见“智”,人工智能协同共生的未来 谈到阿里云ET大脑时,闵万里表示,这实质上都属于数据智能范畴——用新技术(云计算和数智技术)加上新能源(数据),来打造新物种(新零售、新制造等等)。他认为,在数据智能的实践上,要找准业务场景、痛点以及最佳应用场景,要场景化和垂直化,因为数据智能不止是一门技术,它还是技术与业务的结合,更是一种理念。 除了阿里集团本身拥有更多的算法和和计算能力之外,闵万里的成功秘诀就是敢于想别人不敢想的事儿,挑战不可能。“当所有人都说不可能的时候,有可能你就要成功了。” 当然,现在的人工智能远远没有达到大众的预期。而对于未来的趋势,闵万里也给出了他的答案——语言视频图像等单维度功能的综合协调是人工智能的下一步。 “未来的人工智能不止是视频或者语音,一定是多种功能的协同,其核心就是协同。另外,人工智能要回归到认知的本质,要在类脑的研究上下功夫。”他所带领的团队已经做出了下一步规划:一是ET大脑要产品化,要开放,ET大脑产品化正在推进中,同时项目会开放平台,邀请和鼓励生态伙伴一起在ET大脑的架构上做行业化、垂直化的创新运用;二是在一些从没有涉及的垂直领域,预计会去率先打造一些垂直示范的项目,再激活对应行业中的ISV(独立软件开发商)。 而项目的具体情况他将在杭州云栖大会上逐一公布,届时闵万里将分享拨云见“智”的话题,聚焦数据智能的生态和复合多体智能。 PS:ET大脑是一个普惠科技,致力于让更多的人在这个平台上成功,包括有想法的数据科学家、数据爱好者和合作伙伴。此外,项目天池能够提供平台、课程、数据并且定期发布任务,已经吸引了全球73个国家和地区的十万多名开发者,借助人工智能和大数据解决生产生活中的实际问题。另一方面,复合多体智能是团队对人工智能在具体场景中落地的终极判断,最近也有了一些新的尝试和实地试运行:通过对单个智能设备的串联形成了一个全局的智能系统,让系统内的各个智能设备可以群策群力,形成从感知、指挥、全局协调的智慧城市。 云栖大会购票通道请戳这里!。 云栖大会报道: 专访阿里云雁杨:因需求而进化,ECS云服务器追求弹性极致 安全人工智能应用之我见:时代“风口”的交叉点 专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。本期我们采访的是阿里巴巴资深技术专家雁杨,他将在10月的云栖大会·弹性计算企业线峰会上分享ECS的应用现状、技术解析以及云服务器未来的发展趋势。 近年来随着云计算如火如荼的发展,上云已经成为了所有企业的标配。但在国内鱼龙混杂的云服务市场下,云服务器的选型评估却是长期困扰着企业的难题。基于此,阿里云ECS一直坚持为不同行业及不同企业提供垂直实例产品,提高用户体验,有针对性的解决行业特色问题并且带来最优的性价比。本文中阿里云ECS产品负责人雁杨,将就云服务器的选择、业务迁移上云的经验分享等话题进行深度解答。 雁杨 ECS发展现状解读 和亚马逊一样,阿里云始于电商业务,其整体技术构筑在阿里集团10年的电商业务积淀之上。雁杨表示,作为国内最早对外开放的云服务器,ECS从开放至今已经历了三个里程碑。 2012年,阿里巴巴把整体基础设施能力通过云服务器开始对外服务。此时的整体配置是从xen虚拟化架构,千兆网络起步,最早一批对外服务的主要客户为站长和互联网小客户。在这期间,阿里云也经历了内部技术基础设施外部商业化的阵痛。由于xen架构、千兆网以及早期底层飞天虚拟化网络和存储技术的局限性,当时云服务器的整体IO和网络能力十分有限,主体就是原来的I型非IO优化实例系列。随着更多的中型互联网客户进驻,IO能力成为最大的制约因素,因此客户结构的变化开始推动阿里云在IO能力上进行进化。 2014年与2015年之交,阿里云的整体架构进化为KVM +万兆网络,并且引入了高效云盘和ssd云盘(ssd云盘能够到2万以上的IOPS),同时整体机型同步切换到Haswell,计算能力也得到了跨越式的提升。另一方面,整体的产品功能、运维稳定性方面也在逐步完善,这使得阿里云形成了对中型,大型客户初步的服务能力。但与此同时,随着大型企业客户的涌入,内部体量和客户结构又产生了进一步的变化。这些大型互联网企业对整体云服务的全方位可预期稳定性、可预期性能、整体拥有成本的要求更加苛刻,于是构建真正覆盖所有规模企业云服务器的能力是下一步的目标重点。 现在正属于非常关键的阶段,大规模的企业客户除了对绝对性能和成本上提出了更高的要求,他们更加看重线上持续可预期、稳定的全生命周期性能。消除性能的不可预期性有几个解决方法:一方面通过底层的调度算法优化来保证用户的云服务器能够获取稳定的性能;另一方面,新的企业线云服务器产品切实降低了资源复用率,在企业线上把绝对稳定的高计算力给到对可预期性能要求非常高的企业客户;除此之外,阿里云本身的计算、存储和网络性能都有非常大的提升。 “作为IAAS的核心组件,ECS实质上就是对IDC服务器、运维、管理自动化三个领域的整合”,雁杨认为,其准入门槛并不高,但想要做精、做好却并不容易。想要降低成本、提升稳定性、做到高性能并获得最佳体验,阿里云ECS希望针对传统IDC服务器托管领域的各种稳定性、性能、成本、运维等问题,日拱一卒而不断精进。 技术沉淀带来能力的质变 八月初,阿里云在企业级ECS发布会上进行了跑分测试,这也是云产品现场跑分的先驱。不同于传统手机、PC市场领域的常规动作,在云计算领域,稳定性、隔离性以及关键场景的性能表现实际上相差巨大。根据现场的跑分情况,阿里云新发布的企业级ECS产品系列在性能上明显优于竞争对手。 事实上,代表了中国云计算技术实力的阿里云同时也承载了国内大部分上云企业的业务,这也就导致了在不断高速技术创新的迭代下,阿里云还要求能够高效保障客户的稳定性。“积累是重点,云计算是资本技术双密集的产业,阿里云的先发优势让我们积累了非常强的、富有经验的核心技术团队”,雁杨提到,“坚持自研不走捷径,虽然投入会更大,但是只要坚持下来,对核心技术掌控力必然会发生质的变化。” 当然,在克服这些困难的同时,阿里也确实打造了非常高效的软件工程和线上迭代体系。相比友商同价位的产品,ECS的网络性能和存储IO性能是其的数倍。在网络性能上,阿里云的网络虚拟化技术一直是走自主研发的路线,所以有很深的人才积累和技术积累。实际上,阿里云已经将整个虚拟化的网络技术全部进行了重构,升级到了第二代Alibaba vSwitch技术,采用自主研发的网络协议栈和vSwitch技术比开源的对应实现在性能、规模以及运维各方面都有很大的优势。在存储IO性能上,ECS也超过了其他云服务厂商同类产品的水平,超高存储吞吐,低成本存储,高带宽,为大数据场景提供最佳的性价比。 对阿里云而言,最关键的产品核心性能经过多年的锻造,对比友商具有巨大的优势。让上云的企业明明白白选型,避免浪费每一分宝贵的IT预算,并且把云产品的透明度做好——这些是根本前提,也有利于客户、利于市场的良性竞争。 ECS的多维度衡量和选型 对于企业而言,云服务器的优劣需要从多维度衡量和选型。“云服务器的随开随得、按量付费弹性、宕机迁移、云盘n个9的数据可靠性、VPC私有网络隔离、内建多AZ、多地域容灾等能力,是云计算区别于传统IDC托管的核心价值。” 雁杨认为,选择云时首先需要注意云的弹性,弹性实质是规模业务扩容的冗余buffer的深度,只有靠规模上量才可能实现更深的池化buffer形成弹性能力,最终让不同企业客户业务错峰提供有效弹性。所以业务的规模是云计算的一大门槛,没有规模很难发挥云的弹性价值。当然,云服务器的各种场景基础支撑能力是绕不开的话题。企业要看云服务商的云服务器是否提供了支撑不同场景的丰富规格,以及这些不同规格特点的云服务器是否提供了清晰的性能承诺。在这样的前提下,企业才能根据业务场景对整体性能进行选型和搭配。总而言之,企业在选择云服务器前,需要理解自己业务场景各种对计算、存储和网络性能的诉求。ECS主页所标注的性能specification,不玩纸面指标,阿里云保障客户所见即所得能保障拿到的性能,并且把常见场景和选型做了推荐映射,相信这种透明度能够大幅度降低企业的选型和对比的困难,帮助消除不同规模企业的不同业务场景对搬迁上云的疑虑。 阿里云ECS企业产品线做到了稳定性和超高性能,在不同场景下都能提供最高性价比的选择。同时阿里云也一直在进步,这些技术红利会通过稳定性、性能、体验等方式反馈企业的信任。针对阿里云ECS的配置选择,ECS的主页枚举了大部分企业常见场景下最佳性价比的配置选型,企业可以根据场景来对计算、网络和存储的能力组合进行快速选型,客户可以用支持分钟付费的按量付费购买对应的机型,对使用场景进行性能的测试验证。 云服务器未来之势 利用特有的快速交付和弹性能力,让企业从原来全量为业务峰值准备计算力,过渡到贴合业务流量曲线准备计算力,从根本上提升资源利用率,这是“弹性”的核心也是云计算的魅力所在。未来,云服务器必然会因客户对计算、网络和存储需求的变化而进化。除了区域本身的扩展,中心区域和边缘区域的结合、在线离线的整体差异化成本模型、基于云服务器提供的PaaS/SaaS服务、新兴领域对异构计算细分市场的强力需求,这些都是云服务器发展可预见的趋势。 ECS作为IAAS的核心组件,除去提供基础的计算、存储和网络服务,其核心依然是稳定性、性能以及在各种场景下的最佳性价比。未来,阿里云ECS希望能够做到更丰富的弹性能力,帮助客户在各种财务和扩缩容场景上大幅度提高业务敏捷度并且降低成本。 对于本次云栖大会,雁杨表示初心依旧。在总结一年来技术上的进步之外,还会全面介绍新产品和新功能,并且对于常见架构在ECS上的性能调优、ECS超高稳定性和性能背后的技术故事等话题展开分享,借云栖大会这个绝佳的机会和客户一起碰撞,温故知新,共同进步。 云栖大会购票通道请戳这里!。 云栖大会报道: 安全人工智能应用之我见:时代“风口”的交叉点 专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。本文是阿里云资深算法专家施亮所写,他将在10月的云栖大会上分享安全智能带来的思考和变革(想了解嘉宾以及最新议题信息请关注“云栖大会”公众号)。 施亮 从年初的RSA大会,到前两周刚结束的Blackhat和Defcon,这些大会上一个热议的焦点,就是人工智能和机器学习技术,在安全领域和产品上的应用。 给人的印象是,如果一个安全产品,现在没有运用机器学习技术,都不算是有价值的产品。以人工智能驱动的安全公司也受到了资本的青睐,2017年6月份以来就至少有7家号称运用机器学习技术的安全公司获得新一轮融资,融资总额接近 5 亿美元。 实际上,机器学习技术,在安全领域应用并不是什么新鲜事物。早在10几年前,机器学习和统计分析模型已经应用于垃圾邮件检测、IDS、恶意二进制、URL和DNS分析等领域;特别是垃圾邮件的检测,在十年前,就有非常成熟的商业产品,而机器学习引擎,是其核心检测部分。机器学习能早期应用于垃圾邮件的商业产品,主要原因是垃圾邮件历史上样本的积累足够丰富,而且安全公司愿意投入大量的运营人员进行打标。 当时国外业界一家大型安全公司,邮件的打标团队就有上百人,每日由检测引擎和人工确认的样本,有几十万级之多。邮件用户反馈和灰样本的人工打标,形成了良好的数据闭环,机器学习模型优化迭代很快。而大量精准的样本,和良好的数据闭环,正是机器学习成功应用的基础。 工业界在机器学习安全应用的过往发展史上,有两次大的性能突破性提升,一次是机器学习新技术的应用,一次是数据计算能力的提升。还是以垃圾邮件检测举例,10年前,随机森林RF、GBDT等boosting方法开始流行,这些模型对抗overfitting的能力非常强。 当时国外业界某家大型安全公司内垃圾邮件的机器学习检测模型和各种规则集有上百个,用stacking的方法输出,每个模型或者规则集的贡献权重是由其历史表现决定的。在机器学习的新技术RF、GDBT引入后,最后起统治地位权重dominant weights的,都是使用RF、GBDT等技术的模型,一举可以提升检测精度几个百分点。另一次突破,就是云计算的引入。 最早的机器学习模型特征,都是用大型关系数据库计算的,这家公司当时在全球有6个数据中心,每日回吐的数据量有几百G到T级,昂贵的Oracle系统和数据库query优化专家,也不能很好的解决海量数据query的效率问题,当时有些特征的计算需要1天以上的时间;而有些spam IP的发送时间,是以小时计算的,等到特征产生,spam IP已经转移,拦截效果大打折扣。 2008年,公司内数据挖掘研究小组开始尝试搭建Hadoop,首先用公司计算中心淘汰的废旧机器,搭建了12台服务器的Hadoop集群,使用优化的MapReduce算法,只用了10分钟的时间,就能计算出Oracle大型服务器上一天都计算不出的特征。基于云计算技术的特征工程,训练出的1小时、2小时实效的快速检测模型,将垃圾邮件的拦截效率,又提升了几个百分点。 技术的演进总是类似的。21世纪10年代以来, 机器学习领域兴起的深度学习热潮,推动了图像视频、语音、自然语言处理等方向的突破性进展,深度学习的成功,其实是神经网络模型方法理论加GPU集群计算能力的进步,两者叠加所以进展更加迅猛。最近两年,深度学习开始在安全应用领域落地,例如在恶意二进制检测领域,国外的Deepinstinct和国内的瀚思科技,都有深度学习的商业化产品。 深度学习的优势在于,模型的特征工程,相对不需要太深的安全领域经验,深度学习的输入向量化方法、模型的结构和参数设置,就基本可以决定模型的表现。 相对于其他的分类模型,由于需要深厚安全领域经验支撑的特征工程,特征依赖程度大,模型往往受制于特征提取问题,而深度学习的优势就凸显出来;深度学习的另外一个特点就是匹配复杂度高的模型优势非常明显,这是深度学习模型的多层神经网络组合实现超高非线性适配导致的。当然,深度学习在安全领域的应用也有它的局限性,一是深度学习模型训练需要大量的覆盖范围全面的正负样本,在安全领域,满足这种要求的场景很少;二是深度学习模型适合原子化的数据特征输入,安全领域中,原子化数据特征,在大多数领域,都是比较困难的;三是深度学习是黑盒算法,模型的可解释性很差,对于传统安全运营分析来说,模型的产出很难做类似安全规则的分析和调整。所以深度学习在安全领域的应用,现在还主要集中在恶意二进制检测和WAF等样本比较丰富、输入比较容易原子化的领域。 深度学习加强化学习(RL)的办法在棋牌类的应用,已经超越了人类的水准。 大家都知道AlphaGo的一代和二代,在番棋大战中,连续战胜了人类职业围棋的顶尖棋手;今年1月30日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学(CMU)开发的人工智能系统Libratus战胜4位德州扑克顶级选手,获得最终胜利。 虽然人工智能技术在棋牌领域已经可以随意碾压人类对手,但是在安全领域,人工智能想要在网络攻防对抗上战胜人类黑客,这个道路,从现在的技术看,我认为还比较漫长。原因是不管围棋也好,德扑也罢,虽然变化极多,分别达到10的171次方和10的160次方,但是它们的输赢规则是非常简单,很容易用数学模型描述。只要用合适的机器学习方法,就会在类似的brute force领域取得突破。但是在安全领域,类似的规则描述一般都是极其困难,因为人类黑客的攻击和网络安全专家的防守,并不会遵从现有的固定的一套规则,所以很难用数学模型去描述攻防领域的对抗。目前人工智能对这种创造性很强的领域,效果都不是很好。 一个值得注意的趋势是Generative Adversarial Networks(GANs)的发展,GANs最早由Ian Goodfellow于2014年提出,其基本思想是同时训练两个神经网络,一个网络训练产生混淆攻击样本,一个网络训练识别混淆样本,两个网络互相学习演进。GANs出现后,成功的被用于图片样本的混淆,例如成功的欺骗深度学习引擎,使其将大熊猫图片识别为长臂猿。在安全应用领域,GANs已经被用来产生Malware的混淆样本,今年Blackhat的一篇文章,作者声称自己训练的GANs样本,可以欺骗现在的商业Malware识别引擎,使其误识别率超过70%。 综合这两个进展,今后安全人工智能领域,RL和GANs会得到更广泛的应用,RL主要会用来解决安全领域的样本问题,随机生成或者按照某种规则生成的样本,可以不停的强化模型对某类攻击或者某类正常访问混淆行为的学习,同时提高模型识别的精确率和覆盖率;GANs当前主要用于攻击方对使用机器学习检测引擎的欺骗攻击,从防守方的视角来说,同样可以使用GANs技术,增强自己的检测模型针对混淆黑样本的检测能力;另外,GANs有可能被用于一些攻防规则比较容易用数学模型定义的安全领域,在某些安全领域实现人工智能机器自动攻防的梦想前景。笔者认为,在Malware攻防领域,由于样本的成熟度比较高,安全公司的运营团队成熟,加上这个领域企业的安全需求比较大,所以最有可能取得类似的突破。当前学术界的研究,已经初现Malware自动攻防的端倪。在这个领域笔者认为可以重点关注两个公司,一个是Cylance,一个是Deep Instinct。Cylance广泛使用机器学习技术用于其安全产品,主打的Malware检测产品,大量使用机器学习模型,这个是机器学习广度运用的成功case。 Cylance在去年获得1亿美元的D轮融资。Deep Instinct号称是业界第一家运用深度学习技术进行APT检测的公司,它的Off-the-Shelf Malware检测引擎,在针对阿里云Malware样本上的实测,也取得了不错的成绩。Deep Instinct在上个月刚获得B轮3200万美元的融资。 另外一个快速发展的安全领域将是IoT安全。随着智能设备广泛的应用,IoT在今后几年的发展会更加迅猛,但是由于IoT设备的特性以及历史原因,IoT设备的安全防护一直处于一个低水平。早在2010 年,Stuxnet 蠕虫病毒就针对西门子的监控与数据采集(SCADA)系统进行攻击;去年10月, Mirai恶意软件侵袭了大量存在低级漏洞的智能摄像头、网关、家电等IoT设备,并利用它们作为肉鸡,攻陷了北美地区的主要DNS服务器,使得北美基于DNS的大规模的互联网访问,中断了数个小时,造成很大损失。今后IoT设备,天然结合云端的设备数据上传,会是机器学习发挥能力的绝佳战场。这个领域可以关注一些初创公司例如Bayshore Networks,这家公司在今年3月取得440万美元的A轮融资。 安全领域应用场景对机器学习算法的应用有几个特殊的要求,一是对误报率的要求非常高。误报的含义就是将正常的用户行为解读为攻击。最近几天Facebook颁了一个十万美金的安全奖,给CMU的一个鱼叉钓鱼攻击检测研究团队,主要技术因素就是这个检测方法的误报率非常低。安全领域的问题,如果误报高,就算告警结果涵盖所有的攻击,实际的结果仍然不可用,因为没有哪家公司可以提供庞大数量的安全工程师,去分析过滤机器学习的告警,遑论安全工程师的水平也会参差不齐,会有人工误差。二是安全领域的问题,往往没有ground truth,也有人喜欢说没有上帝视角。也就是说,其实没有人知道某种异常行为,到底是不是攻击,这个事情听起来很沮丧,但是这个确实是现实,一些诡异和精心设计的攻击,很难用常规的办法去确认。造成机器学习模型,在这种场景下,没有反馈,很难形成数据闭环去不断优化;三是在安全领域,大多数的问题,没有样本或者极少的样本,导致很难建立相对比较精准的监督学习模型,无监督学习的模型,又会造成问题一中误报率高的问题。综上所诉,这三个问题互相交织作用,造成机器学习在安全领域的应用一直比较艰难。 近年来云计算的发展,为解决上述难题,提供了一个良好的环境;云平台本身每天面对的攻击体量和频率都远远大于线下环境,比如,阿里云平台每天防御的体量为16亿次攻击,其中成功防御的DDoS攻击占全网一半以上,对攻击数据的甄别和保存,形成了大量和多样性的攻击样本沉淀; 另外,云计算平台本身提供了海量数据的计算能力,对人工智能大数据模型提供了平台级的计算支持。在阿里云, 我们依托阿里云计算平台和大数据的优势、国内顶尖的安全和机器学习算法人才, 针对上述难题,找寻和攻克解决这些问题的答案。这也是我认为基于云的安全算法,大有可为的原因。 针对安全告警误报的问题,我们运用较长历史的大数据流量,使用统计学习模型+深度学习模型,学习人、设备等的正常行为,如果现有安全告警被这些模型分辨为历史上出现过的正常访问行为,就可以判断为误报,使用这种方法,我们可以将目前主机入侵的日告警量,降低85%以上,并且全部保留对阿里云真正有威胁的攻击告警。 针对第二个问题,我们从工程上运用灰度测试的技巧,及时比对模型和模型之间,模型和安全规则之间的误差,从有限的用户反馈,来最大限度的达到拦截攻击流量,同时保留正常用户的访问不受干扰。为了解决上述第三个问题中提到的没有样本或者样本少的问题,除了做好数据打标的留存工作,我们还使用了深度学习模型去生成样本,再用当前的机器学习检测模型做样本的甄别, 生成的混淆样本可以极大的增强现有模型的鲁棒性[1],这里我们引入了一个强化学习样本生成的思想,使用机器学习模型自身,去加强机器学习模型自己。 阿里云安全的数据智能团队,主要运用机器学习技术,支持阿里云平台自身的安全,也让安全服务变得更智能、高效。我们希望将安全传统的防守视角,转变为攻守兼备。 安全是网络安全和人工智能时代“风口”的交叉点。我从机器学习算法出身,在安全领域游荡了9年,研究风控、机器学习和算法研发,但至今仍深感对这两个领域的了解不足。对于安全算法的未来之星们,我的建议是:均衡发展,同时培养和积累两个领域的能力和经验,并且不断付诸于实践,才是在这个行业里成就自己梦想的关键突破口。 据我所了解,每年国内的安全人才缺口在10万级,从事安全事业的人才,又掌握机器学习算法武器的,少之又少。于我来说,交叉型人才最聚集的地方,除了国内外顶尖的安全公司和人工智能厂商之外,还有各大高校,这也是为什么,阿里云每年举办安全算法大赛,从行业和高校,寻找“跨界”的参赛队伍。在切磋与合作中,每年1000多位来自算法或者安全领域的高手,取长补短,激发出新的灵感和技术方向。不仅如此,安全算法虽然目前“稀缺”,但在未来,必然会成为云安全的必备武器。当有一天,100%的企业都安家云上,安全一定不是仅仅用人力可以解决的问题,每个机器大脑背后的智慧,是推动云安全前进的关键。 一切技术发展的背后,人才是最珍贵的源泉。我们当下的所思、所想和所为,会在一次又一次的技术变革中得到印证。而我们现在要做的,就是开始。 云栖大会购票通道请戳这里!。 1鲁棒是Robust的音译,也就是健壮和强壮的意思。 它是在异常和危险情况下系统生存的关键。 比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。 所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。 云栖大会报道: 专访新浪微博黄波:千人千面,机器学习赋能用户信息流消费 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
10月11-14日,为期四天的2017杭州云栖大会将再度在杭州云栖小镇举办,作为全球最具影响力的科技展会之一,本届大会不仅有阿里集团专家以及各企业行业领袖的精彩演讲,众多让人耳目一新的黑科技也将集体亮相。 2017杭州云栖大会详情请戳这里! 从2010年至2016年,从中国地方与行业网站峰会、阿里云开发者大会到云栖大会,历经7年的不断进化,云栖大会已经成长为阿里巴巴集团技术实力和科技生态的全景展示平台。本届“飞天·智能”云栖大会规模会更大,内容将更丰富:2场主会完美诠释“科技赋能”、22场前沿峰会多维度展示计算生态、100+场主题论坛全面解读云计算、大数据、人工智能技术,同时还有400+科技企业展以及连续3天的云栖虾米音乐节和云栖夜跑,预计参会人数将超过4万!毫无疑问,这将是一场科技界的饕餮盛宴。 如果您对议程以及购票等有相关问题,欢迎查看此处 如果您抢到了本次大会的门票,下面的提示要点也许能帮助您获得更好的参会体验: 1.活动地点是杭州云栖小镇国际会展中心,坐标杭州市西湖区河山路1号。会场周围比较近的公交站台有云栖小镇、鲤鱼山、良户西、蜈蚣山,可乘坐112、121、190、433、1404、103b路公交车直达。此外,主办方在萧山机场、杭州火车东站以及各区片设置了多个接驳点,并提供了相关酒店预定服务,具体发车时间及位置请参考官网。 2.天高昼暖夜来凉。寒露过后已正式入秋,冷热交替的天气下参会小伙伴们要注意适时增减衣裳,准备好御寒的衣物,备好伞具。会议期间,预计杭州的天气和温度如下(仅供参考,实际情况以当天为准!): 3.会场周边餐饮资源较少,参会者可通过多种方式在大会现场就餐。VIP餐券持有者可凭VIP餐券在指定区域现场就餐;团队、参展单位也可通过现场订餐或提前预约的方式采购餐券。主办方在会场设置了餐饮服务台,第一时间解决就餐咨询、餐饮发票等事宜。 4.为期四天的大会议程极为紧凑:3场主论坛、22场前沿峰会、100+场分论坛、400+科技企业展,同期还会连续举行3天的云栖虾米音乐节及云栖夜跑活动。议程间没有设置单独的茶歇时间,请注意在大会前保证充足的睡眠并提前到场,同时不妨提前圈定议题,以免错过同期的数场精彩演讲。 5.本次会议门票包括参会票A、参会票B、Tech Insight票、ATEC票、VIP票这五类,各个票类所享的权益不尽相同,请参会小伙伴明确具体细节,便宜行事。 6.友情提示:目前Tech Insight票、ATEC票、VIP票已全部售罄,仅有参会票A、参会票B可供选择,且网络购票和付款通道预计于2017年09月30日正式关闭(余票有限,欲报从速)。 7.从2010年至2016年,历经七年的不断进化,云栖大会已成长为阿里巴巴集团技术实力和科技生态的全景展示平台。本次“飞天·智能”云栖大会将秉持一贯的准则,汇集阿里集团专家以及各企业、行业的领袖,以更多的维度展示阿里、蚂蚁金服和生态合作伙伴的技术分享,从云计算到大数据再到人工智能,涵盖弹性计算、企业云存储、数据库等基础技术,以及数据智能、量子计算、异构计算/高性能计算、智能语音交互、视觉处理等等,不一而足。还有记得带上身份证(同传耳机需要)!最终议程请参见官网。 8.10月10日,云栖大会Tech Insight专场汇聚阿里云众多专家和各行业MVP,面对面深度技术分享。这是一场专门针对开发者、架构师,以及产品技术管理人员的“实战”技术之旅,5场分论坛、2场Workshop、1场MVP Demo Show,顶级技术专家们解读各类跨行业解决方案,您将与现场上百位技术从业者进行深度交流,更可以进行现场实践。除此之外,大会还专设了阿里云专家一对一区域,现场为您定制企业解决方案。 9. 科技,音乐,运动,三者的结合为本次大会带来了不一样的Feel。10月11日-13日,大会联合虾米音乐为小伙伴们带来云栖虾米音乐节,与众多音乐大咖一起感受韵律与科技的全新碰撞。同时持续三天的云栖夜跑活动,让您在运动与数据的共振中尽情释放自我。 10.上千家行业开发商/“传统IT”公司新渠道技术部已经团购了门票参会,请大家准备好名片,多和会场中坐在您身边的朋友交流、换名片,或许他就是您潜在的技术合作伙伴。 11. 大会视频演讲将在直播结束后尽快对外提供点播服务,相关讲义资料将在下载专题中持续更新,10月20日前所有可对外分享的资料全部公开。请关注会员积分获取通道。 一切就绪,只待君临!更多详细信息,请参见2017杭州云栖大会官方网站,相信四天的会议绝对会让您收获颇丰,不虚此行! 附:云栖大会FAQ(持续更新中) 购票相关 Q: 2017杭州云栖大会有哪些种类的门票?大会招募什么时候结束? A: 2017杭州云栖大会目前分参会票A,参会票B和VIP门票共三类门票。门票在9月1日前购买可以享受优惠价格,具体价格参见大会官网大会报名截止时间为9月30日(不排除会因门票售罄提前截止,大家有参会的需求,一定要提早下手哦)。 Q:报名为什么一定要官网报名,并提交身份证? A:根据相关部门对大型活动安全的总体要求,所有到会人员必须实名登记。官网报名数据已经连接安全验证,且现场取票需凭本人的身份证证件才能获得; Q: 港澳台用户没有身份证,要如何购票? A: 港澳台用户可以通过大会官网英文站进行购票。去英文站购票 Q: 购买门票后,什么时候能收到报名成功的通知? A: 报名成功通知会以短信的形式,发送至您报名时填写的手机,8月份开始,每两周会统一发送一次报名成功短信。 Q: 购买门票后,可以在哪里查看我的购票信息? A: 您可以点击大会官网右上角“我的票务”查看自己的购票信息。 Q: 购买门票后,怎么申请发票? A: 您可以在“我的票务”中直接申请发票,或者您也可以登陆【阿里云官网-控制台-费用-发票管理-发票索取】,勾选相应订单,申请发票。 Q: 大会门票是否可以退票或换人参会? A: VIP门票退票截止是为9月1日24时,更换参会人的截止时间为9月30日24时 参会票:8月31日前购票,退票截止日期为9月1日24时;9月1日至9月30日购票,退票截止日期为10月1日24时;参会票不能换人。 Q: 如需退票,怎么操作? A: 登录阿里云会员中心提交工单,即可退款。提交工单时请标明您需退款的账单号。【提交工单】 Q: 我买了一张门票B,现在想要更改音乐节的时间,如何操作? A: 非常抱歉,我们不支持更改时间,您可以退票后重新购买。 Q: 报名时填写的手机号码填错了,可以修改吗? A: 可以修改。请登录阿里云会员中心提交工单,小二会帮您进行订正的。 参会相关 Q: 报名成功后,会发送参会通知短信吗?什么时间发送? A: 大会参会二维码短信将在会前7天左右,发送至您报名时填写的手机。 Q:购票时我只选择了一天的参会时间,是否会影响参会,需不需要修改? A:不影响参会,您可以4天参会,凭本人证件您可以多次进出会场。 后期视售票情况,我们会对现场进行人流控制,参会嘉宾在官网购票时需选取首日抵达日期,以首日抵达时间为准。(还是那句话,有参会需求,亲们要提早下手哦) Q:参会证件如何领取? A: 参会证:中国大陆参会嘉宾证需嘉宾持本人凭身份证在大会现场通过自助机领取,领取时间待官网通知。 VIP证件可提前申领或在大会现场的VIP签到处领取。 港澳台及海外嘉宾证件由阿里云海外团队负责申领或现场人工通道采集照片后领取。
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访(关注“云栖大会”社区公众号了解更多大会信息)。本期我们采访的是新浪微博机器学习平台负责人、资深架构师黄波,他将在10月的云栖大会上分享微博信息流产品中机器学习和深度学习的实战解读、最新进展,以及搭建微博机器学习平台和深度学习平台的经验总结。 2017杭州云栖大会详情请戳这里! 黄波,微博机器学习平台技术负责人、资深架构师,负责微博机器学习平台和Feed算法系统。他毕业于中科院计算所,参与研究了高性能计算和算法优化;并曾供职于百度,参与开发了分布式文件系统。2010年加入新浪微博,目前专注于机器学习、深度学习、高性能计算、大数据处理等领域,致力于打造机器学习平台和深度学习平台,将机器学习技术和分布式计算应用于微博 Feed信息流、推荐、反垃圾等业务场景。 跬步千里,微博深入应用新兴技术 新浪对于大数据和人工智能技术的应用,最早可以追溯到2008年,并且随着技术的深度应用在不断发展完善。 2008年左右,新浪开始搭建Hadoop集群,建立信息系统收集公司级的基本数据,奠定了大数据系统的基础。2009年起,随着微博的兴起和壮大,越来越多的用户、内容和行为等业务数据沉淀下来,奠定了大数据的业务数据和业务场景基础。2011至2012年,微博开放平台让微博数据和第三方数据能够互通。2013至2014年,成功构建了大数据Darwin平台,用于梳理和挖掘用户数据及行为数据,刻画了微博用户的用户画像,并对微博短文本进行分析理解,形成了内容标签等内容理解体系;同时在技术上,以分布式离线处理为基础,成功引入了实时流计算,让数据能更快发挥价值,从而更好地服务于业务。2015年起,微博大数据和Feed、热门微博等业务充分结合;2016年,开始强调机器学习和人工智能挖掘数据价值的能力在业务中的作用,并开发搭建微博的机器学习平台和深度学习平台。 毋庸置疑,大数据、机器学习、人工智能已经逐渐渗透到了微博的各大业务中。然而,这一过程中不可避免地遇到了一些技术挑战。黄波表示,分布式离线计算技术的挑战就是其一,因此微博紧跟业界Hadoop生态的发展,由Hadoop 1.0升级到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等组件,解决了大数据离线处理的问题。其次是实时流计算技术的挑战,基于此微博选择了依靠开源社区的发展,包括Storm、Spark Streaming等技术的发展和成熟。“目前遇到的最大问题是大规模机器学习和深度学习技术”,为了从容应对这一难题,微博一方面持续深入和阿里云的合作,引入数加、EMR、HPC、PAI等成熟系统来加快技术发展速度,另外一方面还依靠了开源社区的Glint、Angel、Spark、Tensorflow等机器学习技术,自研和完善参数服务器WeiPS、机器学习编程框架WeiFlow来满足微博机器学习和深度学习平台的业务需要。 千人千面,人工智能助力亿级规模的用户画像 数据是人工智能的基础。微博充分发挥了作为社交媒体的先天优势,以其平台所拥有的亿万级图片、视频和文本数据,刻画出了微博庞大的业务体系和用户画像。 黄波介绍,微博数据有内容数据和用户数据这两类。内容数据包括图片、视频和文本等。对于这类数据的处理方法,一是将内容数据映射到微博内容标签体系(微博内容标签体系分为三级内容标签,例如:一级的体育;二级的篮球;三级的金州勇士等),可解释性强,但存在一定歧义,准确性有待提高。另一种处理方式是对内容做embedding,通过embedding向量做匹配或推荐,能够对内容更深入地理解,但是解释性较差。内容数据还有一个独特的点是内容发布人,即发博者。在长期的实践中可以发现,社交网络和社交媒体中的发博者有着相对稳定的特征,在业务场景下简单有效。用户数据包括用户静态数据和用户行为数据,通过挖掘用户性别、年龄、地域、注册时间、账号类型、是否橙V等静态特征构建用户静态画像,通过分析用户在业务产品中的特定行为来构建用户行为画像,例如用户一级兴趣标签、用户实时兴趣标签等。 以上所述的内容数据和用户数据就是业界常说的特征,通过与模型的结合,能为微博Feed信息流、热门微博等场景带来显著的效果提升。在这其中,人工智能技术的部署应用,也为微博的整体技术架构带来了深刻的变化。 人工智能技术的引入,让微博的离线系统、实时系统、在线系统融合得更加紧密。在线系统的业务数据化为机器学习提供了最基础的业务样本数据;离线系统的模型训练充分利用了分布式计算能力,加强了对大数据的处理和理解;离线训练出的模型加载到在线系统并应用于业务系统中,能够为业务发挥作用;同时,实时系统不仅可以提供实时特征,而且还能提供机器学习在线训练服务,有效保障了特征和模型的时效性,从而良好保障了业务效果。以微博Feed信息流为例,基于对内容数据的充分理解和对用户画像的精确刻画,利用大规模机器学习模型排序能够有效控制大量低质内容,深入挖掘出用户感兴趣的个性化内容,从而改善微博Feed信息流的用户体验。 此外,微博特别设立的机器学习实验室也在深入研究人工智能技术潜在的应用价值。“追踪前沿技术,保持技术领先;落地微博业务,体现技术价值”,这是微博机器学习实验室的初衷和使命,其主要的研究方案包括机器学习算法、推荐算法、自然语言理解、计算机视觉、语音识别、机器学习系统、分布式计算系统、高性能计算系统、大数据技术等。黄波提到,目前在大规模机器学习排序算法、深度学习排序、深度学习推荐、文本处理、图片识别、机器学习平台、深度学习平台等方面都已经取得了不错的进展,特别是微博大规模机器学习排序算法在微博Feed信息流、热门微博中的应用和全量上线,取得了显著的效果。 返璞归真,技术落地创造实践价值 时下的社交媒体大趋势,都在致力于通过大数据、人工智能来更全面地了解用户画像、更深刻地理解内容、更细致地结合业务场景,从而提高信息分发效率,为用户提供更好的内容消费体验。 微博实践表明,人工智能技术能够更好地促进产品和业务的发展。在微博,大数据、人工智能等新兴技术广泛地应用到微博Feed信息流、热门微博、Push消息推送、图片推荐、反垃圾等业务中,并取得了不俗的效果。产品和业务目标的理解是基础,在目标理解的基础上再将产品场景、业务目标、用户行为、内容数据等数据化。数据化之后,技术人员利用大数据策略、机器学习模型等方法拟合或逼近业务数据目标,这个过程通常需要借助大规模分布式计算和高性能计算来迭代逼近。同时也要求尽可能早地将这些策略或模型灰度上线到线上系统中,便于收集灰度测试数据,对比评估业务线上效果。数据化是指产品全流程的数据化,包括机器学习模型上线灰度对比的数据,用数据来说明效果。 在本次云栖大会上,黄波将分享微博机器学习平台、深度学习平台的架构和实践,介绍其在微博信息流产品中的实战解读,同时介绍平台搭建中的经验教训,向业界分享微博在机器学习和深度学习方面的最新进展。同时,黄波也希望可以借助这次机会和业界深入交流,获得更多业界经验来完善内部系统及平台,更好地为微博业务服务。(购票请戳这里!)。 欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”! 专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏)
摘要:9月7日,阿里云栖专家“走进京颐”线下活动在上海举行,大咖云集共话医疗新技术。会前,京颐集团CTO兼医疗云事业部总经理宋建康接受了云栖社区的专访,着重介绍了京颐基于医疗核心业务系统的平台建设情况。 2011年,移动互联网医疗概念横空出世。近年来,互联网、云计算、人工智能在国内外的发展如火如荼,这些关键技术的推出推动了医疗信息化建设的全面转型,由此驱动的互联网医疗、医疗云、智能医疗,已然成为当下的行业热门。然而,一个简单的应用模型,却带来了前所未有的挑战。 在“走进京颐”活动中,京颐集团CTO兼医疗云事业部总经理宋建康在会上介绍了移动互联网医疗的现状、医疗云平台的设计及应用,并在采访中对这些热点话题进行了全面解答。 移动互联网医疗的堂吉柯德 医疗行业准入门槛之高毋庸置疑,给移动互联网医疗带来了极大挑战,更遑论中国医疗体制内现存的各种复杂问题。宋建康表示,一方面,政策因素深刻影响着移动互联网医疗的推进;另一方面,市场发展趋于稳定、投资力度回归理性,保险、药品等各种盈利模式被逐一尝试,新模式乏力,导致盈利压力凸显;最为重要的是,医疗行业敏感度很高,业务复杂度与业务壁垒高,传统厂商占据医疗核心系统,移动互联网医疗难以进入核心领域。 虽然一系列的优惠政策陆续出台,比如国务院关于积极推进“互联网+”行动的指导意见、医生多点执业逐步放开、互联网第三方平台药品网上零售试点工作结束、国家卫生计生委办公厅关于征求互联网诊疗管理办法等等,在一定程度上有效调动了行业积极性,但是现状表明,互联网整合还存在相当大的难度。 凭借深厚的医疗IT服务能力、创新能力及创新机制等核心竞争力,京颐集团聚焦医疗核心业务,并推出了60+医疗行业产品,全面布局智慧医疗、互联网医疗、医疗服务等医疗信息产业。基于“互联网”+“平台”的未来核心战略方向,在采访中,宋建康着重介绍了京颐基于医疗核心业务系统的平台建设及应用情况。 基于医疗核心业务系统的在线交易云平台 “医院+”平台是京颐集团成员企业之一趣医网的核心平台性产品,针对医院、医生、患者、药店、供应商、基层等多角色所打造的多端应用。 在业务架构上,“医院+”平台对接了超过2000+二级以上公立医院的院内核心系统,并能兼容现网200多个厂家的异构业务系统。在技术架构上,其基于用户身份证号的地理分区机制,能够轻松解决数据库性能问题,提升平台横向扩展能力;高可还原性实时监控系统,支持分布式请求链路关联及跟踪、异常实时预警等,可快速精准定位问题;此外还应用了ATM远程升级系统,远程对院端系统进行升级及控制,降低维护成本,提高响应速度;还有端到端探测机制,可实时监控分布在全国数千家医院的服务状态。 “医院+”平台技术架构图 宋建康表示,阿里云作为京颐集团的重要合作伙伴,为整个业务系统提供了全方位的支持。在如上显示的技术架构中,就选用和部署了536台ECS、81台RDS、205个SLB、16台redis、5个DTS,以及其它阿里云云资源及产品服务,能够实现puppet集成化一件部署升级,自动监控预警管理还有灵活的异地灾备切换。云计算与AI不可分割,阿里云的人工智能ET目前已具备多项医疗能力,也为其提供了虚拟助理、医学影像、精准医疗、药效挖掘、新药研发、健康管理等辅助性功能。 在平台的搭建过程中,不可避免的遇到了来自业务与系统上的多重挑战。一是业务与系统的分化异构,为实现业务的个性化在后台兼容了2000个以上医院系统差异性适配;二是系统网络部署环境的挑战,系统内外网隔离容易带来延迟、内网IP问题;三是业务量的挑战,平台根据实际业务发展实行多分区支持,分区间独立运行,互不干扰,提升平台整体性能;四是7*24小时不间断的服务要求,包括监控中心、异常全链路跟踪、异常自动分类与排查等服务,平台基于requestId机制的跨服务器全链路异常跟踪体系,覆盖了用户终端、云、院端系统的全方位监控;五是版本管理问题,趣医独有的两端适配机制实现了高低版本的兼容适配,全量&增量升级、远程升级上也有设计;最后还有业务可靠性保障方面的挑战。 “医院”+“互联网”,致力于互联网医疗新生态 “依托‘医院+’平台,趣医网构筑了统一的医院移动互联网入口,推进医疗机构快速融入互联网新生态并完成互联网服务模式的转型。” 截至目前,“医院+”平台上线二级以上公立医院2034家,其中三级医院1200多家,占三级医院总数的54%。目前京颐共维护基于“医院+”平台的云计算中心服务器536台,各医院端服务器2000+台,具备资金结算和双向交易能力的医院1000多家。 连接一切,服务无边界。“医院+”平台致力于支撑医疗机构的信息系统,提供精确顺畅的业务流转平台,并最终构筑多方共赢的互联网医疗服务生态圈。其构建的互联网医疗生态圈架构,深度直连医疗机构,为医疗机构建设移动互联网服务的统一入口,并为第三方服务商提供了统一开放的服务平台,完美实现了基层、供应商、第三方的互联网服务。 “医院”+“互联网”的生态平台 依托‘医院+’平台,针对医院、医生、患者、药店、供应商、基层等多角色,京颐打造了丰富的多端应用,包括互联网就医便民服务平台、分级诊疗平台、区域临检、影像、心电、病理中心四大中心、物资供应链平台、商保理赔平台、智能综合支付平台、区域清结算平台、医疗云平台等等,实现了便捷就医、全方位业务监控、保障医疗业务数据准确性和安全性、支持模式多样化的医疗服务开展、“云+端”网络模式实现采购配送一体化、实现医疗机构与保险机构之间必要的数据共享,并最终实现互联网的就医支付模式。 “基层医疗机构不可能像大医院一样花很多钱去投入IT基础设施建设,自建信息团队,更不可能持续性的投入做系统的后续维护。” 在医疗云平台建设上,宋建康提到,医疗云平台面向中小型医疗机构能够提供“一站式”IT软硬设施租赁式云服务。以云HIS、云HRP、云PACS为核心,全面满足各医疗机构所需,为客户提供基于互联网的低成本、免维护、高安全的SAAS服务。 医疗云平台 互联网医疗的云化未来 随着医改向纵深方向发展,互联网、云计算等医疗信息技术必然会成为医改的重要抓手,然而要想真正把技术应用于医疗领域,解决行业面临的难点和痛点,仍然有诸多挑战横梗在眼前。因此,紧跟“互联网+”浪潮并加快云计算转型互联网的步伐,是每一个医疗从业者必须明白的准则。相信在未来,医疗行业必会向着互联网化和平台化转变,形成完整的生态链。 最后,宋建康表示,京颐集团未来还将持续致力于通过新技术手段革新医疗模式,更好地服务社会,改善民生。
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。本期我们采访的是阿里iDST Natural Artificial Intelligence团队(以下简称iDST NLP团队)负责人司罗,他将在10月的云栖大会上分享NLP领域的前言趋势以及阿里巴巴在这一领域的成果。 2017杭州云栖大会详情请戳这里! 司罗是最早一批从学术界转向工业界的人工智能科学家之一。 2006年,卡内基梅隆大学博士毕业的司罗进入另一所人工智能顶级高校——普渡大学计算机系任教,在这期间,他专注于信息检索、机器学习、自然语言处理等领域的研究,他是一位高产的学术专家,短短几年就发表了100余篇论文;2012年,成为普度大学计算机系终身教授后,一举奠定了司罗在学术圈的地位,他先后担任了ACM信息系统(TOIS),ACM 交互信息系统(TIIS)和信息处理与管理(IPM)编辑委员会的副主编,多次在国际学术会议担任重要职务(如2016 ACM CIKM 技术主席等) 但出人意料的是,2014年司罗结束了8年的学术生涯,成为阿里人工智能科学家阵营的一员。 对于这样的转变,他表示并不陌生。 “我在普渡大学任教期间就对技术应用场景和产品化、商业化的工作非常感兴趣,当时也有很多和工业界的合作。”司罗如此表示。 据云栖社区了解,司罗主导的 20 余个项目得到了美国政府以及雅虎、谷歌等工业界的资助,例如美国国家科学基金会成就奖、雅虎,谷歌研究奖等。 司罗在学术研究上的成功以及对人工智能商业化的理解让整个阿里巴巴集团的自然语言处理、搜索和推荐能力提升了一个台阶。去年11月,他带领的团队在信息检索、知识管理以及数据库领域的全球顶尖学术会议CIKM Cup竞赛中力压对手获得冠军,相比主办方提供的搜索排序基准指标,该团队提升了21.28%。 目前,iDST NLP团队主要分布在美国西雅图、硅谷以及杭州三地,他们用算法服务了阿里集团近十个DAU上千万的场景——淘宝评价、内容搜索、资讯推荐等;这是一支战斗力极强的团队,他们全部来自伯克利、普林斯顿、卡内基梅隆、清华、北大以及中科大等知名院校,不仅能做前沿学术研究,也善于把技术落地到实际应用场景中。 作为阿里iDST大团队的一部分,iDST NLP主要为阿里大生态系统提供自然语言处理相关的基础技术,以及垂直应用的技术支持。但在司罗眼中还有更长远的目标——通过技术输出赋能消费者、客户以及合作伙伴。 以下是采访实录: 云栖社区:介绍一下iDST Natural Artificial Intelligence团队。 司罗:众所周知,整个iDST团队在金榕老师带领下涵盖了人工智能几个重要的方向,包括语音、图像和NLP等。iDST NLP团队成员主要分布在“两岸三地”(美国的西雅图、硅谷和中国杭州),从地域来看,美国地区由经验丰富的专家组成,而国内更多的是年轻、有朝气、能够贴近业务的专家和工程师,他们都来自国内外一流的大学,例如伯克利、普林斯顿、卡内基梅隆大学、清华、北大以及中科大等。 除此之外,我们现在还在筹建阿里在新加坡的研发中心,所以未来会形成三岸四地的格局。 iDST NLP团队主要为阿里大生态系统提供国际化多语言自然语言处理相关的基础技术,以及重要的自然语言垂直应用的技术支持,未来也希望把阿里的自然语言技术发扬光大,通过技术输出赋能消费者、客户以及合作伙伴。 团队在全球顶级的大赛中也取得了很多突破,例如在CIKMCUP竞赛中我们获得了冠军,相比主办方提供的搜索排序基准指标,我们团队提升了21.28%,这是一个非常了不起的成绩。 云栖社区:iDST NLP团队的定位是什么,重点在做哪些项目? 司罗:刚才谈到iDST NLP团队主要为整个阿里大生态提供自然语言处理技术,同时也会对外赋能、处理相关的垂直应用。 从基础技术角度来看,去年年底我们开始搭建AliNLP技术平台,这个平台涵盖了很多自然语言处理的技术,例如词法分析、句法分析还有文档分析等。 AliNLP平台从去年年底开始研发,到今年年初开始上线,经过了内部团队不断的优化,目前为整个阿里大生态提供了一个基础的NLP算法。AliNLP平台它所产生的价值和影响力也在不断提升,到现在已经超过了90个业务方,每天的调用量超过了四百亿次。这里先做个预告,AliNLP平台正在上云的过程中,初期会通过阿里云的输出几个重要的功能,包括分词、实体识别、情感分析和文本反垃圾等,敬请期待。 除此之外,我们还在搭建另一个基础技术平台——阿里IE平台(Information Extraction,信息抽取平台)。因为很多场景下的文本是非结构化的,这就需要把它变成一个结构化的知识表示,例如拍卖场景中的委托书,我们需要从委托书中抽出什么是被委托的商品,拍卖的委托方是谁,希望中标的价格是多少……只有把这些信息有效的提取出来,才能建立搜索、推荐等功能。搭建阿里IE平台也是希望把基础算法能力在整个阿里集团的上层应用发挥作用。 当然,在阿里巴巴集团内部,我们也是很多自然语言相关业务的算法提供者,例如阿里电商环境的资讯搜索(淘宝头条的搜索、手淘淘攻略的搜索);还有整个淘系内部的评价,不仅要去掉涉黄涉暴力的内容,还需要知道消费者表达的是正面的评价还是负面的评价。 阿里集团内部有很多场景都涉及到自然语言处理相关的技术,都需要我们来提供算法的支持。 目前,团队还是集团内部很多重要业务的算法合作方,例如我们和和阿里小蜜合作研发了机器阅读理解的技术。 所以总结起来,我们在做三件事:基础技术平台的产品;重要业务算法的提供,淘宝内部的评价、资讯的搜索与推荐;重要技术的算法贡献。 云栖社区:AliNLP平台上线前后遇到了哪些挑战? 司罗:毋庸置疑,自然语言处理在很多应用场景当中都很重要,但是过去没有一个系统性的规划。我们是从去年12月份开始规划做这样一个平台,希望把自然语言处理重要的功能承接下来。 虽然AliNLP的愿景很美好,但是最开始遇到了很多挑战,因为团队中的很多工程师是做业务的,但是AliNLP更像是技术导向的平台,所以我们必须花很多时间让更太多的人参与进来。在团队组建好后,就开始给项目做规划,因为这是一个从无到有的产品,大家必须把做出更多的尝试,从哪个角度出发,用什么样的技术能达到比较好的效果等等。 从最初项目的规划到平台的上线确实花了很多的时间和精力,但是我觉得这个时间和精力是很值得的。 云栖社区:相比计算机视觉,NLP的发展相对较慢,从目前来看NLP发展到了一个什么样的阶段? 司罗:我认为NLP是既成熟又有活力,既实用又有技术远景的领域。 事实上,最早从六七十年代开始,自然语言处理都是采用“规则”方法, 80年代后随着大的数据集的出现,统计自然语言处理方法便逐渐成为了主流;最近几年,随着深度学习的崛起,NLP也取得了快速的发展,所以我认为它是一个非常成熟的领域;为什么说有活力呢?最近两三年创业最火的方向之一就是Chatbot,这是和自然语言处理紧密相连的领域。 既实用是指现在自然语言处理已经在很多领域都有很广阔的应用了,以阿里集团为例,几乎阿里的每个重要的产品都跟自然语言处理相关,例如商品的搜索和推荐,它是一个非常实用的一个学科;当然,它也是非常有技术挑战的学科,真正意义上的语义理解(能够分析出说话的背景,它要达到什么样的目的等等)不是靠数据上的关系分析就能实现的,例如siri、Cortana都是基于数据驱动的方式来实现语义理解,但它无法像人一样去理解。 所以,自然语言处理是实现完整人工智能或者叫强人工智能的一个必要的技术,而现在离这一远景还有很长的距离,这需要工业界和学术界共同的努力。 云栖社区:iDST NLP团队现在做出了哪些的突破? 司罗:iDST NLP团队现在还是基于我们本身的业务以及场景为出发点,一个有代表性的是情感分析上的领先,例如,电商场景的情感分析和其他友商提供的产品相比大约有10%的准确率的优势,当然一方面原因是阿里本身就拥有大量的电商数据,但更多的是因为我们做了很多通用领域的舆情,例如把技术用在一些学术界的标准数据集上,在电影评价上的标准数据集,我们也比学术界的最好成绩能领先2%以上。 另外,我们还是第一家真正大规模的把机器阅读理解应用到实际电商场景中的企业。所以在应用的实用性上,例如高效的模型的设计、高效的模型的实现都做了开创性的工作。最后,是自然语言生成。自然语言生成有两种方式,一种就叫抽取式,一种叫产生式,我们在这两方面都做了很多尝试:抽取式典型的例子是电商标题的改写,能够比较显著的提升点击率和转化率;生成式方式,我们现在是和阿里妈妈合作,它可以帮助联盟的用户更好的把他们所挑选出的商品在投放到社交渠道。 云栖社区:您觉得创业企业如何在NLP领域找到突破口? 司罗:创业企业特别是小企业要取得成功,我觉得有两种方式相对来说比较容易取得成功:一种只专注于某项具体的技术,就是把某一项或者一两项技术做深,做到真正的领先,创业企业不适合做一个完整的技术平台,较难有大量的投入,甚至大量的数据;第二种方式是专注于一个领域,自然语言处理得应用很广,例如法律文书的自然语言理解和微信闲聊的差距是巨大的,还有从专利中挖掘信息做竞品分析也有市场空间,初创企业可以考虑专注这些细分领域,面面俱到反而没有自己的特色。 云栖社区:未来,NLP会朝什么方向发展? 司罗:虽然深度学习是非常有价值的技术方向,它推动了自然语言处理的发展,但是我是觉得靠分步学习,或者统计自然语言理解是远远不够的,我们一定要把人类的知识表示,和对知识的理解更好的融入到技术当中,这样才能更有效,真正的达到自然语言理解本身的目标,否则就是光靠数据驱动,刚才也有提到,所以我认为把这一趋势的研究和数据结合是自然语言未来发展的重要课题。 云栖社区:您希望在下个月的杭州云栖大会上关注哪些议题?届时,您会分享什么话题? 司罗:首先,是机器学习、自然语言处理相关的技术问题;其次,业务上的议题我也很感兴趣,我非常希望通过这届云栖大会了解到各行各业对自然语言处理技术的需求,这样才能够更充分的理解客户的需求,做到有的放矢,才能让然语言处理的技术发挥最大的价值。 在本次大会上,我们组织了NLP专场,并且邀请到了很多外部学者,例如加拿大皇家学院的李明院士,还邀请了国内的,中国中文信息学会秘书长孙乐,苏州大学计算机学院副院长张民老师等,他们都是学界的领军人物;除此之外,因为这是云栖大会第一次办自然语言处理的专场,我们也希望借这个平台把iDST NLP团队的自然语言处理的技术能力对外展示,例如,我们会全面介绍AliNLP的平台技术输出,以及情感分析、机器阅读理解等。(购票请戳这里!)。 欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”! 专访阿里云易立:从实践积累到需求沉淀,容器技术必将引领主流 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏) 【印象】2017云栖大会城市峰会:上海、南京、成都等
活动当天分享视频和文章详情,请点击: 京颐医疗云产品总监柏鹏:云转型布局未来,我们是如何应对医疗云的挑战与机遇 京颐CTO宋建康:如何应对系统高度分化异构的挑战,打造不间断服务的在线交易云平台 9月7日,由云栖社区主办的云栖专家“访学”系列首场活动来到了京颐集团。活动当天,京颐集团总裁邵华钢博士做了开场致辞,此外,阿里云医疗大脑产品负责人基冈、京颐CTO兼医疗云事业部总经理宋建康以及京颐医疗云事业部产品总监柏鹏分别为现场听众介绍了阿里云ET医疗大脑以及智慧医疗行业的发展趋势。 基冈表示,云计算与AI不可分割,医疗数据是智能应用进入医疗场景的基础。一年前的杭州云栖大会上,阿里云正式发布了医疗大脑,一年后的今天,ET医疗大脑已具备多项医疗能力,可在患者虚拟助理、医学影像、精准医疗、药效挖掘、新药研发、健康管理等领域承担医生助手的角色。 阿里云医疗大脑产品负责人基冈 例如,ET医疗大脑拥有大量专家标注的医学图像,经过机器学习后培养能够自主识别医学图像的算法系统,这可以大大节约医护人员的时间。简单来说它有两个特点: 首先,打通专有云和公有云上部署系统的账号、网络、存储,实现在统一平台上一站式运维管理; 其次,构建基于zstack的混合云,满足数据安全性能和公有云弹性稳定的双重需求。 对此基冈还表示,阿里云ET医疗大脑的使命就是赋能智能应用进入医院业务场景。 那么作为在医疗行业扎根十余年的京颐又做出了哪些创新呢? 京颐集团CTO兼医疗云事业部总经理宋建康表示,互联网+平台是京颐未来的核心战略方向,他着重介绍了京颐基于医疗核心业务系统的平台建设情况。 京颐CTO兼医疗云事业部总经理宋建康 目前,京颐拥有60+医疗行业产品,包括分级诊疗、医疗支付、云HIS、HRP、医疗云等产品。以“医院+”平台为例,“医院+”平台是京颐集团成员企业之一趣医网的核心平台性产品,它针对医院、医生、患者、药店、供应商、基层等多角色,打造丰富的多端应用。他还透露,截至目前,“医院+”平台签约二甲以上公立医院2000多家,其中三级医院1200多家,占三级医院总数的54%。目前京颐共维护基于“医院+”平台的云计算中心服务器536台,各医院端服务器2000+台,具备资金结算和双向交易能力的医院1000多家。 值得注意的是,京颐集团的很多产品都用到了阿里云服务,宋建康透露,京颐目前使用了536台ECS,81台RDS,205个SLB,16台redis,5个DTS,以及其它云资源及产品服务。其中,京颐集团基于“医院+”平台成功服务了超过2000家医疗机构。 但惊艳的数据背后,宋建康也坦言在智慧医疗部署的过程中存在巨大的挑战: 1.业务与系统异构,即医院业务的个性化; 2.系统网络部署环境的挑战,例如系统内外网隔离,带来的延迟问题、内网IP问题; 3.业务量的挑战,多分区下的每个分区需要独立的数据库,分区间独立运行,互不干扰; 4.7*24小时不间断服务,需要实时状态监控与预警; 5.版本管理--高低版本兼容适配,云端既需要适配 APP 端的多版本,也需要适配院端系统的多版本; 6.业务可靠性保障。 十年磨一剑,基于京颐本身在医疗行业多年的积累以及阿里云技术的支持,这家公司已经成功克服了这些挑战。 最后,柏鹏分享了医疗云当前面临的挑战与机遇。他认为,基层医疗机构更适合SaaS云模式。医疗SaaS产品是一种标准化服务,主要针对的基层医疗和民营医疗机构提供服务。“基层医疗机构不可能像大医院一样花很多钱去投入IT基础设施建设,自建信息团队,更不可能持续性的投入做系统的后续维护。” 柏鹏还分享了一个案例:京颐为安徽省亳州市建设了统一的云HIS系统,覆盖了全市1520家各类机构,服务人数超过600万,刷新了单系统业务量之最,单日门诊量最高时达到4万多人次,同时也创造了10个月973家医疗机构上线的速度。 京颐医疗云事业部产品总监柏鹏 在他看来,云计算对医疗行业的影响主要体现在以下几点: 1.推动医疗行业商业模式的改变 2.建立无缝衔接的个性化医疗服务 3.提供低成本高质量的家庭医疗服务 4.“大数据”分析可提高公众健康 5.改变新兴市场医疗服务 谈到医疗云行业的未来趋势时,柏鹏表示未来几年医疗云将继续保持高速增长,而且医疗云的形态将会呈现出多样化的趋势;此外,数字医院云的部署范围会越来越大,区域医疗云会向纵深发展;最后,医疗云的部署方式将呈现从外到内、从点到块、从小体量到整体业务的趋势。 活动的最后,现场数十位参会人员一同前往京颐集团办公区进行了参观,在京颐产品展厅,工作人员向大家详细介绍了公司的全系医疗信息化产品。
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。本期我们采访的是阿里云资深技术专家易立,他将在10月的云栖大会上分享容器技术的现状解读、生态建设及应用落地。 2017杭州云栖大会详情请戳这里! 容器技术是目前云计算领域最受关注的方向之一。阿里云在2015年底推出了容器服务,之后在2016年云栖大会上宣布和Docker建立合作关系,今年阿里云和Docker公司的合作全面开花结果。易立作为阿里云资深技术专家,目前在阿里云负责云应用服务,并主要关注容器技术、开发者工具和开源生态领域的产品和技术。随着容器、集群调度、微服务等开源技术的发展,在本次访谈中,易立详细介绍了阿里云在容器技术和Cloud Native生态建设上思考与探索。 阿里云资深技术专家易立 容器技术的兴起存在必然性 微服务架构的兴起、DevOps理念的普及、企业应用迁云的诉求,加之Docker和Kubernetes等开源技术和社区的共同推动,催生了容器技术的发展推广和生态繁荣。这也正说明了“容器技术成为技术热点并非偶然”,易立表示,“容器技术是一种颠覆性的软件交付技术,它在深刻地改变着软件研发、交付、运维整个生命流程。” 首先,作为一个应用平台技术,容器技术的普及和社区的发展密不可分。Docker公司的成功之处就在于将一系列技术有机地结合在了一起,降低容器技术的复杂度,推动容器引擎的开源,并建立Docker Hub服务进行镜像分发和协作——这些举措创建了一个良好的生态圈。而Kubernetes的迅速兴起,也和Google在开源社区的开放态度和持续投入密不可分。阿里云在推动容器技术普及的过程中,也非常注重和社区的互动,比如为 Docker 社区贡献了 Docker Registry/Docker Machine等驱动,也将阿里云对Kubernetes的云驱动实现开源。同时将自己在容器运维服务中所解决的问题修正,改进性能、增强稳定性并回馈到社区当中。 其次,容器技术对于企业而言的一个重要价值是应用的可移植性,可以帮助应用简化迁云。云端的容器技术有很多特殊之处,容器服务简化和优化了阿里云服务之间的集成,可以让容器应用简洁高效地和弹性云资源、服务整合在一起。此外,阿里云容器产品也实现了与Docker/Kubernetes能力的完全兼容,并且内置混合云管理能力,让容器应用无缝迁移,能够对云上云下集群进行统一管理。 另外,容器和容器编排是一个底层技术,用户不仅要关注技术本身,也需要将容器技术和应用场景结合在一起解决问题。 技术创新最重要的是要为企业创造业务价值,然而容器服务沉淀的微服务架构、DevOps、深度学习等多个应用场景,在其落地过程中还是存在着许多挑战。一方面,用户缺乏容器化开发、运维和上云经验,他们需要大量的应用容器化改造经验为自己提供支持;另一方面,容器技术还是一个快速发展中的技术,其自身的成熟性也有一定的问题。 从实践积累到需求沉淀,产品能力的升华 虽然容器技术的应用仍然面临着许多亟待解决的难题,但是瑕不掩瑜,想要拥抱这一技术并实现最佳落地,就要求企业在选择容器服务时从多个维度进行细致考量。 易立认为,企业首先应从自己的业务诉求出发,思考自身IT架构的演进,然后找到一个业务切入点进行试验,获得体感。比如从简单的新应用入手,再逐渐对较复杂的企业应用进行容器化改造;从开发、测试环境入手,再逐渐在生产环境中使用;从本地环境先行使用,再应用到云端。此外还要注重容器服务产品的成熟度,对于企业应用平台来说这一点尤其重要,所以要尽量选择Docker或Kubernetes这样的主流开源技术,考虑其服务支持能力,选择经过实战考验的云厂商产品必然会更有保障。 与其他技术团队相比,阿里云容器团队具有着难以匹敌的优势。首先一点,是容器技术和阿里云服务的紧密集成,将强大的IaaS层能力和容器最佳实践结合起来提供了成熟的云原生应用平台;同时支持混合云管理,支持用户负载在阿里云上和用户数据中心按需迁移;最重要的是阿里集团有着丰富的大规模容器技术应用经验,自15年底推出以来已经服务了众多客户,积累了丰富的客户经验,能够将共性的需求沉淀为产品能力为更多的用户提供支持。 面向不同类型、规模的企业,阿里云推出了差异化的容器服务产品,提供不同的产品形态来服务不同类型的客户,包括公共云产品、飞天专有云企业版和飞天专有云敏捷版。公共云产品主要面向阿里云公共云客户;飞天专有云企业版是面向大型客户的全功能版本,部署在用户自有数据中心,包含完整的阿里云产品比如IaaS、PaaS、安全和大数据服务等;飞天专有云敏捷版则关注解决客户在PaaS层的业务需求,可以部署在用户已有的IaaS或者物理机环境中,5个节点起步。不同产品形态的容器服务都提供了对Docker和Kubernetes编排技术的支持,也都提供了混合云管理能力。 所以说,阿里集团积累的大规模容器化应用经验,以及阿里云在服务客户过程中汇集的丰富场景实践,可以为用户避免摸索过程中的很多弯路,此外阿里云和Docker也可以为企业客户提供专家级的技术支持。 阿里云容器服务自从2015年12月公测以来,已经拥有数百家企业客户,其中既有互联网用户,也有大型企业客户,有很多有趣和难忘的容器落地案例。如果有兴趣欢迎来到云栖大会容器技术专场,届时会邀请几位典型客户来分享自己的心得体会。 生态开花,容器技术大规模普及的未来 在推动容器技术社区和生态建设上,阿里云也扮演了举足轻重的角色。阿里云将Docker和Kubernetes相关的阿里云驱动贡献给了开源社区,更好地支持企业和三方ISV在阿里云上构建自己的容器解决方案。同时,阿里云还加入了CNCF (云原生计算基金会),致力于推动Containerd技术社区的建设。另外阿里云也在和合作伙伴一起共建技术生态,比如和Docker公司建立战略合作伙伴,帮助把Docker Hub等服务落地中国,普惠国内开发者并推动容器技术在中国企业市场落地;还利用了阿里云平台把Docker和Mesosphere的商业化容器服务更加简单方便地交付给国内用户。 对于容器技术的未来,“大规模普及是必然”,易立表示,未来的容器技术一定会成为主流的应用交付方式。一方面,容器技术将会拓展云计算边界,在边缘计算和IoT等领域中得到广泛应用。另一方面,它也会推动以应用为中心的基础架构的发展,大大提升IT架构的敏捷性。此外,容器技术和虚拟化技术也将深度整合,提供更加高效和安全的隔离能力。 在本次云栖大会上,除了一系列容器产品发布之外,易立也将关注容器技术生态发展和如何助力企业应用现代化,届时会有世界顶级的容器技术公司和组织加盟容器专场,分享广大开发者们在应用迁云和微服务架构上的实践心得(购票请戳这里!)。 欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”! 专访阿里云异构计算负责人:异构计算,GPU、FPGA、ASIC芯片将三分天下 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏) 【印象】2017云栖大会城市峰会:上海、南京、成都等 【印象】2016云栖大会城市峰会:上海、深圳、南京、北京等【印象】2016杭州云栖大会全套资料分享
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。今天,我们采访的是阿里云虚拟化平台负责人张献涛,他将在10月的云栖大会上分享他对异构计算领域的理解以及未来趋势的解读。 在IT界,异构计算并不是一个新兴的词。 近十年来,计算行业经历了从32bit、“x86-64”、多核心、通用GPGPU以及2010年“CPU—GPU”异构计算的变迁。而最近几年,随着人工智能、高性能数据分析和金融分析等计算密集型领域的兴起,异构计算才突然火了起来。 因为传统通用计算的方式已经无法满足我们对计算能力的需求,异构计算被认为是现阶段挑起计算大梁的关键技术,阿里云异构计算产品解决方案就在这样的大环境下诞生了,这支团队的掌舵人正是张献涛。 张献涛,花名旭卿,武汉大学信息安全博士,加入阿里巴巴前,他就职于英特尔亚太研发中心,是Xen、KVM等多个开源虚拟化项目的主要贡献者,曾担任Xen/IOMMU以及KVM/IA64项目的Maintainer;同时,他也是Intel HAXM加速器的主要作者和贡献者,并因此获得英特尔最高成就奖。 2014年,张献涛正式加入阿里巴巴任资深专家,目前在阿里主要负责虚拟化技术、高性能计算产品、异构计算产品、以及一些创新类型产品的技术和研发的团队。 在这次访谈中,张献涛分享了目前企业使用异构计算方案的痛点,他还深入介绍了阿里云在均衡异构计算资源所做的工作。 异构计算的机遇与挑战 异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,目前 “CPU+GPU”以及“CPU+FPGA” 都是最受业界关注的异构计算平台。它最大的优点是具有比传统CPU并行计算更高效率和低延迟的计算性能,尤其是业界对计算性能需求水涨船高的情况下,异构计算变得愈发重要。整个计算行业生态无一不在此发力,芯片企业投入了大量的资金,异构编程的开发标准也在逐渐成熟,而主流的云服务商更是在积极布局,一时间,异构计算大有取代传统同构计算之势。 张献涛也表示,异构计算能够很好的满足人工智能、高性能数据分析、金融分析等计算密集型领域的计算需求,而这一技术会逐渐取代原来通用计算不擅长的部分。 但是在光鲜亮丽的外壳之下,对于一般用户来说,异构计算的采购、部署以及使用门槛对绝大多数企业来说都很高。对此,张献涛主要谈到以下几个痛点: 1.采购成本高:用户小量采购基本上没有议价能力,特别是购买FPGA板卡,量少的话采购价格特别高。 2.交付周期长:通常用户从开始需要采购,到机型选择、硬件架构设计、供应商选择、机房选择、财务审批等流程通常需要几个月的时间。 3.没有弹性:采购完了GPU/FPGA的数量就固定了,任务少的话多买的GPU/FPGA就浪费了,任务多的话GPU/FPGA数量又不够用。 4.没有硬件红利:采购完了型号就固定了,如果有新的GPU/FPGA架构上线只能追加预算购买,老的GPU/FPGA性能跟不上应用了。 5.数据孤岛:线下的GPU/FPGA和线上的服务无法打通。 另外,他还补充道,做FPGA产品的最大挑战是整个FPGA的生态环境很差,具备FPGA开发能力特别是开发FPGA做计算加速的客户非常少。为此,我们会在云上建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并推动建立云上FPGA的开发标准,丰富整个FPGA的开发生态环境,吸引更多的IP开发厂商和合作伙伴把他们的IP放在IP开发市场上,去服务他们的最终用户,从而进一步丰富整个FPGA的生态环境。” 阿里云在短时间里先后推出弹性GPU和FPGA异构计算的解决方案,目的就是降低异构计算资源使用的门槛,对高性能计算有需求的企业可以随买随用。 云栖社区了解到,阿里云弹性GPU产品主要面向人工智能、数据分析、科学计算、电影渲染、视频图像处理、视频转码等场景,目前的应用案例包括行为数据分析、千人千面、人脸识别、视频识别、图像识别、对象分类等;阿里云弹性FPGA产品主要面向人工智能、半导体设计、基因计算、视频图像处理、数据分析决策等场景,目前的应用案例包括深度学习推理、深度学习模型裁剪、非规整数据计算、视频图像处理、硬件半导体设计等。 阿里云在异构计算领域的探索 众所周知,相比CPU,GPU和FPGA拥有太多的优势,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率;而FPGA的优势则主要体现在它拥有更高的每瓦性能、非规整数据计算更高的性能、更高的硬件加速性能、更低的设备互联延迟。 但在云端的解决方案上,便意味着优势的进一步放大,张献涛介绍,阿里云GPU和FPGA异构计算解决方案主要有以下特点: 1.GPU/FPGA资源即买即用,弹性伸缩。 2.超大规模资源池,满足业务峰值的GPU/FPGA数量的需求。 3.享受异构计算超摩尔定律的硬件红利,以相同的价格使用性能更强的GPU/FPGA实例。 4.最全面的异构产品线,满足人工智能训练、推理,图像视频处理等各种不同的需求。 5.产品整合:和整个阿里云产品体系深度整合,数据打通。 这些特性完美的解决了用户使用异构计算方案的痛点。张献涛还透露,现在大部分客户都在单机上训练模型,通常需要几周到一个月的时间,因此阿里云正在计划推出一款超高性能异构集群的产品。 “该产品的GPU/FPGA之间可以通过25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。” 值得一提的是,阿里云异构计算解决方案也针对开发者做出了更友好的体验: 在GPU编程方面,阿里云会推出分布式多机多卡训练框架和其他GPU上的性能优化服务,能够大大降低客户使用多机多卡的门槛,从而减少客户在云上做深度学习训练的时间。 FPGA方面,阿里云会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并且会推出自研的IP系列,通过IP市场的繁荣让更多的最终用户能够享受到FPGA的性能加速。 另外,阿里云还推出了IaaS+的服务,包括发布E-HPC产品做异构集群的资源调度、账号管理和弹性伸缩,通过容器服务来做一键部署、分布式训练和弹性伸缩,通过XDL来做行为数据分析,利用阿里云自研的GPU汇编器来优化提升应用的性能,提高异构计算设备的利用率,减少资源的采购成本。 未来:GPU、FPGA、ASIC三分天下 人工智能以及其它新兴应用领域对于计算量的需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长速度能够满足这些新兴的方向和趋势,可以预见的是,异构计算会在今后的数据中心中占据越来越多的份额。 宏观来看,异构计算的发展也得益于国家战略的推动。例如,最近国家下发了人工智能的发展规划,人工智能已经成为国家战略,这势必会刺激异构计算的需求。当然,张献涛也坦言,虽然异构计算的应用需求越来越多,但通用计算的需求也会一直存在,二者将会长期共存。 毫无疑问,目前异构计算领域GPU处理器已经占据了主流地位,但对未来的趋势,张献涛则表示,“随着FPGA的生态环境的建立和完善、ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。” 这也是张献涛团队专注的方向,接下来团队会发布包括8卡/16卡GPU产品、下一代的Volta架构的GPU产品、新一代的FGPA的产品,而ASIC芯片的产品上云也正在研发当中。 目前他所带领的团队主要有两个目标:一方面致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案;另一方面致力于让用户能够用好异构资源,充分发挥异构资源的处理能力,让用户的服务更具备竞争力。也就是推动异构计算变成一种普适的计算能力。 云栖大会亮点揭秘 本次杭州云栖大会将设立异构计算/高性能计算专场、虚拟化技术专场,届时张献涛都将发表主题演讲,在大会正式开幕之前,他也向云栖社区透露了一个重磅消息——阿里云将发布几款重量级的异构计算家族产品,涉及到异构计算、通用计算、高性能计算等多个领域。他表示,这些产品都是为了解决用户在使用阿里云的过程中遇到的痛点,包括集群的管理和调度问题、云上弹性使用付费软件的License问题、实例需要即拥有虚拟机的弹性又要拥有物理机的性能、多机多卡分布式训练降低训练时间等问题。 以下是本次访谈实录: 云栖社区:异构计算能提供比传统CPU并行计算更高效率和低延迟的计算性能,这是否意味这后者将会被取代?您如何看待二者的发展趋势? 张献涛:通用计算和异构计算的需求都会一直存在,通用计算不会完全被取代。但是随着人工智能、高性能数据分析、金融分析等计算密集型领域的日益兴起,异构计算能够更好的满足这部分的计算需求,异构计算会越来越多的取代原来通用计算不擅长的部分。阿里云顺应这个趋势推出弹性GPU和FPGA异构计算的解决方案,就是为了更好的满足日渐增长的人工智能、数据分析、商业智能对于异构计算的需求,能够让他们随买随用,让异构计算不再是一种高高在上的昂贵的资源,而变成一种普适性的基础计算资源,推动人工智能等产业的发展。 云栖社区:今年1月,阿里云推出了弹性GPU和FPGA异构计算解决方案,这一方案主要面向哪些应用场景推出的?目前有哪些应用案例? 张献涛:首先,GPU的的优势包括比CPU更高的并行度、更高的单机计算峰值、更高的计算效率,阿里云弹性GPU产品主要面向人工智能、数据分析、科学计算、电影渲染、视频图像处理、视频转码等场景,目前的应用案例包括行为数据分析、千人千面、人脸识别、视频识别、图像识别、对象分类等。 其次,FPGA的优势包括更高的每瓦性能、非规整数据计算更高的性能、更高的硬件加速性能、更低的设备互联延迟,阿里云弹性FPGA产品主要面向人工智能、半导体设计、基因计算、视频图像处理、数据分析决策等场景,目前的应用案例包括深度学习推理、深度学习模型裁剪、非规整数据计算、视频图像处理、硬件半导体设计等。 除此之外,因为现在大部分客户都在单机上训练模型,通常需要几周到一个月的时间,我们计划推出一款超高性能异构集群的产品,该产品的GPU/FPGA之间可以通过25/100Gb ROCE走RDMA协议直连,可以多机多卡,用非常多的GPU/FPGA设备集群来共同训练一个模型,大大减少用户训练的时间,从几周到一个月缩短到一天或者几个小时的级别。 云栖社区:异构计算方案的优势很明,但仍然处于发展初期,目前异构计算模式面临的最大挑战是什么? 张献涛:目前用户自己采购异构计算的话遇到最大的痛点包括: (1)采购成本高:用户小量采购基本上没有议价能力,特别是购买FPGA板卡,量少的话采购价格特别高。 (2)交付周期长:通常用户从开始需要采购,到机型选择、硬件架构设计、供应商选择、机房选择、财务审批等流程通常需要几个月的时间。 (3)没有弹性:采购完了GPU/FPGA的数量就固定了,任务少的话多买的GPU/FPGA就浪费了,任务多的话GPU/FPGA数量又不够用。 (4)没有硬件红利:采购完了型号就固定了,如果有新的GPU/FPGA架构上线只能追加预算购买,老的GPU/FPGA性能跟不上应用了。 (5)数据孤岛:线下的GPU/FPGA和线上的服务无法打通。 所以阿里云推出了弹性的异构计算解决方案,能够很好的解决用户的这些痛点:(1)GPU/FPGA资源即买即用,弹性伸缩。(2)超大规模资源池,满足业务峰值的GPU/FPGA数量的需求。(3)享受异构计算超摩尔定律的硬件红利,以相同的价格使用性能更强的GPU/FPGA实例。(4)最全面的异构产品线,满足人工智能训练、推理,图像视频处理等各种不同的需求。(5)产品整合:和整个阿里云产品体系深度整合,数据打通。 另外弹性FPGA产品的最大挑战是整个FPGA的生态环境很差,具备FPGA开发能力特别是开发FPGA做计算加速的客户非常少,我们会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并推动建立云上FPGA的开发标准,丰富整个FPGA的开发生态环境,吸引更多的IP开发厂商和合作伙伴把他们的IP放在IP开发市场上,去服务他们的最终用户,从而进一步丰富整个FPGA的生态环境。 云栖社区:对开发者而言,异构计算的编程难度和开发成本更高,对此阿里云作了哪些工作? 张献涛:GPU编程方面阿里云会推出分布式多机多卡训练框架和其他GPU上的性能优化服务,能够大大降低客户使用多机多卡的门槛,大大降低客户在云上做深度学习训练的时间。FPGA方面,阿里云会建立IP开发市场并且引入一系列的FPGA IP合作伙伴,并且会推出自研的IP系列,通过IP市场的繁荣让更多的最终用户能够享受到FPGA的性能加速。另外阿里云还推出了IaaS+的服务,包括发布E-HPC产品做异构集群的资源调度、账号管理和弹性伸缩,通过容器服务来做一键部署、分布式训练和弹性伸缩,通过XDL来做行为数据分析,利用阿里云自研的GPU汇编器来优化提升应用的性能,提高异构计算设备的利用率,减少资源的采购成本。 云栖社区:能否谈谈对异构计算的理解?以及分享你在工作中获得的一些宝贵经验? 张献涛:随着人工智能的兴起,一些新兴应用领域对于计算量的需求以及超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长速度能够满足这些新兴的方向和趋势,异构计算会在今后的数据中心中占据越来越多的份额。最近国家也下发了人工智能的发展规划,人工智能已经成为国家战略,未来会推动国家产业升级、社会进步的方方面面,而人工智能离不开异构计算。我们的工作一方面致力于让异构计算变成用户即买即用的计算资源,提供最为全面的异构计算产品方案,另一方面致力于让用户能够用好异构资源,充分发挥异构资源的处理能力,让用户的服务更具备竞争力。我们希望推动异构计算变成一种普适的计算能力,从而推动人工智能的发展,进而推动产业升级和社会进步,改变人们的生产、生活方式。 云栖社区:您认为异构计算领域未来会有什么样的新变化? 张献涛:目前异构计算领域是GPU处理器占据主流地位,未来随着FPGA的生态环境的建立和完善,随着ASIC芯片的逐渐成熟,未来异构计算领域会呈现GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都会有自己独特的特长和应用领域,有自己独特的客户群体。阿里云后面会推出更加全面的异构计算产品族,包括8卡/16卡GPU产品、包括下一代的Volta架构的产品、包括新一代的FGPA的产品,另外,ASIC芯片的产品上云也在研发中。 云栖社区:在本次云栖大会上,您想分享什么话题?能否提前透露一些亮点,以及分享这个话题的初衷? 张献涛:本次云栖大会我们会发布几款重量级产品,涉及到异构计算,通用计算,高性能计算等多个领域。这些产品都是为用户提供更好的体验,解决包括集群的管理和调度问题、云上弹性使用付费软件的License问题、实例需要即拥有虚拟机的弹性又要拥有物理机的性能、多机多卡分布式训练降低训练时间等问题,敬请期待,关注云栖大会的异构计算专场,虚拟化技术专场以及弹性计算的专场。 欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区公众号——“云栖大会”! 专访阿里云量子技术首席科学家施尧耘:量子计算前途辉煌而任重道远 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏) 【印象】2017云栖大会城市峰会:上海、南京、成都等 【印象】2016云栖大会城市峰会:上海、深圳、南京、北京等【印象】2016杭州云栖大会全套资料分享
编者按:10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。其中, 阿里云量子技术首席科学家施尧耘博士也将分享关于量子计算领域的前沿趋势。为此,云栖社区提前对其做了专访。(从今天开始,云栖社区将会对大会嘉宾做一系列专访,想了解嘉宾以及最新议题信息请关注社区公众号:“云栖大会”。) 2017杭州云栖大会详情请戳这里! 2015年7月,阿里巴巴与中科院联合成立了中科院—阿里巴巴量子计算实验室,正式进军量子信息科学领域。 把视野放向全球,你会发现量子计算早已成为了科技巨头的战场,原因很简单——它拥有爆表的计算能力,它将引领新的计算革命。如此强大的计算能力意味着什么?业界普遍认为,当下最炙手可热的人工智能、机器学习也将受益于量子计算。 然而,理想很丰满但现实很骨感,量子计算的研究存在诸多挑战,如何商业化更是学术界和工业界最棘手的问题。施尧耘表示,量子计算最大的挑战是如何规模化。目前没有一个技术可以把规模做得很大,又同时可以做到优质的量子存储和操作。但他也坦言,即便未来量子计算成功商业化,经典计算机也不会因此而淘汰。 施尧耘1997年本科毕业于北京大学计算机科学与技术系,随后在美国普林斯顿大学计算机系师从“图灵奖”得主姚期智院士研究量子信息科学,并于2001年获得博士学位。在加州理工学院量子信息研究所短暂的博士后研究后,他赴美国密西根大学电子与计算机系执教、研究,历任助理教授、副教授、正教授。施教授的研究涉及量子信息科学的多个方向,比如量子计算复杂度、量子系统的经典模拟、量子密码学等。他的研究成果包括多个相应方向中最具代表性的工作;比如在Device-Independent量子密码学中取得了被认为突破性的进展。2017年6月,施尧耘入职阿里巴巴集团,出任阿里云首席量子技术科学家,全面负责集团的量子技术研发工作。近日代表阿里巴巴出任浙江省之江实验室副主任。 施尧耘团队的职责是让量子计算落地。施尧耘透露,他们将和硬件合作伙伴深度合作,开发软件工具、量子算法,并探索新的应用。 在他看来,业界已经在量子计算未来的应用方向有主流的看法:一类是模拟量子系统,在材料科学、量子化学、药物发现等领域人们需要用大量的计算资源来模拟量子系统;第二类是用于帮助现在互联网公司都需要做的计算,比如机器学习的提速,基于量子硬件的机器学习算法,加速优化算法和提高优化效果等。 除此之外,施尧耘还认为,量子计算的诞生对密码系统也会产生巨大的影响,例如目前广泛使用的公钥密码系统会逐步被替换成量子计算机无法破解的系统,业界称之为“后量子密码学”。 以下是云栖社区对施尧耘博士的采访实录: 云栖社区:您之前在学术界,转投工业界是出于什么考虑?对您来说二者最大的差异是什么? 施尧耘:从学术界到工业界的目的是对量子信息技术的落地贡献力量。 学术界和工业界的差异在量子这个话题是个很复杂的问题。对我个人而言,以前基本上只是研究,而现在除了研究,更重要的是规划、决策、组织、执行(当然学术界大型项目的负责人也需要做这些事。) 如果比较单个公司和单个学术单位,根本上的区别是在最终的目的。工业界一般来讲目标是致用、产品,而学界理论上更公开,且有很多专做基础性、先期探索性、开放和高风险性的。一个推论是,工业界的每个量子项目都需要结合本企业的实际情况进行整体的、战略性的思考和布局,寻找风险和回报的最佳结合点。而学术界每个基本单元更多的是单点的深入攻坚。 云栖社区:量子计算描绘了一幅很美好的蓝图,但是现在工业界的巨头也只局限于实验室研究阶段,这一技术实现商用的挑战在哪? 施尧耘:有许多挑战,但首先是如何把规模做大。目前没有一个技术可以把规模做得很大,又同时可以做到优质的存储和操作。 另外,量子计算的落地是个巨型的系统工程,牵涉到众多方面的技术和能力。整个产业还不完整,人才稀缺。比如我要打造帮助设计量子硬件的传统软件。理想的工程师要是一流的软件工程师,有要对量子计算有足够的认识。这两个技能很难在同一个人身上兼具。现实只能是量子化软件工程师或软件化量子科学家。对学习能力是极大的考验。 云栖社区:你们现在重点做哪方面的研究? 施尧耘:我们的长远目标是实现量子信息技术的潜力,提供基于量子信息技术的解决方案。这里关键是“实现”和“解决方案”。近期我们会和硬件合作伙伴深度合作,开发软件工具、量子算法、以及寻找终极的应用。我们的前途辉煌灿烂,但是任重道远。 云栖社区:能否谈谈对量子计算在应用层面的理解?分享您在工作中获得的一些宝贵经验? 施尧耘:大的方向业界有主流意见。有两个类型的应用:一类是模拟量子系统,在材料科学、量子化学、药物发现等领域人们需要用大量的计算资源来模拟量子系统,量子计算机用来做这样的计算最自然最直接;第二类是用于帮助现在互联网公司都需要做的计算,比如机器学习的提速,基于量子硬件的机器学习算法,加速优化算法和提高优化效果等。 必须强调的是明确应用还需要许多工作;并且最终量子计算机的功效还要在真实机器上的实验来验证。我的经验是,不要想当然,而要持着大胆假设、小心求证的原则。 云栖社区:您认为量子计算领域未来会有什么样的新变化? 施尧耘:硬件方面比较可能的是,多个企业和研究单位会把目前的技术路线靠卖苦力做到极致,不约而同地同时卡在某个瓶颈,等待一个突破性想法的来临。 在软件方面很多方都有类似的系统,性能也相差无几。但下一个突破会是在理论、想法方面。这也是为什们我对团队建设的目标,除了要求能做出所有人最终都可以做出来的,关键还要有绝对一流的人才。 云栖社区:如果量子计算成为现实,那么又将是一场计算革命,届时哪些行业会率先被颠覆? 施尧耘:前面提到的两个方向的计算可能会有很大变革:牵涉到模拟量子系统的和加速、提升重要的计算(需要强调一下这里说的只是可能性)。说经典计算机在以后完全被淘汰有点太科幻,未来比较可以肯定的是两者并存,同一问题两条解决线索,二者各有优缺点。 另外之前没有提到的是对密码系统的影响:大型量子计算机出现后,目前广泛使用的公钥密码系统都不安全了。所以可以肯定的是这些系统会逐步被替换成我们不知道如何用量子计算机破解的系统。这就是所谓的“后量子密码学”。美国国家标准局现在正在收集候选协议。这个对公钥密码系统颠覆已经在进行中,即使大型量子计算机的出现还很遥远。 云栖大会:在本次云栖大会上将会有量子计算专场,能否提前透露一些亮点,以及组织这一分论坛的初衷? 施尧耘:这次大会的分会场有我们组织的“阿里巴巴量子峰会”,由我们的合作伙伴和我们新加盟的同学演讲。主要是和大家分享这个领域的现状和愿景,一方面让大家有基于事实的期望,另一方面也希望鼓励吸引更多的人才加入。同时让我们的合作者们更加了解阿里巴巴,携手向前。 欲了解更多历届大会相关内容以及最新嘉宾采访,请关注社区“云栖大会”公众号! 专访iDST华先胜:城市大脑,对城市的全量、实时认知和搜索 云栖大会变迁史(2009-2017)图说历届云栖大会精彩内容(长图鉴赏) 【印象】2017云栖大会城市峰会:上海、南京、成都等 【印象】2016云栖大会城市峰会:上海、深圳、南京、北京等【印象】2016杭州云栖大会全套资料分享
作为中国云计算的先行者,阿里云一直致力于打造由中国人自主研发、全世界通用的大规模计算框架和操作系统。八年来,尽管经历了各种艰难起伏,阿里云却始终秉持初心,坚定不移地在推进生态发展、普及云计算应用的道路上切实迈进。 最新的Q1财报中,阿里云实现年营收66.63亿元,连续8个季度保持三位数增长,并且成为亚洲首家拥有百万用户的云计算公司。新的里程碑也象征着新的征程,站在下一个计算革命的路口,阿里云会充分发挥规模效应,全力借助云大使、阿里妈妈、校园大使、媒体联盟等业务线,促进云计算市场的进一步加速。 新里程,阿里云布局全球市场 十年磨一剑。截至2017年3月,阿里云已拥有约5000名员工,年营收达66.63亿元,同比上年增长121%,连续8个季度超过100%增长。作为云计算市场的绝对领先者,阿里云在国内的市场占比已高于50%,同时还在向全球市场全面布局。13个节点覆盖全球主要互联网市场,以中、英、日三语为全球客户服务,形成了中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本等14个节点和杭州、新加坡双中心布局,服务覆盖200多个国家和地区。 市场证明,阿里云凭借领先的技术服务,是云计算生态者的不二选择:基础设施规模庞大,产品服务高性价比;基于云盾提供全面的安全防护,安全能力毋庸置疑;技术沉淀,助力企业建立分布式应用服务体系与大数据应用平台;提供完善的原厂服务和区域生态服务体系;云应用生态构建,超千家应用生态伙伴提供超3000种企业级应用服务。 目前,阿里云在生态方面的建设,已经从推广、区域服务、云市场、行业解决方案、教育创新孵化五个方面全面展开。借助云大使、阿里妈妈、校园大使、媒体联盟四条业务线,着手全国重点区域,发展区域云服务商、授权服务中心、业务咨询服务商;整合三方产品和服务构建云市场,以战略眼光解读行业需求,为需求度更高的企业客户提供行业解决方案;最为重要的还是人才培养,创新孵化生产力。 致力完善云计算生态,云大使奏响新号角 云大使是阿里云生态圈中合作伙伴的一种类型,准入门槛较低,任何人都可以选择加入。该业务在今年三月试运行,四月一日正式运行。迄今,历时四个多月已有超过31000用户加入云大使,云大使无疑已经成为了阿里云生态圈的重要一环。 那么与其他业务相比,云大使初心何在?聚人、平台、生态,此为核心。云大使以聚人为第一目标,普及和推广云计算概念。在云计算的供应上,致力于提供更为全面系统的服务。并且注重生态建设,以生态协同的方法互惠互利,与合作伙伴共赢,把产业做大。 虽然云大使还是年轻的业务, Q1中还是经历了几个重要的里程碑:5.19第一次发钱;6月推出推荐码,给云大使更多营销资源......在已报名的近4万人中,有超过100多个大使累积创收10000多,其中获得Q1奖金的刘强,实现订单800、收益8w+的成绩。在阿里云首届云大使座谈会上,刘强也发来了自己的祝福:“因为我的主要工作是网站开发,平时接触最多的便是阿里云产品。通过阿里云推荐榜接触并加入云大使业务后,可以深切感受到阿里云产品技术够硬,性能够高,性价比自不用说。希望阿里云能够开辟更多优惠渠道,发展越来越好!” 事实上,在设想云大使业务时也面临了很多困难,其中最大的挑战就是无法区分客户动因,云大使业务的实施功效无法辨别。但是通过解析已有云大使的用户画像,可以发现大多数的云大使都是阿里云官网的忠实用户,这也让云大使业务的运行得以顺利开展,并不断壮大。 成为云大使,即可享受推荐下单返利、推广任务奖励、云知识云技能培训等多项支持。优秀者更可享受阿里云官方认证与阿里云参观学习等更多专项支持。 专享优厚回报:不但提供推广返利,更有任务奖金、排名大奖、大使折扣、新产品内测机会等专属奖励; 与阿里云共同成长:阿里云将长期扶持云大使尤其是其中优秀者的长期发展,提供相应培训、能力认证等; 拥有更多资源与机会:阿里云将长期扶持云大使尤其是其中优秀者的长期发展,提供专业论坛、大使圈、云栖大会、阿里云游学等机会,让大使有更多的交流机会。 在阿里云首届云大使座谈会上,业务负责人狄公还表示,云大使同样可以享受购买阿里云优惠,金额随机减,还能叠加阿里云其他优惠活动,享受折上折。成为云大使后,推广幸运券可以享受5%返利和任务奖励,每个月的返利直接打到支付宝账户。任务激励是阿里云发放给完成各项阿里云布置的任务的云大使的各种回报,不同的任务有不同的激励额度与激励方式,最常规的任务激励方式是幸运券返利。 目前,云大使业务还处于它的第一阶段,以人员兼职为主,上线幸运券和推荐码两个基本功能,不断加大曝光,以增加流量和人气。目标是在年底达到100000报名用户,并且能有100人达到税后累计收入100000元。明年希望迈入第二阶段,实现专职投入,提升客户转化率。第三阶段则达到公司化和品牌化运作,全民普及,加大覆盖的广度和服务的深度。 如果你也想成为云大使,请猛戳这里!
从自建服务器到租用云服务器,是大势所趋也是行之必然。作为一家第三方的云服务商,江苏太湖慧云数据系统有限公司拥有着来自国内一线互联网公司的核心团队,以专业的技术致力于为客户提供云计算的咨询、规划、实施、部署和运维等服务。 项目背景 成立于2015年的太湖慧云,有着高达三分之二专职技术人员的占比,构成了一支云计算行业身经百战的技术团队。目前我们是阿里云、微软云、AWS等公有云的合作伙伴,帮助客户进行云上业务的管理和整合,包括对客户业务的大数据分析、运维等。 在客户群体上,我们以传统制造业为主,包括金融、政府等行业,力求以最低的成本提供最好的服务。有了云需求,我们就会根据客户的业务现状及长期发展目标,制定好整体规划,包括产品运用、后期部署等,有效优化客户配置。同时注重考量后期的业务延续性和稳定性,帮助构建可靠的业务架构。此外,我们也会帮助客户做一些后期的数据迁移,提供正确的运维服务。通过这样一套完备的流程,在云上保障他们业务的稳定性。 自建VS租用,我们选择后者 起初,我们和大多数企业一样选择自建服务器,但是硬件设备频繁的更新更换、较低的安全性和可靠性,以及几十台服务器所带来的高人力物力成本,这些都让我们认识到转战云服务器势在必行。 其实真正的上云也是在今年年初才逐渐开始。我们作为第三方云服务商,自身也会用到云服务,因此在选择云平台时也是经过了慎重的考量对比: a. 稳定可靠,这是最关键的一点; b. 希望在全国甚至全球部署布点; c. 产品丰富,可选择性强; d. 性价比高。 综述这几个方面,阿里云不管在知名度、产品还是规模上都占有较大优势,所以我们最终选择了与阿里云合作。因为公司本身也比较擅长专业技术,而且由于我们服务的多为传统行业,没有太过特殊的要求,确定好配置后在云上直接部署迁移就可以了。 阿里云推出的免费套餐活动,我们自然也参与其中。一台2C 4G服务器、一台8C 16G服务器以及一个RDS数据库,这是我们选择使用的免费套餐产品。借由这个活动契机,我们可以很便利地进行云上测试,极大降低前期测试成本,而且能够解决很多上云过程中的实际业务需求。当然除去这些免费产品,我们还根据业务并发、访问数据量及客户容量相应配置了付费产品,获取更多的功能支持。 经验之谈 对于大部分企业来讲,现在更多关注的不再是犹豫是否应该上云,而是建议抛掉一些传统的架构,去构建高可用和强稳定的云上架构。毕竟上云之势众望所归,其稳定性和可靠性毋庸置疑。不过有一点,前期测试绝不能忽略,这是少走弯路的捷径。 未来的方向 最开始企业上云,使用的都是基础架构的存储和计算资源。未来再往上发展,我们会更多尝试大数据、物联网、人工智能这一类的产品,帮助提升业务核心价值,这也是我们后期所要规划的方向。 在国内,我们与阿里云的合作非常之融洽,帮助阿里云为区域客户提供咨询、规划、实施、运维等服务,也很高兴即将成为阿里云的金牌合作伙伴。后续我们会深入与阿里云的合作,对于阿里云免费套餐活动中针对企业所提出的免费使用6个月热门云产品,包括云服务器ECS、负载均衡、云数据库RDS、云数据库Redis版、云数据库Mongodb版、弹性公网IP、CDN、对象存储OSS、文件存储NAS、域名以及其他30+款长期免费云产品服务,我们也会持续关注和使用。 免费套餐申请链接请戳这里! 免费套餐案例: 阿里云助力网络安全社区MMBEST,书写云上新面貌 从零出发犹未为晚,准大学生的博客开发自学之路 实力优惠VS高安全性,这个夏天我选择了阿里云进行网站改版 向阳网络:跬步千里,且看初创企业的上云之路
始于2001年的MMBEST论坛,是国内成立最早的黑客安全技术联盟学习培训基地。为了专注网站建设及简化运维工作,MmBEST选择了阿里云服务器迁移上云。 背景 MMBEST社区的建立初衷就是为一些网络安全爱好者提供一个学习和交流的平台,自由!免费!共享!——这是我们始终秉持的服务宗旨。但在技术的快速迭代下,自建机房的运维管理逐渐显露出颓势,渐渐产生了很多问题: 1.系统及网络安全方面; 2.数据备份方面; 3.不同地域的访问速度方面; 4.硬件的稳定性方面。 因此为了应对这些方面的欠缺,团队决定跟随主流,于今年初的时候选择了部署上云。 上云部署 可以说,云服务器基本能够解决以上的所有问题,我们也可以回归初心,专心做网站。当然,在云服务器的选择上,体验过一些比较初级的云服务器后,我们经过多方面的考量最终选定了阿里云: 1.用户分布:我们的用户主要在国内,因此在访问速度上直接排除了国外厂商; 2.品牌优势:国内的腾讯云起步较晚,其他的云服务提供商虽然老牌,与阿里云相比却不够大牌; 3.技术专业:在云服务器的专业程度、增值服务数量和宽度上,阿里云独领风骚; 4.服务安心:阿里云给人服务周全的感觉,底蕴深厚。 通过阿里云网站,我们幸运地了解到阿里云推出的免费套餐活动,正好是企业新用户就可以优惠购买多年服务器,就一口气买了三年的。在产品配置上,目前主要还是使用了一些基于云服务器的免费增值服务,良好地实现了运维管理。 项目迁移 在确定使用阿里云及相关的产品后,我们便开始着手业务迁移工作。因为只有一个社区,主要迁移的就是网站程序和MYSQL数据库,搭建好基本环境后迁移进程是非常快的,差不多一天时间就够了,主要是转入备案耗时较多。所以整体进展比较顺利,其中的一些小问题,我们根据系统操作及工单系统,辅之丰富的网络资料,也很快解决了。 下一步的计划 经过十多年的发展,MMBEST一步一个脚印踏实地走到了现在。在时下这个浮躁的技术社会,我们还是会坚持非营利性,为用户提供自由、专业的共享环境,让大家玩得开心。后续我们也会根据实际需求,配置相应的阿里云产品,来实现更好的运维服务,做更用心的网站。 免费套餐申请链接请戳这里! 免费套餐案例: 太湖慧云:谈谈大势所趋的云上部署实践 从零出发犹未为晚,准大学生的博客开发自学之路 实力优惠VS高安全性,这个夏天我选择了阿里云进行网站改版 向阳网络:跬步千里,且看初创企业的上云之路
注:CVPR是由全球最大的非营利专业技术学会IEEE(电气和电子工程师协会)举办的计算机视觉领域的国际顶会,2017 CVPR收到超过2500篇论文投递,最终收录不到800篇,阿里巴巴集团iDST和AI LAB 有多篇论文被收录。 本文作者:方广 磐君 思淘 阿里巴巴iDST 视频分析团队被CVPR 2017收录的论文《从视频到电商:视频衣物精确检索》围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。整个系统采用了目前最先进的衣物检测和跟踪技术。针对明星同款检索中存在的多角度、多场景、遮挡等问题。提出可变化的深度树形结构(Reconfigurable Deep Tree structure)利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。 论文技术在天猫魔盒视频中应用 业务场景及研究问题:视频电商中的衣物精确匹配 早在 2014 年,阿里与优酷土豆发布视频电商战略,称未来可以实现边看边买,使得视频电商的概念,继微博电商,朋友圈电商之后浮出水面。电商平台拥有少量商品,而视频网站具有巨大的流量,二者结合是发展的必然结果。电商平台可以借助视频网站的流量来实现导流和平台下沉,而视频网站则需要通过广告点击和商品成交来实现流量变现,因此二者的结合可谓一拍即合。视频电商的商业主旨是打造以视频为入口的购物服务,视频中出现所有物体都可能是商品,提供包括边看边买、明星同款、广告投放等服务,它集娱乐、休闲、购物于一体,给用户构造出一种“身临其境”情境营销,或者是明星同款的冲动式消费。视频电商目前已经不是停留在概念层次了,视频网站向电商的导流转化也一直在不断的尝试中。 影视剧中的服饰存在较大的差异性和异构性, 同一个目标往往展现出较大的差异。服饰购物图像通常具有杂乱、多样的背景, 而且常在户外拍摄。多样化的背景可能是建筑物,街道、风景、汽车等多种情况。由于自然场景下受到光线、角度、大小、分 辨率、几何学和光度学的变化等影响,使得服饰呈现出现的外形极为复杂,即使是同一件服饰也会出现变化较大的效果。同时在线网站为更好地展示服饰的效果,通常聘请时尚模特穿着所售商品,模特/人物姿势变化也是导致服饰变化的一个重要因素。 由于以上这些因素,使得视频明星同款搜索成为了一个极具挑战性的技术问题。 网络结构及技术细节: AsymNet网络结构:整个Asymnet深度神经网络结构如图1所示。当用户通过机顶盒(天猫魔盒)观看视频时,该网络将从电商网站(淘宝、天猫)检索到与之匹配的衣服,并推荐给用户。为忽略复杂背景对检索结果的影响,更准确的进行服装定位,我们首先应用服饰检测技术,提取得到服饰区域一组候选框。然后对这些候选框进行跟踪,得到明星同款在视频中的的运动轨迹。对于衣物候选区域和运动轨迹我们分别利用用图像特征网络(IFN)和视频特征网络(VFN)进行特征学习。考虑到服装的运动轨迹,衣物精确检索问题被定义为不对称(多对单)匹配问题,我们提出可变化的深度树形结(Reconfigurable Deep Tree Structure),利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。后续本文将详细介绍模型的各个部分。 图 1 Asymnet深度神经网络结构 图像特征网络(IFN):传统CNN网络要求输入图像为固定的227x227(因为CNN网络中的卷积层需要有一个确定的预定义的维度)。在视频电商业务场景中,因为衣物检测候选框为任意大小,尺度变化很大,传统CNN网络无法进行有效的特征学习。针对这一问题,我们利用空间金字塔池化结构(SPP)体系结构,如图2所示。它通过空间池聚合最后一个卷积层的特征,从而使池区域的大小与输入的大小无关。 图 2 Asymnet图像特征网络(IFN) 视频特征网络 (VFN):为了更好的考虑视频的空间序列模式,进一步提高衣物检索的性能。基于 LSTM,我们提出了视频特征网络 (VFN),如图3所示。其中实验验证明两层堆叠式 LSTM 结构能够在视频特征学习中得到最佳性能。 图 3 Asymnet视频特征网络 (VFN) 相似性网络:明星同款匹配不同于近似衣物检索,精确匹配要求完全一致。在完全一致的 要求下,传统的通过相似性计算来进行检索的方法,不能满足明星同款精确匹配要求。已有的方法通常将精确匹配问题转换为一个二分类问题,但这种方式适应性差,只能利用单一时刻的视频帧。为了能够利用整个衣物运动轨迹,我们提出了如下的可变化的深度树形结构(Reconfigurable Deep Tree structure)将匹配问题转换为逻辑回归问题。匹配网络拟采用基于混合专家系统的逻辑回归网络。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。 图 4 Asymnet相似性网络 整个模型的目标函数是综合考虑每一帧的匹配结果,得到基于整个衣物运动序列和电商衣物的相似性,整个系统可以建模为对如下目标公式进行求解: 类似于attention机制,我们提出如下后验概率模型,来对上式进行求解: 得到如下梯度并采用端到端方式进行网络学习。 试验结果:我们利用业务数据和最新的衣物检索方法进行了对比,试验结果如下表所示。相对于alexnet,Asymnet在前20的检索精确率指标上,其性能几乎提高了进一倍。相对于其他2种网络CS 和RC, 我们发现RC的性能略优于CS,因为RC具有较强的识别能力差异较小(采用多任务学习)。甚至在对于某些类别(无明显差别)RC在精确率上甚至略好于AsymNet,但是总的来说AsymNet比目前现有的方法拥有更好的性能。因为Asymnet可以处理现有的视频的时空动态变化,并结合自动视频帧的自动调节炉排判别信息的融合策略。 论文下载链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Cheng_Video2Shop_Exact_Matching_CVPR_2017_paper.pdf 相关文章: CVPR 获奖论文公布,苹果斩获最佳论文!| CVPR 2017 刷脸out了?阿里“刷脚购物”亮相CVPR 2017 AI顶级会议预告 | 人工智能最前沿的学术成果都在这!
未见意趣,必不乐学。目前大二的田程,出于对软件编程的爱好用ECS云服务器部署了一个个人网站。最初使用虚拟机服务的他,认为阿里云服务器的高性价比、丰富的云市场以及详备的售后完美满足了个人需求。 项目初衷 我叫田程,是四川理工学院一名大二的学生,主修通信工程专业。因为个人的兴趣爱好,目前在用ECS云服务器部署网站和挂机。 16年的六月份左右,我开始通过一些免费的虚拟机服务进行项目实践,其实初衷只是想做一个类似广告联盟的产品,后来发现对我来说兴趣是大于功利的,就放弃了盈利的想法,随性来。现在,主要是使用云市场的镜像包做了一个个人小网站,也没有合适的内容去填充,就搁置在那以后找机会慢慢加进去,然后在服务器上挂一些自己的小游戏、YY之类。 转战阿里云 项目最开始,我也是体验了各种免费或付费的虚拟机,但是总感觉自己只是向别人的服务器传送了一份源码,除此以外就没有其他的事儿了,系统不受掌握,而且空间小、速度慢,防护上也相对薄弱。免费虚拟机较低的性价比,促使我把目光投向广受欢迎的云服务器市场,看看哪家注册域名比较好,并且开始在网上搜集各个“云”服务商和域名商。经过一系列的资料收集和对比,我最终选定了万网来注册域名,万网又是阿里云旗下的,加上网络上阿里云的口碑很不错,云市场也是丰富多样,完全符足我这种纯粹出于兴趣的小白去折腾。 通过一番接触后,我了解到了阿里云云翼计划——这个对于学生来说,不管是做项目抑或是兴趣爱好,帮助都十分巨大的活动。首先云翼计划锁定了ECS云服务器的价格,相比其他动辄几百上千的服务器来说,这就是一个曙光。其次,丰富的云产品应有尽有,完全能够满足需求。然后就是售后服务,完备的技术问答基本上可以解决使用过程中百分之90以上的问题,即使不能解决,工单系统也能够解决剩下的百分之10。不得不说,云翼计划加上阿里云的售后,十分完美。目前我的学生优惠服务买到了明年,年付好一点,不用每个月都想想是不是需要付费。 项目部署与实践 从知道万网和阿里是一家之后,一切就变得比较简单。先是选购域名,支付宝帐号之前就通过学生认证,然后阿里云这边的学生认证很快就通过了,申请学生优惠也就顺风顺水。比较囧的是,我是在ECS云服务器申请下来之后才开始进行个人网站的准备,相对来说还是比较晚的。最开始什么都不懂,部署服务器环境时选择了CentOS,结果发现代码、命令太多太复杂,脑容量有点不够用,后来换成了Windows service的环境。然后选择网站系统,织梦、帝国之类的都试过,最后选择了wordpress做主站。走一步看一步的来,最后到网站备案,备案之前不是很清楚,最后才弄,申请幕布、提交信息,来来回回大概经过了半个月管理局那边才通知备案下来了。后来也经历过几次换系统、换源码的折腾,最后还是回到现在的Windows service+wordpress。 个站首页 当时修改过的源码 挂机 在项目部署好后,我还做了件好玩儿的事——帮兄弟表白!兄弟知道我做了个站,让我做个网页帮他去感动一下女朋友。虽然不会做,可是兄弟的请求也不好拒绝,于是网上找了个单页的表白源码、修改了下内容,传到二级域名上。据说当时他女友挺感动的! 当时的二级域名页面 出于兴趣来说,我经历的挑战或多或少还是有一些。一是自己作为新人小白,知识和技术上的空白;二是学业、生活和“云上”的协调;三是暂时没有详细的规划。最后这一点我认为是目前最大的挑战也是最大的问题。 不过做到现在这个样子,基本上已经达到了最初预期。下一步我打算花点时间沉淀下自己,在课余的时候充充电学习一下知识技术,多做规划。既然上了云,即使是兴趣,也希望能够玩儿好一点。 前车之鉴 我做的东西简单,实现起来不难,不外乎查找手册、资料以及网络上前人的经验,再结合自己的实际情况进行一些调整。遇到问题的话,我会先在阿里云的帮助下去搜寻相关的解决方案,没有或者不适用,就去搜索引擎寻找答案和帮助,如果还不行,就提交工单进行解决。对于和我处于同样境况的朋友们,建议的话就是多看多想,自己学着解决。当然,最重要的一点就是,落子无悔,开始了就坚持下去吧。云上真的挺好玩儿的! 其它学生机案例: 【校园先行者】乘风而上,一场关于阿里云的互联网创业探险
日前,全球计算机视觉顶级会议CVPR 2017在夏威夷火奴鲁鲁Hawaii Convention Center举行。一项来自阿里巴巴的“刷脚购物”技术意外走红。 Google工程师用淘宝拍立淘功能拍摄阿里巴巴工程师的鞋子 一位Google工程师来到阿里巴巴展台,本着挑刺的态度体验起了淘宝的“拍立淘”功能。他先是对着阿里工程师上半身各种拍摄,一切顺利。 最后这位小哥突发奇想,蹲着对人家的脚一顿狂拍。在这种情况下,淘宝居然仍能精准无误的找到同款鞋子。 前前后后他玩了有一个小时,大呼过瘾! 阿里巴巴工程师在CVPR上作拍立淘技术分享 大会期间,阿里巴巴的工程师还针对拍立淘技术进行了分享。其实,“拍立淘”早在2014年就已上线,成为了中国消费者寻找同款的神器。 你只需要点击手淘搜索框里的相机图标,对准喜欢的商品拍照,淘宝就会自动帮你找到它。 CVPR全称为IEEE Conference on Computer Vision and Pattern Recognition(计算机视觉与模式识别会议)由专业技术学会IEEE(电气和电子工程师协会)主办,是近年来计算机视觉领域全球最具影响力、内容最全面的顶级学术会议。 据大会官网数据统计,全球约有90家企业参与本届大会,如Google、Microsoft、Facebook、Amazon、Apple、阿里巴巴、商汤、格灵深瞳等都已提交论文,或举办演讲及各类活动。
今年大一的我,正和我的团队一起进行互联网方面的创业。虽然学校里修的是电子商务专业,但是对于互联网的强烈爱好,加之母校辽宁农业职业技术学院对于学生创业的支持,乘着阿里云云翼计划的东风,我们的微信公众号网页开发正如火如荼的展开着。 辽宁农业职业技术学院佘蕾 项目背景 成立于2013年的营口天港电子商务有限公司是一家专注于企业互联网+转型的服务型企业,目前拥有“外卖侠”、“租衣汇”、“校淘客”等自营电商平台,致力于为全行业传统企业提供互联网+转型服务。 在运营项目之前,我们主要通过虚拟主机来帮助别人进行微信公众号的开发和搭建,实现商城、预约之类的线上功能。但是随着互联网创业浪潮的不断迭起,我们开始把目光投向自营平台,选择创业来实现更多价值。 团队目前聚集了包括我在内的五六位同学,大家都对互联网怀揣着高度的热情,从今年三四月份开始,正式展开了我们的创业之路。 云服务器的选择 项目主要通过微信公众号开发和搭建,实现微信自营的本地公众服务,例如自营外卖超市,类似美团外卖,但是不用下载App,在微信公众服务号上即可预订。 阿里云是我们斟酌之后选择的云服务器。考虑到虚拟主机的性价比,阿里云可以提供我们更快的网速和更适宜的运行环境,性价比更高。幸运的是我们恰好碰上阿里云推出的云翼计划,可以给到更优惠的价格。在把项目部署到阿里云的过程中,我们把以前网站上的数据直接搬运过来,不仅省时省力,而且很快便助力平台进入运营正轨。 当然,成本是初期需要把控的第一要素,阿里云对于学生来说其亲切的价格给我们带来了很高的认同感。目前我们只买了一年的学生优惠服务,处于扩张时期的项目需要更为注重云服务的质量和性能,后续的升级购买必不可少。 挑战与机遇并存 从三月至今,项目一直呈现出良好的发展态势:整合维护三家微信公众号,稳步运营其中一家,扩张计划也在优化中,合作伙伴也在谨慎观望中。 虽然偶尔会出现些小Bug,但通过论坛和社区的分享探讨,我们还是可以找出解决方案。在平台项目的推广初期,由于用户对于平台的使用并不了解,我们往往需要很耐心地详细教导他们。也正是这些那些的琐碎问题,才是激励我们走下去的动力,促使我们从中不断得到学习和成长。 固然有些瓶颈,机会却同样存在。尤其在O2O业务上,因为缜密的前期准备和市场投放,以及使用的极大便利性,我们已经服务了学校内的很多大学生,下一步应该会着眼社区建设方面,争取扩大辐射范围,把外卖服务从学校扩展到更多的区域。 升级计划蓄力中 算起来项目已经执行了一个学期(从三月至今),虽然团队每天只大概工作一两个小时,但这期间我们的客户数量依然在不断增长,业务收入也很不错:整个项目达到了10000+元的收益,其中学校外卖约有6000+元的收入。 阿里云对于学生来说,其性价比之高显而易见。我们很幸运地撞上了阿里云云翼计划,以超级优惠的价格体验到了良好的服务质量。后续项目会针对区域市场进行扩张,所以我们会持续关注阿里云的升级套餐,云服务器的性能和带宽升级也该提上日程了。
编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,届时,蚂蚁金服副总裁、首席数据科学家漆远博士将带来人工智能赋能金融行业的分享。在此之前,阿里云云栖社区作为独家直播合作伙伴对其作了专访。 “蚂蚁金服是一家TechFin公司,而不是FinTech公司”,这是蚂蚁金服给自己的定位。 蚂蚁金服副总裁、首席数据科学家漆远认为,金融领域核心的问题是风险管理,而蚂蚁金服希望用技术、数据能力去助力金融企业,去服务普通消费者和商户,提升金融机构的风险管理能力。这是蚂蚁金服强调技术,而不是做金融的主要原因。 事实上,人工智能就是蚂蚁金服最核心的技术之一。在蚂蚁金服内部,诸如机器学习、人脸识别、NLP等人工智能技术已经在支付、理财、保险定价、信用、智能客服等领域实现了应用。 对此,漆远举了个例子:蚂蚁金服从2015年中开始做智能客服,半年后自助率从百分之六七十涨到了94%,到16年双十一已经实现了97%的自助率。而这样的变化给蚂蚁金服内部带来了1亿的成本节约。 当然,TechFin的核心除了技术,还有赋能。漆远表示,蚂蚁金服将逐步开放公司的AI能力。显然,这是这家TechFin公司赋能金融行业的下一步棋。 云栖社区:在加入阿里巴巴以及蚂蚁金服之前,您一直在学术界,如何看待人工智能学术和工业界的融合? 漆远:人工智能起起伏伏很多次,现在突然火起来了背后最主要的推动力来自于工业界,例如语音识别以及去年就名声大噪的AlphaGo,工业界的研究正在推动人工智能技术的发展。 以前人工智能学术界和产业界还是有本质的区别,学术界更关注的是核心技术的开发,着眼更长;对于工业界而言,大家会更着急于商业价值和短期内的应用。但现在这一局面也在逐渐改变,首先产学研正在更紧密的结合,很多高校老师,包括我自己也来到了工业界,蚂蚁金服包括阿里都在和高校展开合作,目的就是希望能够共同推进产学研的发展。 与此同时,工业界本身也在做更高精尖的科研,所以说这个界限和以前还是有区别。此外,学术界是整体人才培养的源泉。 阿里推出了NASA计划,蚂蚁金服也是其中一部分,我们希望共同推动NASA计划中人工智能和机器智能的发展。 云栖社区:关于学术研究以及商业化,蚂蚁金服人工智能部是如何权衡的? 漆远:蚂蚁金服一直强调“叫好又叫座”,叫好就是技术本身有深度,叫做就是要解决实际问题。 蚂蚁金服的定位是TechFin公司,也就是技术驱动的一个金融服务公司,科技是我们的一个核心的能力,而不只是为了解决商业问题的手段。总而言之,现在学术研究和商业化的事情我们都会做。 云栖社区:现在大家都在讲人工智能重新定义金融行业,但金融本身是一个比较宽泛的一个概念,蚂蚁金服希望通过人工智能打造一个什么样的场景? 漆远:我们希望打造一个金融智能平台,或者说是金融智能技术服务公司。这其中最主要的场景都是来源我们现实的业务。 蚂蚁金服风控部门中的反虚假交易就是基于算法,又如贷款是通过机器学习的算法来做的;还有前几天发布的保险定损,通过图像技术实现的;我们的智能客服缓解了蚂蚁金服客服的压力。 在智能客服这一块,蚂蚁金服和很多公司不一样,我们的业务场景更加复杂。因为很多公司只有一项业务,比如说卖一个东西,或者物流,而蚂蚁金服有保险、信用、贷款、花呗借呗,还有本身支付的业务。这些复杂丰富的场景为蚂蚁金服提供了一个非常好的推动力。当然,我们的技术水平也处于前列。 云栖社区:人工智能在金融行业和其它传统行业例如医疗有很大的差异,您怎么看这其中的差异? 漆远:我认为人工智能会在这两个领域快速落地。人工智能要成功不光靠的是底层运算的计算平台,同时需要对业务场景问题本身有深入的理解。 医疗和金融行业有着很大的区别,但是现在也在结合,比如说我们在医疗保险、人寿险上,围绕人的健康本身又能产生很多金融的机会,我们都要从两方面看问题。 云栖社区:我们这边可能涉及到的技术比较多,有深度学习,人脸识别,自然语言处理等等,我们是怎么去把这些技术落地到实际应用场景当中? 漆远:首先要考虑金融本身的特色,我们强调的一个是安全加密,保密性,安全加密特性,金融机器学习AI的能力。安全加密很容易理解,金融数据必须保障安全,要百分之百加密,其安全级别非常高,我们针对这一问题有一些技术上的投入。另外就是实时对抗,在与黑客的博弈过程中,我们自身的风控系统需要在实时的对抗性中学习,不断跟随环境进行演化。第三个特点,就是大规模,大家知道双十一的交易数量是12万笔,这需要自身达到一定的规模才能实现。 另外一方面,落地就是解决业务场景中的问题,我们需要从痛点出发,从用户的场景出发,来找到最合适的技术。通俗地说,我们不是拎着锤子找钉子,而是站在问题的角度来思考的。 云栖社区:蚂蚁金服在区块链上做了什么样的尝试? 漆远:区块链技术强调的是透明、信任,相互之间能够共同信任,区块链数据本身具有真实性、不可篡改性。基于这一点,我们通过区块链技术,促进了中国公益的发展。例如,蚂蚁金服现在正在和壹基金合作,我们还支持了器官捐送平台,实际上,支付宝用区块链做了很多相关的工作。 云栖社区:蚂蚁金服人工智能部门有哪些最新的研究成果? 漆远:首先,我们部门正在研究的项目就是智能客服,大概从2015年中开始做,做了半年自助率就从百分之六七十涨到了94%,到16年双十一的时候,实现了97%的自助率了。 这一数值极具意义。蚂蚁金服的业务在翻番,按照这个趋势需要更多的客服才能够满足需求,但实际上客服人数是在降低的。刨去人力成本、GPU成本以及计算资源的成本,智能客服能为公司节省一个亿。不仅仅是自助率高,解决率也更好了。目前,机器的问题解决率比人还高,这是一个标杆性的指标。 另外有一个典型的例子是风控,我们把一些的广告里面使用的跨界思维,如预测用户会点进哪个广告的算法,用在了我们的风控系统里面,安全和体验永远是个平衡。所以我们开发了机器学习的算法用在风控系统里面,这是一个非常真实的案例。 还有就是最新发布的定损宝,照张照片会自动告诉你车撞得有多严重,我们通过计算机视觉来自动判断。 云栖社区:如何理解TechFin? 漆远:首先强调一下,我们的定位本身是个科技公司在服务金融行业。 金融领域核心的问题是管理风险,我们强调我们是一家TechFin公司而不是Fintech,想表达的是用技术、数据的能力去助力金融,去服务我们的客户,提升金融机构的风险管理能力,所以我们去强调技术,而不是说去做金融。 AI本身一定和场景分不开,训练一个深度模型不考虑业务,就没有价值,它一定有一个场景,而蚂蚁金服赋能的就是金融行业。 云栖社区:AI+金融存在哪些技术难题? 漆远:在我来看,技术难题就是前面提到的三个:第一个保密安全加密,这是第一大技术难题;第二是实时对抗;第三是大规模。我们需要开发一些技术来攻克这三个难题。 云栖社区:突破口在算法上? 漆远:不仅仅是算法,人工智能是算法和系统和数据的紧密结合,如果只是算法,它一定不能发挥作用,失败的概率非常高。所以一定要和数据(广义的数据)结合,对我们来讲就是金融场景和生活场景,支付宝要做一站式的生活平台,就必须了解生活数据本身的特色;风险、信用是金融行业的特色,我们必须从这个角度来出发。另外工程架构也是关键因素,没有工程AI不可能跑起来,更不会实现大规模、实时。 云栖社区:5月份,人工智能领域的泰斗迈克尔·欧文·乔丹(Michael I.Jordan)加入了蚂蚁金服,他的加入会给公司带来哪些帮助? 漆远:乔丹是我们科学智囊团的主席,对蚂蚁金服而言,他会给我们带来三大帮助。 第一个是对技术大方向的建议和指导,尤其是宏观大方向;第二,他也会帮我们建立整个智囊团,智囊团本身也会制订未来的方向,他是非常好的科学家,伟大的场景往往会产生伟大的问题,伟大的问题能产生伟大的科学技术;第三,这个科学智囊团,包括乔丹本人会为我们整个技术品牌影响力的扩展做出贡献。 云栖社区:去年蚂蚁金服宣布着手研发虚拟机器人,这是一款什么样的产品? 漆远:实际上智能客服就是个机器人,并且已经在支付宝上线了。支付宝的定位叫一站式生活服务平台,我们通过智能机器人能够帮您订票、订晚餐、打滴滴车,还可以通过语音给好友发红包、转帐等等,这些都是已经实现的应用。 此外,我们现在正在接通更多的业务直达能力,因为支付宝提供了非常多的服务,例如各种各样城市服务非常复杂,通过智能助理就可以直接解决,这是一个非常好的应用。 当然,蚂蚁金服在智能投顾上也在建立智能机器人,通过对话的形式理解到用户的风险偏好、家庭情况之后,就可以给他更合理的理财建议;另外,我们还希望通过智能助理帮助用户更好的解决生活问题。这些智能机器人底层都是一个技术体系。 云栖社区:未来人工智能的趋势是什么? 漆远:人工智能经历了起起伏伏,它虽然是像正弦波一样跌荡,但是整体往上走的技术,对社会影响力越来越大,技术本身也在逐步成熟中,我相信这是人类最后最伟大的发明,关于未来还有很多的不确定性。但是现在从技术角度来看,我觉得还有很多挑战需要攻克,很多核心的问题我们还未解决,但仅仅解决了很小的问题,对社会对商业的冲击力就已经非常大。 之前有一个朋友讲的话讲得非常好:将来每一个成功的公司都会是一个人工智能的公司。 云栖社区:针对开发者,蚂蚁金服将会开放哪些能力? 漆远:我们将来计划把机器人能力对外开放,开发者可以在里面做更多的东西,包括一些个性化的应用。蚂蚁金服两个关健词,一个是开放另一个是人工智能,目的就是把更多的能力开放给大家。 云栖社区:CCAI大会将在22号召开,届时您会分享什么样的话题? 漆远:在大会上我会介绍蚂蚁金服的人工智能技术,从预测到推理我们怎么来布局的,因为我们以前大多是从应用角度来讲,技术方面讲的并不多。 CCAI大会简介: CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里! 大会讲师采访: 阿里人工智能实验室王刚:找到合适的应用场景是实现人工智能商业化的关键点 语音识别真的比肩人类了?听听阿里iDST初敏怎么说 专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门 CCAI 2017 | 小数据学习对人工智能究竟有着怎样的影响? CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁 CCAI讲师专访 | Toby Walsh:用AI提高器官移植的成功率
无人零售店“淘咖啡”无疑是今年淘宝造物节最受欢迎的展位之一,过去三天,这个占地只有200平方的线下实体店样板已经吸引了无数观众驻足体验,今天阿里巴巴董事局主席马云和孙俪今天也来到了现场。 好了,言归正传。昨天云栖社区已经介绍了造物节场内外的盛况,现在就来为大家揭秘一下淘咖啡到底提供了什么样一种购物体验。 淘咖啡并非只卖咖啡,它实际上是集商品购物、餐饮于一身的线下门店,表面上看淘咖啡和传统门店长得没啥区别,但对消费者而言这完全是两种不同的体验。 购物过程大概是这样的:首次进店打开“手机淘宝”,扫码获得电子入场码,通过闸机,开始购物,此后手机不用再掏出。点餐区,你对服务员说的“我要一杯冰摩卡,一份淘公仔马卡龙“,服务员一句“确认”后自动下单,相应款项就已从你的支付宝账户中扣除。 如果你在店内购买了其它商品,同样不需要任何的支付动作,经过一道“结算门”(也称剁手门),几秒钟识别人脸就可以自动完成扣款,一旁的提示器会告诉你,“支付宝共计扣款XX元”。 纳尼!自动扣款? 你是不是在担心支付宝里的钱? 细心的朋友一定察觉到店内其实安装了不少摄像头和传感器,在你进店的那一刻摄像头就已经捕捉到了你的人脸,并且实时和你的支付宝账号绑定在一起,所以整个支付过程只靠一张脸就实现了,通过视觉算法甚至还能感知你在购物时的情绪;另外,所有的商品不仅内置了RFID射频标签,还有各种传感器监测,所以你带走了价值多少钱的商品,系统也是能够精准的计算出来。 而支撑这一购物体验的是阿里集团多个部门的技术能力,包括蚂蚁金服的IoT支付技术、iDST的语音和计算机视觉技术、业务平台团队的基础电商技术、和新零售技术事业群淘宝技术等等。 天猫新零售技术事业部负责人赵鹏表示:“无人零售店”,其实是一整套的无人店解决方案,具有整体学习和感知能力的体系,通过多路摄像头和传感器融合,加上计算机视觉、机器学习、人工智能等深度学习算法,组成的一套完整自感知和不断优化的智能系统。 而这个系统远比大家想象的要复杂,以下是淘咖啡的三个核心体系: 自主感知及学习系统:通过多路摄像头和多传感器融合技术,在非配合情况下,实现生物特征识别真实的人,这在业内公开范围在商业领域,特别是实体零售行业,首次通过生物特征完成自动支付的应用。识别用户针对不同商品的购物情绪,了解商品用户反馈,进一步优化货品陈列和货品结构,逐渐打造用户 “我的店”。 解决开放领域下,消费者非配合的识别问题。 目标跟踪及分析系统:针对实体零售行业的统一本地IoT解决方案,完美的实现了新零售线上、线下一体化的衔接,使阿里大电商在会员、营销、供应链等体系更方便的赋能线下,同时线下实体的数据更高效的融合到阿里大数据,形成闭环。目前主要是店内的数据分析,方便门店运营商对店内数字化真实的了解,比如消费者的基础的移动轨迹、选购时的心情;店内的货架实时库存状态、访问情况,PV、UV是什么,拿起、方向等等。 意图识别及交易系统:通过视频分析(目标检测和跟踪),以及生物特征识别和物体检测(商品),精准判断用户行为轨迹,包括动线,货架停留时长,商品PV/UV等等,且通过分析穿着打扮,识别消费者不同搭配风格等。打造了线下版的手淘、天猫用户行为体系,且信息维度更丰富。 所以整个技术原理大概就是多路摄像头、多传感器融合来采集数据,而这些数据会实时反馈到阿里云。线下消费者行为、动态库存等等数据实时反馈到阿里云端,整合消费者线上数据,通过大数据实时计算,再反馈到当前实体店的营销互动和供应链,更好的服务线下消费者,从而形成闭环。 这些技术带来的好处也非常明显,它可以创造更好的用户体验,降低零售实体店运营管理成本(人员成本)及产品损耗(防止偷盗、破坏),还可以提升运营效率(供应链),例如库存管理。 天猫新零售技术事业部技术资深专家郑恩阳表示:新零售背景下真正的目标和方向是以消费者为中心,在人、商品与服务、供应链等各个环节数字化的基础上,通过数据流动串联各个消费场景,利用数字化技术实现线上线下的全面融合,提供给消费者覆盖全渠道的无缝消费体验。最大程度地提升全社会从购物、导购、到结算、流通等零售业的运转效率。“ 接下来,阿里还将会把无人零售的这套服务开放给实体店运营商使用,所以...未来线下购物可能真的只看脸了! 相关文章: 淘宝造物节,“奇市江湖”里那些脑洞大开的创意产品
昨天(7月8日),第二届淘宝造物节在杭州开幕了。和第一届注重科技元素不同,今年的主题是“奇市江湖”,分别由东市、西市、南街和北街四大区域组成,共108家神店,来的都是最具创造力的淘宝卖家,也不乏一些网红、明星店,例如徐娇的织羽集、小岳岳的河南美食等等…… 各种脑洞大开的创意产品让人眼花缭乱,虽然没有买买买,但感官刺激和视觉冲击也足以让人回味无穷! 不能来到现场的朋友也不用遗憾,现在云栖社区就带大家感受一下啦! 这届造物节是在杭州G20展馆举办的,由于来到现场的人数众多,为了安全,组委会在会场外面设置了安检通道。 你以为过完安检就完了吗?图样!进来之后你会发现里面还有一道的关卡。你得打开淘宝APP出示购票的二维码才能进入“奇市江湖”(没买票的朋友别想蒙混过关)。 然后工作人员会给你一个手环,这是你进出会场的唯一凭证,带上它你才可以在会场内外出入自由。 好了,“奇市江湖”的探索之旅正式开始了。 进去之后,你会看到在会场正中央的是主舞台“瓦舍”,主要的节目都在“瓦市”演出的,所以这里也是人数最密集的区域。 以“瓦舍”为中心,左边由北街和西市组成,右边则是南街和东市。 又贱又萌的吾皇万睡今年又来了,是西市人气最高的展位之一: 四步就可以把塑料瓶做成成衣服、购物袋,变废为宝就是这么简单... 在鞋子里面种花也是没谁了。 你敢穿着这样的奇装异服到大街上溜一圈吗? 岳云鹏的店带来了河南的美食。 还有阿里人工智能实验室刚刚推出的天猫精灵X1智能音箱,据现场负责人介绍,它的拾音范围是5m,你可以通过它来控制家里所有的家电,前提是这些家电能够联网。 当然,没买票的朋友来了也不会空手而归的,会场外面你可以体验到无人超市“淘咖啡”,这里可以说是集黑科技于一身,人脸识别、动作跟踪、语音识别...应用仅有,慕名而来体验的人自然也不会少。 在淘咖啡购物消费不需要手机、钱包,支付只看脸(刷脸自动付账)...在等餐的时候,你还可以通过屏幕看到需要等待多久,当然如果你没点单也是能检测到的。 需要注意的是,无人超市并不意味着完全不需要工作人员,其实很多环节还是需要有人在现场的完成。关于淘咖啡的具体技术,云栖社区将会在下一篇文章中介绍,敬请期待! 相关文章: 阿里无人零售店“淘咖啡”原来长这样...未来线下购物要看脸了?
编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,届时,阿里人工智能实验室杰出科学家王刚博士将分享人工智能应用的前沿趋势。在此之前,阿里云云栖社区作为独家直播合作伙伴对其作了专访。 在刚刚过去的6月份,阿里人工智能实验室迎来了成立一周年的纪念日。这是一个比阿里iDST还神秘的部门,业界鲜有人知道它的存在,直到日前实验室首款终端产品天猫精灵X1的发布,这支神秘之师才正式成为镁光灯下的焦点。 王刚博士是今年3月加入阿里人工智能实验室的,在此之前,他在南洋理工大学担任副教授(终身教授),专注于深度学习的研究,是众多转投工业界的学术专家之一;加入阿里人工智能实验室后,他负责的是机器学习、自然语言理解,和计算机视觉等技术的研究以及落地。 在王刚博士看来,即便身处学术界,在做学术研究的同时,也需要挖掘技术的经济价值。事实上,早在南洋理工大学期间,王刚博士和其研究团队就研发出了多款人工智能商业化产品。“在学术界的时候我就对技术的商业化和落地非常感兴趣。”王刚回忆道。但他深知,人工智能产品要实现商业化必须要了解用户,要找到合适的应用场景,同时要有好的用户体验也离不开数据的支撑,这些都是高校最匮乏的资源,这也是他选择迈进工业界的主要原因。 以下是本次采访的实录: 云栖社区:加入阿里之前,您一直在学术领域,是什么让你选择从学术界向工业界的角色转变呢? 王刚:以前在学术界的时候我就对技术的商业化和落地非常感兴趣,因为我觉得,我们做工程学科的研究人员,除了发论文,也应该要强调这种技术的经济价值,让技术转化为产品。这和基础学科的研究人员还是不太一样的,他们更多的是探索未知的知识,而工程学科应该要为经济和产品服务的。 所以我在南洋理工大学任教的时候就花了很多时间在做高新技术产业化的事情,比如2011年我带领团队做的时尚衣服搜索系统(CHIC Finder),这个产品上线比拍立淘还要早。当时我们做了很大的努力把这个产品推到市场上,但是我发现在学校很难有市场影响力。即使技术做得很好也不能很快的被用户所知道。所以我就开始思考,是不是应该换一个平台做我感兴趣的事情。 另一方面,人工智能技术在近年取得了很大的进展。以前大家认为不能做的很多任务,现在我们都能够用人工智能技术来实现了。人工智能已经处于一个从学术界到大众爆发的一个零界点。基于这样的考虑,我选择加入了阿里巴巴。因为它了解消费者需要什么,也知道如何把技术用最好的形式呈现给消费者。在这样一个平台上去做人工智能技术落地的事情,更容易获得成功。 云栖社区:在南洋理工大学,您和您的团队取得了哪些研究成果? 王刚:先说学术方面,我们在人工智能最顶尖的期刊和会议上发了将近有一百篇文章,例如CVPR/ICCV/TPAMI等。这些文章在推进深度学习和计算机视觉研究上都做了较大贡献。例如我们改进了深度神经网络的设计机理:让神经网络能根据具体应用场景更灵活,更高效的去处理复杂信息,从而提高学习的效果和效率,增加泛化能力。另外我们在语义理解和行为分析等前沿问题上也取得了较大进展,并建立了标准的数据库为学术界和工业界所使用。 学术研究之外,我们还研发了很多商业化系统。除了刚才提到的图像搜索系统,我们还做了药片识别系统:护士发药的时候可能会把药发错,这样的失误非常危险,而这个系统能够根据药品的表面的特征,再通过摄像头,识别出分发的药片是否准确。另外我们还做过辅助驾驶系统,它能够自动检测前面的车辆、车距以及两边的车道。这三个系统都已经成功商业化了,目前已经转让给相关的公司进行进一步的产品的开发。 云栖社区:加入阿里之后您的工作有什么变化?和之前在学术界最大的区别是什么? 王刚:从加入阿里到现在,我主要的工作带领算法团队实现人工智能技术在天猫精灵X1智能音响上的落地,工作内容和在南洋理工大学期间的学术研究的区别还是挺大的。在学术界,我们考虑的主要是技术的前沿性以及潜力;但是把前沿技术转化为产品,要考虑技术的鲁棒性和可扩展性,也有很多技术细节需要去打磨。很庆幸我们有很多非常优秀的同事,他们在算法和工程上的能力都很强,所以我们能克服落地过程中的很多困难,从而推出天猫精灵这样在未来能改变人机交互方式的极具潜力的人工智能产品。 云栖社区:虽然最近两年人工智能很火,但是有一个比较现实的一个问题:无论是学术机构,包括一些企业现在大多都还是处于研究的阶段,您认为人工智能实现商业化最大的挑战是什么? 王刚:无论是在学术界还是工业界,人工智能最近的发展非常迅速。也可以看到在人工智能商业化这个事情上,我们还是取得了非常大的进展的。像前文提到的我们已经发布的天猫精灵,能让人机交互更自然,更轻松,更容易,这背后就是大量的人工智能技术在支持。但是很多人工智能机构确实遇到了商业化的难题,一个比较大的原因就是没有找到合适的应用场景。细化一下,又有几个可能的原因,例如不了解用户真正的需求,不知道现在的技术的能力界限:能做什么和不能做什么,不知道怎么用合适的产品形式把技术包装起来。所以实现人工智能商业化需要同时有优秀的产品团队和技术团队,两者是缺一不可的。 云栖社区:人工智能在技术上有哪些挑战呢? 王刚:我们可以看到现在还是需要大量的训练样本去训练深度学习系统。不过在很多领域我们很难找到这么多的训练数据。要想人工智能取得进一步的发展,就需要去解决训练样本比较小(小数据),或者是没有训练样本的问题。如果能把这个问题解决好,那么人工智能大规模的应用就到来了。我们实验室在这个前沿性的问题上也进行了很多的探索。 云栖社区:实验室已经发布了首款产品——天猫精灵X1,能否介绍一下这款产品的核心技术? 王刚:这是一款大众消费级的语音终端产品,产品包含了很多人工智能的核心技术,例如自动语音识别,自然语言理解,对话生成,TTS,知识图谱,还有个性化的决策和执行等。 云栖社区:阿里人工智能实验室专注消费级产品,您认为云上的人工智能和终端人工智能如何协同工作? 王刚:消费者只会在乎产品给他们的最终的智能的体验,而不会特别关注人工智能是在端上实现还是云上实现的。所以我们做消费级智能终端也是很关注云端协作的。因为如果我们只依赖终端,就存在一个问题:终端的计算能力一般都比较弱,这就导致返回的结果可能不准确;另外,终端只植入本地的信息,它不知道其他的端的信息,其智能的判断也不会特别完美。当然,在终端实现人工智能也有优点,就是它没有延迟,因为它不需要把数据传到云端:当数据是大量视频流量数据时,传输到云端就成为了瓶颈。 反之,云端实现人工智能会产生传输上的延迟,但是它又具有更强的处理能力,也能够接触到更多的信息。 因此,找到二者结合的平衡点才是关键。怎么优化,怎么能够做好这样的配置,取决于我们的应用场景。 云栖社区:关于这个月的CCAI大会,您对哪些话题比较感兴趣? 王刚:这次大会应该会分享很多人工智能落地的案例,我对这样的话题比较感兴趣。通过这些案例,我们可以知道人工智能在目前这个阶段在哪些领域创造了惊喜。这些人工智能落地的经验也会给我们自己产品的研发带来很多启发。另外我也希望能看到在算法方面的进展。 CCAI大会简介: CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里! 大会讲师采访: 语音识别真的比肩人类了?听听阿里iDST初敏怎么说 专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门 CCAI 2017 | 小数据学习对人工智能究竟有着怎样的影响? CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁 CCAI讲师专访 | Toby Walsh:用AI提高器官移植的成功率
7月5日下午,阿里人工智能实验室在北京正式发布了旗下首款智能设备——天猫精灵X1,据介绍,这款产品采用了阿里人工智能实验室自主研发的中文语义理解引擎,内置第一代中文人机交流系统AliGenie,并且依托阿里云的机器学习技术实现智能家居控制、语音购物、手机充值、音乐播放等功能。 以下是关于天猫精灵X1以及AliGenie的问答! 一、关于天猫精灵X1 Q:天猫精灵X1是什么? A:天猫精灵X1是阿里人工智能实验室推出的首款智能语音终端设备,内置第一代中文人机交流系统AliGenie。AliGenie生活在云端,它能够听懂中文普通话语音指令,目前可实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能,带来崭新的人机交互新体验。依靠阿里云强大的机器学习技术和计算能力,AliGenie能够不断进化成长,了解使用者的喜好和习惯,成为人类贴心的智能助手。 Q:能介绍一下阿里人工智能实验室吗? 阿里人工智能实验室(A.I. Labs)成立于2016年,负责阿里巴巴集团旗下消费级AI产品的研发。A.I. Labs的使命是探索人机交互新大陆,带领人们体验探索未知世界的乐趣。 Q:阿里为什么要做天猫精灵X1? A:语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。我们认为随着云端一体化带来的高度智能化,智能终端需要匹配比手机触屏更强大的人机交互方式,AliGenie将肩负阿里巴巴在智能人机交流系统领域探索的使命。我们将为开发者和硬件厂商提供一个开发者平台,包括了语音技术、服务入口以及硬件方案,并整合阿里巴巴生态体系中丰富的互联网服务和商业链接能力,共同为消费者提供全新的智能体验。天猫精灵X1只是这个生态体系中新生长出来的一颗大树,我们希望未来能长出一片新的森林。 Q:为什么起这个名字,X1有什么意义吗? A:在数学中,“X”代表未知数和变量。天猫精灵X1作为中国消费级AI产品的开端,充满着未知和变量。这也是阿里人工智能实验室推出的第一款产品,因此命名为X1。 Q:天猫精灵X1目前有哪些功能? A:目前已经具备音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等功能。随着开发者的入驻,天猫精灵X1能够实现的功能还将快速增加,具体可以查看天猫精灵官方网站,或下载天猫精灵APP。 Q:天猫精灵X1的声音是怎么来的? A:我们接触了100位专业声优,最后选择了我们最满意的这位。加上语音合成技术,这就是最后大家听到的回答,希望大家都能喜欢。另外,未来还会开放语音包接口。 Q:天猫精灵X1硬件配置如何? A:天猫精灵X1采用了首颗专门为智能语音行业开发的芯片,在解码,降噪,声音处理,多声道的协同等方面做了专门的优化处理。针对AliGenie需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的NEON处理单元,NEON 技术可加速音频和语音处理、电话和声音合成等,从而带来更优秀的语音识别及音频处理效果。 在收音方案上我们采用了业界公认的优秀方案------六麦克风收音阵列技术。在顶部的六颗高灵敏麦克风有助于收集到来自不同方向的声音,从而更容易在周围的噪音中识别出有用的信息,来达到更好的远场交互效果。 Q:在有噪音的环境中也能正常使用吗?是如何做到的? A:天猫精灵X1背后的团队在降噪技术上做了大量研究,并专门针对家庭使用场景做了优化。天猫精灵不是在绝对安静的环境下工作的,家庭中有各种各样的噪音,开发人员在厨房,客厅,卧室,书房等环境里面,对玻璃,木材,混凝土,金属,石材,等各种材质和环境进行了上千次实验,其中对中国家庭环境大量使用的石材和木头材质进行了针对性的测定,能够适应在家庭环境噪音下进行唤醒。并且具备一定的学习功能,可以根据环境噪音进行学习和进化,适应不同家庭环境噪音,经过7天左右优化,会更加适应所在家庭环境。 此外,天猫精灵X1还使用了回声对消和远近场拾音等技术,即使在播放音乐的同时也能正常接收语音指令。 Q:什么时候正式发售? A:天猫精灵X1于7月5日开始限量公测,用户和开发者可以在天猫精灵官网(bot.tmall.com)申请公测,8月8日将面向天猫会员用户进行首批正式发售。 Q:这个需要配套的手机APP吗? A:在初次使用时,用户在手机上安装天猫精灵app,用以绑定账号。手机app可以实时显示与硬件产品的连接状态、命令接受反应情况、产品最新的功能上线提醒,以及主动推荐适合用户使用习惯的内容。 天猫精灵APP 7月5号就会在各大应用商店上线,X1的用户也可以通过“手机淘宝”------“我的设备”进入操作页面,可不必安装单独APP。 二、关于AliGenie和开发者平台 Q:AliGenie目前所涵盖的功能包括? A:目前有以下功能,随着更多功能的开发和第三方开发者的加入,功能将不断扩展 1. 音乐音频:海量曲库和内容库 2. 家居控制:语音控制智能家电设备 3. 购物充值:声纹实现购物全流程 4. 儿童教育:精选儿童音频内容,寓教于乐 5. 技能市场:汇聚各种服务和内容,不断扩展功能 Q:AliGenie未来还会进入哪些生活及商业场景? A:目前已经或正在拓展的行业解决方案有1、儿童领域2、酒店领域3、家庭场景下4、TO B其他商业场景5、线下零售场景6、与其他显示设备结合的场景 Q:AliGenie可接入的智能家电范围包括? A:目前支持100多个品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品,更多智能家电正在接入中。 Q:AliGenie开发者平台会开放哪些能力? A:AliGenie开发者平台主要面向四种类型的开发者,包括内容开发者、应用开发者、智能家居开发商和硬件生产商。开发者既可以创建技能,为更多的语音用户提供服务,也可以将自己的设备接入云端服务,获取语音交互能力。 依托强大的底层技术、智能的算法引擎、完善的云端服务和成熟的软硬件标准系统,AliGenie会持续不断地将全面、易用的核心技术能力进行输出,为开发者带去更多可能。通过AliGenie开发者平台,开发者可以链接到阿里生态体系中的数亿消费者和海量的生活和商业场景。 Q:AliGenie开发者平台有哪些核心技术开放? A:1、深度学习 我们研发了国际领先的深度学习技术来作为AliGenie的大脑,这些技术成果被发表在顶尖国际会议例如KDD和CVPR上。我们自主研发的深度学习能快速高效的从海量数据中进行学习,并能在广泛的应用场景中使用。 2、自然语言处理 基于我们积累的海量的自然语言数据,和自主研发的国际领先的深度学习技术,我们实现了高效准确稳定的自然语言理解。 3、搜索/推荐算法 通过阿里积累的用户画像,为用户个性化地提供用户所需要的信息和内容服务。 4、知识表示及推理问答系统 我们构建了一个海量的知识库,实现对万事万物的结构化的描述,这个知识库不仅帮助我们更好的理解语言,更重要的是可以通过推理回答各种知识类问题。 上述能力我们将免费开放给开发者和硬件厂商,无需从头搭建AI语音系统,节省在研发上的巨量投入,使开发者能够更好的为用户提供服务。 Q:如何成为AliGenie平台上的开发者? A:通过我们的开发者平台,即可申请成为开发者,只需要简单认证,就可以使用我们的深度学习训练平台。 1、通过官网进行注册,填写资料申请邀请码 2、一周内发放邀请码,开放相关工具和平台 3、可以利用平台进行相关的开发和应用,然后提交测试评审,通过后可以在应用商店上线 Q:硬件厂商如何将AliGenie集成到自己的产品中? A:我们会推出全套的硬件参考设计方案,给予合作伙伴足够的支持。 1、厂商通过官网申请合作文档和技术参考文档。 2、我们将对申请进行评估,并与合作伙伴讨论准备相关硬件的设计方案、接入方案及商业策略。 3、双方进行联合开发和测试,整个过程约1.5个月左右完成。 Q:什么样的智能硬件可以与AliGenie连接?硬件厂商如何加入? A:目前阿里智能联盟的上千万智能家居设备已经能够与天猫精灵X1进行连接。 硬件设备厂商可以通过两种方式接入AliGenie: 1.通过SDK接入 提供常用平台(如嵌入式Linux、Android)的SDK给到设备厂商,SDK中包含了如长连接通讯、设备用户绑定、音频播控、状态管理等功能模块,封装其中的实现细节,开发者可以方便的进行接入。 2.通过协议接入 提供基于Websocket的一套标准化协议,由厂商自行进行对接,直接调用AliGenie的各项能力。 Q:开发者如何分成? A:开发者可以获得全部收益,平台在推广期间不参与分成。我们还会推出相关的阿里AI创新开发者计划。 三、关于技术 Q:这个产品是阿里自己研发的吗?有哪些核心技术? A:天猫精灵X1和AliGenie均由阿里巴巴的科学家和工程师团队研发,应用了阿里巴巴积累多年的语音识别、自然语言处理、人机交互等技术。其中,阿里人工智能实验室正在对声纹识别、声纹购、NLP中文对话引擎等核心技术申请专利。不久前,我们的NLP技术团队还在国际权威技术论坛KDD 2017 上发表了一篇论文。 Q:阿里巴巴在人工智能语音领域有何独到的技术优势? A:在美国国家标准署2016年举办的全球说话人识别竞赛(NIST SRE2016),阿里巴巴以OpenSesame(芝麻开门)为队名,采用了基于深度学习网络的特征提取,借助距离测度学习来提高数据的泛法能力,开创性提出利用对称性支持向量机器来提高系统性能,在近两百多支参赛队伍中,阿里最后的系统性能在大中华区声纹识别性能排第一,美国赛区第二。同时我们递交了4个相关的专利,这一系统曾受邀在声纹识别顶级(NIST SRE2016 workshop)作公开演讲。 在语音顶级国际会议Interspeech2017, 我们的两篇论文也被接受:《The Opensesame NIST 2016 Speaker Recognition Evaluation System》《The I4U Mega Fusion and Collaboration for NIST Speaker Recognition Evaluation 2016》。 这一声纹识别技术也被运用到了X1上,它会根据声音条件识别出不同的使用者,以此保证使用的安全性和私密性。而在记住了每个人之后,X1还能够实现“千人千面”,能够根据每个人的喜欢进行内容设定和推荐。 基于声纹识别技术,我们还推出了声纹购功能,是第一个商用的声纹购物系统,可以通过声纹完成支付,当你发起购物、充值等行为时,只需要说出声纹密码,声音识别系统将对身份进行校检,确认是本人后才会完成交易,否则将拒绝请求。 Q:产品是否支持多轮对话? A:支持。阿里巴巴人工智能实验室在自然语言理解的基础上,加入了“决策引擎”机制,能够理解语音的上下文语境,并判断当前应该响应的是哪一个模块,进行决策。这一套先进的人机交互和自然语言处理系统也在国际顶级学术论坛KDD 2017上发表了重要的论文,并正在申请技术专利。 Q: X1的语义理解是用的自己的技术吗?做的怎么样? A:中文语音交互的难点在于中文的语义理解。阿里人工智能实验室研发的中文语义理解引擎针对常用的定时,提醒,天气,娱乐内容,家居控制,助手,以及购物等领域进行了特别优化,仅天气预报就能够理解786种中文问法。 通过深度机器学习,天猫精灵X1已兼容20个领域的自然语义理解。 此外也更多考虑到中文语言对话过程中的各种实际案例,对北方语言的儿化音,干净利素的问法,小朋友经常叠字叠词,南方人某些与普通话混淆的中文表达方法进行了深度处理。针对中国人语言发音的特色,对吞字,咬字,缺字,北京话习惯,河南话习惯进行了特别优化,进行补偿和修正。 这套语义理解系统还带有记忆功能和强大总结归纳能力,还加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。
编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于7月22-23日正式召开,大会期间阿里云iDST智能交互总监初敏将在“语言智能与应用”论坛上分享语音交互技术的趋势,在此之前,阿里云云栖社区作为独家直播合作伙伴采访了初敏。 围绕语音交互的入口之争正愈演愈烈,siri、echo这些产品风靡全球的同时,国内外科技巨头、创业团队也在暗流涌动,各种智能音箱以及语音解决方案层出不穷。 毫无疑问,语音交互已经成为人工智能领域最成熟也是落地最快的技术。尤其是深度学习的起势,让语音识别、语音合成以及自然语言处理的发展速度提升到了一个新的高度。 于是乎,各种美化宣传扑面而来! “XXX产品识别准确率高达99%,识别准确率比肩人类!” 然而,事实并非如此。市面上已有的语音交互产品或多或少都存在一些通病:在特定领域效果不错,但超出指定范围就差强人意了,这样的问题让用户整体体验大打折扣… 语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。 (注: iDST语音识别团队曾在2016年以0.67%的准确率优势击败了世界速记大赛亚军蒋毅,据了解,iDST团队使用了BLSTM算法,这种算法对单位时间内的计算量要求很高,为此他们做了很多针对性的优化工作,才能让这个算法提供实时服务,并第一次在工业界进行了大规模部署。) 以下内容整理自采访录音: 云栖社区:从国内外的趋势来看,语音交互技术的应用越来越多,您认为推动语音技术普及的主要原因是什么? 初敏:语音有两个大的方向在用,第一个把语音当成数据,例如在讲座、法院,或者是客服这些场景中,之前有的会录音,有的不录音,讲完就过去了,而现在这些语音都会记录下来,而且还会识别成文字,这实际上是一个数据积累的过程,我们可以对这些文本化的数据进行各种分析、挖掘和加工等等。 另外一个就是大家更关注的语音交互,语音交互之所以越来越被重视,我觉得是因为互联网、智能硬件的普及。未来智能电视、智能音箱,甚至到以后的日常设备,都可以变成一个互联网的入口,语音就是最简单的,最直接的交互方式,是通用的输入模式。 当然现有的很多语音产品还没有那么成功,我认为虽然现在产品比较多,但是真正好用的,让人经常想用的却不多。 云栖社区:就像您提到的现在语音识别产品用起来其还会有各种各样的问题,要达到真正完全可用的状态我们还需要克服哪些难题? 初敏:我觉得脱离了应用场景讲识别准确率、讲产品根本就是不靠谱的,大家谈到的百分之多少的识别准确率理论上不存在,任何一个准确率都是在特定场景下测出来的,不同的场景测出来不一样,做一套模型在所有场景上都达到非常高的准确率,是不太现实的。 以云栖大会为例,云栖大会的Talk,语音识别准确率基本上能做到95%以上,但如果突然邀请一个特殊领域的讲演者,比如医疗领域,可能就很难达到同样好的效果,因为现有模型在医疗领域的知识积累不够。所以,要把语音技术在各种领域普及开来,能快速针对不同场景进行模型调优和定制变得非常重要,这也是我们下面主要推进的一个方向。 云栖社区:阿里在语音交互上重点做了哪些事? 初敏:这两年来我们其实做了很多工作。 一方面是在算法方面的尝试,语音这两年进步的比较快实际上就是深度学习的成功应用,我们尝试了各种深度学习模型,如DNN、CNN、BLSTM(双向长短时记忆神经网络),特别是在业界最先大规模上线了基于BLSTM的系统。同时,我们也会尝试各种新算法。需要提到的是有些算法比较复杂,实验效果好,但是上线就有些难度,所以我们需要进行大量的尝试。另外,现在这些模型的训练是复杂度挺高的,训练的时间一般会很长,特别是当你的数据特别多的时候。 模型训练的很大一部分任务要由GPU处理,在多台机器上的多块GPU卡上并行训练,才能提升模型优化的效率,因此我们也需要进行一些这种底层基础设施的建设(详见:GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware)。 另一方面,我们也在在建模单元上做一些尝试,传统的做法是对状态建模(通常把一个音素切成三个状态),现在我们成功的使用音素作为建模单元,在准确率保持的前提下,解码效率提升高三到五倍。更大的建模单元也在尝试中。 除了语音识别,我们在语音合成、对话管理,问答等方面也做了很多工作,还包括在不同端上的信号处理,例如麦克风阵列等等都是要去实践的。这样才能完成语音交互的完整过程。 云栖社区:在算法的选择上是怎么考量的? 初敏:算法实际上有很多,DNN是全连接的,CNN是有卷积的,然后RNN基本上是序列的,我们实验最成功的是双向的BLSTM,而现在还是有些其他的选择,包括优化准则方面的变化。最终在线上系统采用什么算法,需要综合考虑,既要看效果,同时还要考虑到计算效率,部署成本等因素。 云栖社区:去年双十一阿里ET语音交互系统有亮相,它还有哪些提升空间? 初敏:ET语音交互系统确实还有改善的空间,我们平常准确率能做到95%、96%的水平,但当时主持人讲的语速太快,准确率也就不尽如人意了。此外,跟主持人交互的自由度方面,也还有很多可以做的事情。 云栖社区:团队做了哪些改善方案? 初敏:要在更多的场景用好就必须要有大量的数据。因为场景的磨合都是和数据有关,数据是什么场景来的,它就可以在这个场景下取得好的效果。之前我们在客服领域的数据特别多(详见:语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用),然后还有一些就手机端的,比如说手淘(详见:阿里小蜜:语音识别、语义分析、深度学习在手机淘宝的实战分享),但是视频类的就会差一些。因此,我们就有针对性的增加数据,同时增加各种可能的背景噪声,在专门优化后,视频里的语音的识别效果就大幅提升了。因此,快速的模型定制对语音技术的广泛应用非常重要。 我们现在花了很多时间研发系统的定制能力,这样用户在系统上提交数据就可以通过我们的自动流程来定制他们的模型,这个模型在他们需要的场景下可以取得比通用模型更好的效果。我们现在很多的工作是从这个角度来看。我认为将来这方面是谁的能力最强,谁就能真正在市场上快速把它用起来。 目前市面上,基本上还没有哪个团队在提供快速定制化服务,我们是非常领先的。 云栖社区:下个月举行的CCAI大会上开设了“语言智能与应用”论坛,针对这一方向,您认为现在学术界和产业界还存在哪些痛点? 初敏:就像你刚才问到的,语音识别宣传得很好,但很多时候用起来还没有预期的那么好,主要是因为技术到产品的落地之间还有很多工作没有做好、做细致。 语音识别不是万能的,随便一接就可以的用的很顺畅的。 技术使用起来往往需要一个迭代的过程的,需要先上线,然后在场景里收集数据去评估,优化模型,改善用户体验。经过几轮迭代,才可以发挥最佳效果。其他AI技术也是相似的。今天很多AI技术的用户很容易把技术的能力理想化,感觉一引入,就应该立竿见影的看到效果。看到实际效果不尽人意时,就会感觉有很大的落差,失望和放弃。所以,我想强调的是,一方面智能语音技术已经达到广发应用的水平,同时在真正落地的时候,要充分认识到可能遇到的困难,有持久战的思想准备。 云栖社区:下个月您会在CCAI语音交互分论坛上分享,作为演讲嘉宾您希望能给开发者带来什么样的帮助? 初敏:语音交互技术在未来三五年内会大规模应用,这是大家都看到的趋势,但是换句话说,大家都希望产品在目标场景中取得好的效果,但现实很残酷,并不是每个人都是算法或者人工智能领域的资深专家,需要一个不断学习和迭代的过程。AI技术的应用是一个系统工程,我们要有足够的耐心去打通产品和体验的优化链路,在应用中不断提升效果。 CCAI大会简介: CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。报名请戳这里! 大会讲师采访: CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich:人类将如何受到AI威胁 CCAI讲师专访 | Toby Walsh:用AI提高器官移植的成功率
6月最后一周的第一个工作日,阿里又搞了件大事! 亚马逊级别最高的华人科学家任小枫正式加入阿里人工智能研发核心团队,担任阿里iDST首席科学家和副院长。 据 据了解,任小枫拥有浙江大学计算机本科、斯坦福大学硕士及加州大学伯克利分校博士学位,目前还担任华盛顿大学计算机科学与工程系客座教授,相关论文被引用9000次以上,他还曾担任过CVPR、ICCV(顶级计算机会议)的领域主席。 值得一提的是,任小枫在亚马逊曾任职十余年:从2003年开始任职于亚马逊无人零售店Amazon Go部门,领导计算机视觉算法团队,加入阿里之前,担任亚马逊前资深主任科学家(Senior Principal Scientist)一职,是亚马逊最年轻的自身主任科学家之一(42岁)。 那么这位计算机视觉(ComputerVision,CV)领域的大神为何选择加入阿里呢? 任小枫在接受媒体采访时表示,“之所以选择阿里,因为我觉得阿里是中国布局最广也是发展最好的公司,富有活力重视创新,它提供的各类服务融入到了人们生活的方方面面。在计算机视觉和其他人工智能技术高速发展的今天,我们能看到一个足够聪明的电脑将会改变人们的生活,让生活变得更加方便,也更加有意思。但是这聪明用在什么地方,怎么用,需要有具体的应用场景的支持和指导。阿里有非常多的应用场景,也对人工智能技术非常的重视,在iDST投入很多力量来发展这些技术以及应用。我相信我加入阿里和iDST能有足够的支持和空间把计算机视觉技术真正做好用好,能让我们的生活质量上一个台阶。杭州是我的家乡,我对阿里也有特殊的感情。” iDST院长金榕(中间)、副院长任小枫(左一)、副院长华先胜(右一) 当然,加入阿里并不意味着他将回国工作,任小枫向媒体表示,接下来他会继续留在美国,在iDST的西雅图团队任职。 “iDST现在在西雅图发展得很快。美国有很多第一流的人才,西雅图也是一个正快速发展的技术城市。我们希望在西雅图建立和发展起来一个国际一流的团队,开发出国际顶尖的和超越顶尖的技术,和国内的团队紧密合作来推动阿里集团各个方面的人工智能的发展和应用。”任小枫如此表示。
厉害...