大模型为什么是深度学习的未来?
人工智能 | 数据分析 | Chat GPT深度学习 | 数据挖掘 | 高性能计算当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工厂模式”的AI转型。大模型通常在大规模无标记数据上进行训练,以学习某种特征和规则。基于大模型开发应用时,可以对大模型进行微调,或者不进行微调,就可以完成多个应用场景的任务;更重要的是,大模型具有自监督学习能力,不需要或很少需要人工标注数据进行训练,降低训练成本,从而可以加快AI产业化进程,降低AI应用门槛。与传统机器学习相比,深度学习是从数据中学习,而大模型则是通过使用大量的模型来训练数据。深度学习可以处理任何类型的数据,例如图片、文本等等;但是这些数据很难用机器完成。大模型可以训练更多类别、多个级别的模型,因此可以处理更广泛的类型。另外:在使用大模型时,可能需要一个更全面或复杂的数学和数值计算的支持。深度学习算法不需要像大模型那样训练大量数量的模型来学习特征之间的联系。深度学习算法是基于神经元的,而大模型是利用大量参数训练神经网络。本文从大模型与深度学习方面入手,解决大模型是否是深度学习的未来的问题。作为深度学习、人工智能领域的专家,蓝海大脑液冷工作站支持多种算力平台,通过超融合与虚拟化管理平台可实现x86、ARM以及其他芯片架构的多元异构计算资源池化,并可根据业务特点实现计算资源的随需调度和统一管理,实现异构融合。同时,提供计算密集型、计算存储均衡型、存储密集型、边缘型、AI型等多种机型,以满足不同人工智能计算场景的需求,更加灵活高效。大模型发展现状大模型(预训练模型、基础模型等)是“大算力+ 强算法”结合的产物。大模型通常在大规模无标注数据上进行训练,以学习某种特征。在大模型进行开发应用时,将大模型进行微调,如对某些下游任务进行小规模标注数据的二次训练或不进行微调就可以完成。迁移学习是预训练技术的主要思想,当目标场景数据不足时,先在数据量大的公开数据集上训练基于深度神经网络的AI模型,然后将其迁移到目标场景中,通过目标场景中的小数据集进行微调,使模型达到要求的性能。在这个过程中,在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型极大地减少了模型在标记数据量下游工作的需要,从而解决了一些难以获得大量标记数据的新场景。从参数规模上看,AI 大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看, AI 大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。国外超大规模预训练模型始于2018年,并在2021年进入“军备竞赛”阶段。2017年Vaswani等人提出Transformer架构,奠定了大模型领域主流算法架构的基础; Transformer提出的结构使得深度学习模型参数达到上亿规模。 2018年谷歌提出BERT大规模预训练语言模型,是一种基于Transformer的双向深层预训练模型。这极大地刺激了自然语言处理领域的发展。此后,基于BERT、ELNet、RoberTa、T5的增强模型等一大批新的预训练语言模型相继涌现,预训练技术在自然语言处理领域得到快速发展。 2019年,OpenAI将继续推出15亿参数的GPT-2,可以生成连贯的文本段落,实现早期阅读理解和机器翻译等。紧接着,英伟达推出了83亿参数的Megatron-LM,谷歌推出了110亿参数的T5,微软推出了170亿参数的Turing-NLG。 2020年,OpenAI推出GPT-3超大规模语言训练模型,参数达到1750亿,用了大约两年的时间,实现了模型规模从1亿到上千亿级的突破,并能实现作诗、聊天、生成代码等功能。此后,微软和英伟达于2020年10月联合发布了5300亿参数的Megatron Turing自然语言生成模型(MT-NLG)。2021年1月,谷歌推出的Switch Transformer模型成为历史上首个万亿级语言模型多达 1.6 万亿个参数;同年 12 月,谷歌还提出了具有 1.2 万亿参数的 GLaM 通用稀疏语言模型,在7项小样本学习领域的性能优于 GPT-3。可以看出,大型语言模型参数数量保持着指数增长势头。这样的高速发展还没有结束,2022年又有一些常规业态大模型涌现,比如Stability AI发布的文字到图像Diffusion,以及OpenAI推出的ChatGPT。 国外大模型发展历程在国内,超大模型的研发发展异常迅速,2021年是中国AI大模型爆发的一年。 2021年,商汤科技发布了大规模模型(INTERN),拥有100亿的参数量,这是一个巨大的训练工作。在训练过程中,大约有10个以上的监控信号帮助模型适应各种不同视觉或NLP任务。截至到2021年中,商汤科技已经构建了全球最大的计算机视觉模型,其中该模型拥有超过300亿个参数;同年4月,华为云联合循环智能发布千亿参数规模的盘古NLP超大规模预训练语言模型;联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。阿里达摩院发布270亿参数的PLUG中文预训练模型,联合清华大学发布千亿参数规模的M6中文多模态预训练模型; 7月,百度推出 ERNIE 3.0 Titan模型; 10月,浪潮信息发布预估2500亿的超大规模预训练模型“源 1.0”; 12月,百度推出了拥有2600亿尺度参数的ERNIE 3.0 Titan模型。而达摩院的M6模型的参数达到10万亿,直接将大模型的参数提升了一个量级。2022年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”八卦炉完成建立,其模型参数将超过174万亿。部分中国公司虽然还没有正式推出自己的大规模模型产品,但也在积极进行研发,比如云从科技,该公司的研究团队就非常认同“预训练大模型+下游任务迁移”的技术趋势,从2020年开始,在NLP、OCR、机器视觉、语音等多个领域开展预训练大模型的实践,不仅进一步提升了企业核心算法的性能,同时也大大提升了算法的生产效率,已经在城市治理、金融、智能制造等行业应用中展现出价值。“书生”相较于同期最强开源模型CLIP在准确率和数据使用效率上均取得大幅提升大模型给人工智能产业带来什么一、大模型加速AI产业化进程,降低AI应用门槛人工智能正处于从“能用”到“好用”的应用落地阶段,但仍处于商业落地初期,主要面临场景需求碎片化、人力研发和应用计算成本高以及长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景差距大等行业问题。而大模型的出现,在增加模型通用性、降低训练研发成本等方面降低AI落地应用的门槛。1、大模型可实现从“手工作坊”到“工厂模式”的AI转型近十年来,通过“深度学习+大算力”获得训练模型成为实现人工智能的主流技术途径。由于深度学习、数据和算力可用这三个要素都已具备,全球掀起了“大炼模型”的热潮,也催生了一大批人工智能公司。然而,在深度学习技术出现的近10年里,AI模型基本上都是针对特定的应用场景进行训练的,即小模型属于传统的定制化、作坊式的模型开发方式。传统AI模型需要完成从研发到应用的全方位流程,包括需求定义、数据收集、模型算法设计、训练调化、应用部署和运营维护等阶段组成的整套流程。这意味着除了需要优秀的产品经理准确定义需求外,还需要AI研发人员扎实的专业知识和协同合作能力才能完成大量复杂的工作。传统的定制化、作坊式模型开发流程在传统模型中,研发阶段为了满足各种场景的需求,AI研发人员需要设计个性定制化的专用的神经网络模型。模型设计过程需要研究人员对网络结构和场景任务有足够的专业知识,并承担设计网络结构的试错成本和时间成本。一种降低专业人员设计门槛的思路是通过网络结构自动搜索技术路线,但这种方案需要很高的算力,不同的场景需要大量机器自动搜索最优模型,时间成本仍然很高。一个项目往往需要专家团队在现场待上几个月才能完成。其中,数据收集和模型训练评估以满足目标要求通常需要多次迭代,从而导致高昂的人力成本。落地阶段,通过“一模一景”的车间模式开发出来的模型,并不适用于垂直行业场景的很多任务。例如,在无人驾驶汽车的全景感知领域,往往需要多行人跟踪、场景语义分割、视野目标检测等多个模型协同工作;与目标检测和分割相同的应用,在医学影像领域训练的皮肤癌检测和AI模型分割不能直接应用于监控景点中的行人车辆检测和场景分割。模型无法重复使用和积累,这也导致了AI落地的高门槛、高成本和低效率。大模型是从庞大、多类型的场景数据中学习,总结出不同场景、不同业务的通用能力,学习出一种特征和规律,成为具有泛化能力的模型库。在基于大模型开发应用或应对新的业务场景时可以对大模型进行适配,比如对某些下游任务进行小规模标注数据二次训练,或者无需自定义任务即可完成多个应用场景,实现通用智能能力。因此,利用大模型的通用能力,可以有效应对多样化、碎片化的人工智能应用需求,为实现大规模人工智能落地应用提供可能。AI大模型“工厂模式”的开发方式2、大模型具有自监督学习能力,能够降低AI开发以及训练成本传统的小模型训练过程涉及大量调参调优的手动工作,需要大量AI专业研发人员来完成;同时,模型训练对数据要求高,需要大规模的标注数据。但很多行业的数据获取困难,标注成本高,同时项目开发者需要花费大量时间收集原始数据。例如,人工智能在医疗行业的病理学、皮肤病学和放射学等医学影像密集型领域的影响不断扩大和发展,但医学影像通常涉及用户数据隐私,很难大规模获取到用于训练 AI 模型。在工业视觉瑕疵检测领域,以布匹瑕疵为例,市场上需要检测的织物种类有白坯布、色坯布、成品布、有色布、纯棉、混纺织物等缺陷种类繁多,颜色和厚度难以识别,需要在工厂长时间收集数据并不断优化算法才能做好缺陷检测。大模型利用自监督学习功能,对输入的原始数据进行自动学习区分,合理构建适合模型学习的任务,不需要或者很少用人工标注的数据进行训练,很大程度上解决了人工标注的数据标签成本高、周期长、精确度的问题,减少了训练所需的数据量。这在很大程度上减少了收集和标记大型模型训练数据的成本,更适合小样本学习,有助于将传统有限的人工智能扩展到更多的应用场景。我们认为,相比于传统的AI模型开发模式,大规模模型在研发过程中的流程更加标准化,在实现过程中具有更大的通用性,可以泛化到多种应用场景;并且大模型的自监督学习能力相较于传统的需要人工标注的模型训练能够显著降低研发成本,共同使得大模型对于 AI 产业具有重要意义,为解决 AI 落地难、促进 AI 产业化进程这一问题提供方向。二、大模型带来更强大的智能能力除通用能力强、研发过程标准化程度高外,大模型最大的优势在于“效果好”。它通过将大数据“喂”给模型来增强自学习能力,从而具有更强的智能程度。例如,在自然语言处理领域,百度、谷歌等探索巨头已经表明,基于预训练大模型的NLP技术的效果已经超越了过去最好的机器学习的能力。 OpenAI 研究表明,从 2012 年到 2018 年的六年间,在最大规模的人工智能模型训练中所使用的计算量呈指数级增长,其中有 3.5 个月内翻了一番,相比摩尔定律每 18 个月翻一番的速度快很多。下一代AI大模型的参数量级将堪比人类大脑的突触水平,可能不仅可以处理语言模型,将更是一个多模态AI模型,可以处理多任务,比如语言、视觉和声音。弱人工智能仍属于计算机“工具”范畴,强人工智能能自适应地完成任务深度学习平台体系架构同时大模型的训练离不开深度学习平台架构。深度学习 (DL, Deep Learning)是机器学习 (ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能 (AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。大模型的训练离不开深度学习平台架构。一、深度学习平台三要素体系针对行业应用的多样化需求,以开源开发框架为核心的深度学习平台构建了从模型开发到部署的服务体系,包括三个核心层次:开发框架、算法模型、开发工具和能力平台。在人工智能大规模产业化生产时代,深度学习技术的通用性越来越强,深度学习平台的标准化、自动化和模块化特征越来越突出,成为人工智能技术大规模、低成本融合赋能的基础。平台以成熟算法技术直接调用、个性化场景定制化开发的形式为行业提供多种创新应用,最终形成资源丰富、多方参与、协同演进的人工智能使能生态。在深度学习平台的发展演进过程中,逐渐形成了“框架-算法-工具”三个核心层次。深度学习平台层次架构底层是开源开发框架。作为深度学习平台的核心枢纽,开源开发框架连接GPU、ASIC等智能计算芯片,支持计算机视觉、自然语言处理、语音等各类应用。部署全流程能力,让高效开发迭代各种算法,部署大规模应用成为可能。一是通过提供编程接口API、编码语言等方式,为开发者构建编程模型和开发能力;二是依托并行训练、动静转化、内存优化等功能,实现模型编译和训练优化;三是提供硬件接入能力,通过简化底层硬件的技术细节,建立模型与算力的连接通道,解决模型适配部署难的问题。中间层代表算法模型,深度学习平台赋予开发者行业级的建模能力。采用预训练方式,减少数据采集、标注时间和人力成本,缩短模型训练过程,实现模型快速部署,加速AI技术技能开发。根据技术路线和应用价值,可以分为三类算法模型:一类是业界已经实践过的基础算法,如VGGNet、ResNet等主流SOTA模型;二是提供自然算法语言处理、计算机视觉、多模态等领域小样本细分场景的预训练模型,快速实现算法技能迁移;三是针对特定行业场景(如工业质检、安检等)的应用模型,根据用户真实的行业落地需求推荐合适的应用。结合落地机型和硬件,并提供相关实例。上层是套件工具和能力平台,支持各层级模型的开发和部署,满足开发者各个阶段的需求。主要功能体现在以下几个方面: 一是降低技术应用门槛,通过提供集成化、标准化的基础训练技术工具组件,支持可视化分析、预训练模型应用,降低训练和模型开发的门槛、云作业交付和其他功能;提供前沿技术研发工具,支撑联邦学习、自动机器学习、生物计算、图形神经网络等技术能力,为模型创新提供支持;三是提供图像分类、目标检测、图像分割等具体信息,满足行业实际需求面向业务场景的端到端开发包,涵盖数据增强、模块化设计、分布式训练、模型调参等流程,以及交叉部署平台,实现AI能力的快速应用;四是提供全生命周期管理,构建一体化深度学习模型开发平台,提供从数据处理、模型训练、模型管理到模型推理的全周期服务,加速人工智能技术开发和应用落地全过程,实现管控与协同。二、深度学习平台核心作用一是驱动核心技术迭代改进。随着深度学习技术的逐渐成熟和普及,标准化、模块化的流程工具成为开发者的共同诉求,深度学习平台应运而生。该平台通过提供包含卷积、池化、全连接、二分类、多分类、反向传播等的算法库,避免了“重复造轮子”带来的资源浪费。在更高层次上实现创新突破,实现“站在巨人的肩膀上”创新,加快人工智能技术迭代提升。二是推动产业链上下游协同创新。操作系统作为连接PC和移动互联网时代底层硬件架构、顶层软件系统和用户交互界面的控制中心,是微软、诺基亚、苹果、谷歌等公司驱动产业生态的核心工具统治地位。在人工智能时代,深度学习平台还起到连接顶层(顶层应用)和底层(下层芯片)的作用,类比为“人工智能时代的操作系统”。深度学习平台的出现,使得各种算法能够基于现有硬件系统高效开发迭代并部署大规模应用,为深度学习的不断发展奠定了基础。三是缩短千行百业智能化升级路径。当前,人工智能工程应用迎来了快速发展的窗口期,如何缩短人工智能算法从建模到实际生产的周期,提高应用效率成为各行业关注的核心问题。深度学习平台提供从制造到工具、技术、机制等涵盖人工智能能力产生、应用、管理全过程的实用工程解决方案,解决人工智能面临的专业人才短缺、数据成本高、建模等问题。智能升级中的企业发展难、资源效率低等问题,满足了企业AI能力建设的迫切需求,为智能升级奠定了基础。四是承载产业生态繁荣动能。深度学习是一个典型的共创技术领域。只有构建健康完善的产业生态,才能实现繁荣和可持续发展。以深度学习平台为驱动,搭建连接产学界的沟通桥梁,通过开发者社区、赛事峰会、培训课程等方式,汇聚人才、技术、市场等行业生态资源要素。在输出技术能力、赋能产业提升的同时,不断发展运用人工智能技术的惯性思维方式,攻克各行业痛点难点,进一步带动下游需求,形成产业生态良性循环。深度学习平台的技术创新重点一、开源开发框架,深度学习平台的基础核心开源开发框架作为深度学习平台的基础核心,结合编程范式、大规模分布式等关键技术,打造易用、高效、可扩展的框架引擎,解决了工业应用中的广泛问题。培训、软件适配和硬件 ,专注于提高人工智能产品以及软硬件解决方案的开发效率和易用性。1、动静统一的编程范式大幅提升算法开发效率 动静统一的编程范式大幅提升算法开发效率。框架编程范式是开发人员用于编写 程序时把复杂问题抽象成程序代码的不同方式,主要分为命令式编程(动态图)和声明式编程(静态图)两种编程范式,其中动态图编程具备开发便捷性的特点,开发者可在调整局部代码时,即时获得执行结果,易于调试、减少时间成本,但由于缺乏全局的计算图Pass、显存等优化,如算子间融合、显存inplace等,在性能、显存等使用方面有所不足。而静态图则将用户可事先定义的全部程序代码进行全局编译优化, 在功耗、性能等方面优势显著。目前,谷歌TensorFlow、飞桨等业内主流框架纷纷布局动静统一的编程范式,同时兼容支持动态图、静态图两种编程范式,即在支持动态图高效开发训练的同时,也支持开发后一行代码转静态图训练加速和部署,大幅提升开发者算法研发准确率和生产部署效果。2、大规模分布式训练技术有效提升巨型模型研发的承载能力大规模分布式训练技术有效提升了超大规模模型开发的承载能力。目前算法模型规模呈指数级增长,以ERNIE3.0大模型为例,模型参数2600亿,需要存储空间3TB,计算量6.2E11 Tera FLOPs。单台服务器,以Nvidia V100为例,单卡32GB内存,125Tera FLOPS的计算能力,难以满足千亿级参数模型的训练需求,数据压力大/读写模型、存储、训练等。大规模分布式训练架构布局,将千卡算力(相当于一个国家超算中心的算力)的传递和计算纳入主流企业通用实践框架,结合平台特性和端到端特征的算力模型自适应分布式训练技术成为重要的创新方向。例如,结合算力平台的灵活资源调度管理技术、自动选择最优并行策略技术、高效计算与通信技术等。3、统一的高速推理引擎满足端边云多场景大规模部署应用面对多样化的部署环境,具备云端推理能力,成为开源开发框架成为业界普惠工具的重要标志。物联网智能时代,开发框架必须具备端、边、云全面支持的推理机架构,以及与训练框架集成的内部表达式和算子库,实现即时训练和最完备的模型支持。推理实现能力应跨越服务器、移动和 Web 前端,模型压缩工具可以帮助开发人员实现更小、更高性能的模型。在部署过程中,开发框架还应该提供全流程推理和场景部署工具链,以实现在硬件受限环境下的快速部署。工具或技术的蒸馏,进一步优化和支持推理引擎在服务器、移动终端/边缘终端、网页等各种硬件场景下的实现。从生态上看,Paddle还支持采用Paddle平台上的其他框架模型,也支持将Paddle模型转换为ONNX格式进行部署,为开发者提供多样化、个性化的选择。4、标准化的软硬件协同适配技术是打造国产化应用赋能的关键业内领先的框架平台企业试图提供可满足多硬件接入的统一适配方案,包括统一硬件接口、算子开发映射、图引擎接入、神经网络编译器这几方面。 一是构建统一硬件接入接口,完成不同硬件抽象层接口的标准化访问管理。如飞 桨框架支持插件式硬件接入功能,实现框架和硬件的解耦,开发者只需实现标准接 口,即可在框架中注册新的硬件后端。 二是提供算子开发映射方式,通过芯片提供的编程语言编写算子Kernel或算子映 射方式接入硬件。具体可通过算子复用技术,减少算子数量;通过提供硬件Primitive开发接口,实现算子在不同硬件上复用;对于现有算子无法满足运算逻辑和性能 需求的问题,开发者可以自定义算子,无需重新编译安装飞桨框架。 三是提供图引擎接入方式,通过框架计算图和硬件图引擎之间的适配,实现硬件接入。为了更高效适配深度学习框架,硬件厂商通常会提供图引擎,如英伟达的 TensorRT、Intel的OpenVINO等,框架仅需实现模型中间表示向厂商模型中间表示 的转换即可适配。 四是打造神经网络编译器,实现自动优化的编译技术,利用基础算子自动融合优化实现复杂算子功能,降低适配成本的同时,优化性能。如百度神经网络编译器CINN具有方便接入硬件,提升计算速度的特点。对比业内的TVM ,CINN额外支持了训练功能;对比谷歌的XLA,CINN提供自动调优技术,可更好实现软硬协同,发挥硬件性能。二、模型库建设,算法创新、沉淀与集成管理是快速赋能关键能力模型库是深度学习平台推动AI普惠化,实现快速产业赋能的关键能力。为解决人工智能算法工程化落地过程中面临的研发门槛高、周期长等问题,深度学习平台将模型库作为平台的核心能力进行建设,开发者依托模型库,无需从头编写代码即可实现算法能力,实现应用模型的不断复用,从而促进人工智能应用多样化和规模化发展。 当前,深度学习平台均基于自身开发框架构建算法模型库,提供快速搭建人工智能应用能力,如Meta推出 ,提供算法模型库以及简易API和工作流程;蓝海大脑构建产业级模型库并提供面向场景应用的模型开发套件,实现模型直接调用及二次开发的能力,提升算法研发应用效率。 深度学习平台在前沿技术领域持续创新,沉淀先进算法能力,推动SOTA模型应用落地。一方面,深度学习平台已成为先进算法模型的重要承载体,全球来看,AI领域创新算法的提出六成以上使用国际主流开发开源框架进行验证;另一方面,学术界、产业界对先进算法的使用需求反推深度学习平台加强对SOTA模型库的能力建设,促进原创算法持续产生。当前,国际主流深度学习平台模型库不断加强对前沿算法模型的积累,将算法能力沉淀至深度学习平台模型库,为开发者提供前沿技术能力支撑。模型库通过应用场景实践加速完善,产业赋能能力不断强化。为满足产业多样化场景需求,切实推动AI算法应用落地,模型库主要通过两个方面提升平台产业赋能能力。一是通过细化应用场景,丰富算法覆盖方向,拓展模型库能力边界。模型库基于计算机视觉、自然语言处理等基础算法,依据实际产业需求对能力应用场景进行细化,面向图像分割、车辆检测、个性化推荐等细分任务提供经过产业实践的模型。此外,通过引入预训练模型,为开发者提供灵活、可拓展的算法能力,可实现在小样本任务中的快速应用,如蓝海大脑目前支持产业级开源算法模型超500个,已在金融、能源、交通等各行各业广泛应用。二是从实际产业应用场景出发,聚焦AI工程化落地问题,通过提供轻量级、低能耗的产业级部署模型,解决实际应用场景中模型的精度与性能平衡问题。三、工具及平台完善,覆盖数据处理、模型训练和推理部署全周期深度学习平台围绕前沿技术开发部署新范式、数据模型全流程可视化分析管理、 企业级高精度应用构建以及全平台部署来布局相关工具组件及平台。 一是打造面向新型学习范式的系统化工具,深度学习平台面对强化学习、联邦学习、图学习、量子计算、生物计算等前沿学习范式,提供所需编译运行机制和解决方案,实现广泛的模型应用场景。二是开发覆盖数据管理、模型开发和推理部署的全流程研发工具集,实际应用落地作为深度学习平台的出发点和落脚点,平台通过提供开发套件和工具组件,端到端 打通数据准备、模型训练与优化、多端部署能力,助力产业实践工程化高效部署。三是提供企业级高精度应用构建和全平台部署能力,企业开发服务平台作为深度学习平台的重要出口,整合底层核心开源框架以及上层数据处理、模型开发构建、模型训练管理及端侧部署能力,辅助企业实现一站式模型定制能力。如蓝海大脑深度学习平台面向不同开发能力的企业打造零门槛深度学习平台,可结合网络结构搜索和迁移学习等技术完成语言理解、语言生成、图像分类、物体检测、图文生成等任务,支持企业实现在公有云、本地服务器、移动设备的多侧灵活安全部署。四、专业领域延伸,围绕科学发现与量子智能持续探索领先的深度学习平台和框架企业正围绕生物医药、量子智能等更具前瞻性的垂直专业领域加速布局,降低前沿科研开发门槛,提升应用开发效率。当前,前沿学术研究进入多学科融合和技术工具完善发展的新阶段,人工智能技术成为推动前沿科学发展的重要路线之一,取得了诸多突破和突破。在创新的同时,也对深度学习平台的工具能力提出了新的挑战。龙头企业重点关注以下方向,提升平台在专业领域的研发能力。一是聚焦量子智能,应用量子计算,挖掘人工智能算法的应用潜力。量子计算具有传统计算无法比拟的信息承载能力和并行计算处理能力,有望解决人工智能模型参数数量增加带来的计算瓶颈问题。龙头企业提供基于深度学习平台的量子计算工具包,推动量子技术与人工智能机器学习模型的融合,支持量子电路模拟器、训练判别和生成量子模型;电路仿真等模块为开发者提供了人工智能、组合优化、量子化学等领域量子应用的研发工具,提高运营效率,降低量子应用研发门槛。二是聚焦蛋白质结构预测、化合物性质预测等生物医学领域重点方向,构建一套生物计算和模型开发工具。人工智能与生物医学技术相结合,可以大大提高任务的准确性和效率,成为产业布局的重要方向。总结与展望随着深度学习技术的发展,大模型已经成为深度学习的未来。大模型是一种深度学习模型,它可以处理大量的数据,从而获得准确的预测结果。首先,大模型可以有效地处理大量数据。传统的机器学习模型只能处理少量的数据,而大模型可以处理大量的数据,从而获得更准确的预测结果。此外,大模型可以有效地处理非结构化的数据,例如图像和视频。其次,大模型可以提高模型的准确性。大模型可以捕捉数据之间的复杂关系,从而提高模型的准确性。此外,大模型可以更快地训练,从而更快地获得准确的预测结果。最后,大模型可以更好地支持深度学习。深度学习需要大量的数据,大模型可以支持深度学习,从而更好地发挥深度学习的优势。总之,大模型是深度学习的未来。它可以有效地处理大量的数据,提高模型的准确性,更快地训练,更好地支持深度学习,从而提高深度学习的效率。
JSP还能撑多久? -- 关于WEB开发的一些思考
前端与后端的羁绊前言前后端分离已成为互联网项目开发的业界标准使用方式,通过 nginx+tomcat 的方式(也可以中间加一个 nodejs)有效的进行解耦,并且前后端分离会为以后的大型分布式架构、弹性计算架构、微服务架构、多端化服务(多种客户端,例如:浏览器,车载终端,安卓,IOS 等等)打下坚实的基础。这个步骤是系统架构从猿进化成人的必经之路。核心思想是前端 html 页面通过 ajax 调用后端的 restuful api 接口并使用 json 数据进行交互。名词解释:在互联网架构中,web 服务器:一般指像 nginx,apache 这类的服务器,他们一般只能解析静态资源。应用服务器:一般指像 tomcat,jetty,resin 这类的服务器可以解析动态资源也可以解析静态资源,但解析静态资源的能力没有 web 服务器好。一般都是只有 web 服务器才能被外网访问,应用服务器只能内网访问。开发模式以前老的方式是:1.产品经历/领导/客户提出需求2.UI 做出设计图 3.前端工程师做 html 页面 4.后端工程师将 html 页面套成 jsp 页面(前后端强依赖,后端必须要等前端的 html 做好才能套 jsp。如果 html 发生变更,就更痛了,开发效率低) 5.集成出现问题 6.前端返工 7.后端返工 8.二次集成 9.集成成功 10.交付新的方式是:1.产品经历/领导/客户提出需求2.UI 做出设计图 3.前后端约定接口&数据&参数 4.前后端并行开发(无强依赖,可前后端并行开发,如果需求变更,只要接口&参数不变,就不用两边都修改代码,开发效率高) 5.前后端集成 6.前端页面调整 7.集成成功 8.交付请求方式以前老的方式是:1.客户端请求 2.服务端的 servlet 或 controller 接收请求(后端控制路由与渲染页面,整个项目开发的权重大部分在后端) 3.调用 service,dao 代码完成业务逻辑 4.返回 jsp5.jsp 展现一些动态的代码新的方式是:1.浏览器发送请求 2.直接到达 html 页面(前端控制路由与渲染页面,整个项目开发的权重前移)3.html 页面负责调用服务端接口产生数据(通过 ajax 等等,后台返回 json 格式数据,json 数据格式因为简洁高效而取代 xml) 4.填充 html,展现动态效果,在页面上进行解析并操作 DOM。(有兴趣的童鞋可以访问一下阿里巴巴等大型网站,然后按一下 F12,监控一下你刷新一次页面,他的 http 是怎么玩的,大多数都是单独请求后台数据,使用 json 传输数据,而不是一个大而全的 http 请求把整个页面包括动+静全部返回过来)总结一下新的方式的请求步骤:大量并发浏览器请求—>web 服务器集群(nginx)—>应用服务器集群(tomcat)—>文件/数据库/缓存/消息队列服务器集群同时又可以玩分模块,还可以按业务拆成一个个的小集群,为后面的架构升级做准备。前后分离的优势1.可以实现真正的前后端解耦,前端服务器使用 nginx。前端/WEB 服务器放的是 css,js,图片等等一系列静态资源(甚至你还可以 css,js,图片等资源放到特定的文件服务器,例如阿里云的 oss,并使用 cdn 加速),前端服务器负责控制页面引用&跳转&路由,前端页面异步调用后端的接口,后端/应用服务器使用 tomcat(把 tomcat 想象成一个数据提供者),加快整体响应速度。(这里需要使用一些前端工程化的框架比如 nodejs,react,router,react,redux,webpack) 2.发现 bug,可以快速定位是谁的问题,不会出现互相踢皮球的现象。页面逻辑,跳转错误,浏览器兼容性问题,脚本错误,页面样式等问题,全部由前端工程师来负责。接口数据出错,数据没有提交成功,应答超时等问题,全部由后端工程师来解决。双方互不干扰,前端与后端是相亲相爱的一家人。 3.在大并发情况下,我可以同时水平扩展前后端服务器,比如淘宝的一个首页就需要 2000+台前端服务器做集群来抗住日均多少亿+的日均 pv。(去参加阿里的技术峰会,听他们说他们的 web 容器都是自己写的,就算他单实例抗 10 万 http 并发,2000 台是 2 亿 http 并发,并且他们还可以根据预知洪峰来无限拓展,很恐怖,就一个首页。。。) 4.减少后端服务器的并发/负载压力除了接口以外的其他所有 http 请求全部转移到前端 nginx 上,接口的请求调用 tomcat,参考 nginx 反向代理 tomcat。且除了第一次页面请求外,浏览器会大量调用本地缓存。 5.即使后端服务暂时超时或者宕机了,前端页面也会正常访问,只不过数据刷不出来而已。 6.也许你也需要有微信相关的轻应用,那样你的接口完全可以共用,如果也有 app 相关的服务,那么只要通过一些代码重构,也可以大量复用接口,提升效率。(多端应用) 7.页面显示的东西再多也不怕,因为是异步加载。8.nginx 支持页面热部署,不用重启服务器,前端升级更无缝。 9.增加代码的维护性&易读性(前后端耦在一起的代码读起来相当费劲)。 10.提升开发效率,因为可以前后端并行开发,而不是像以前的强依赖。 11.在 nginx 中部署证书,外网使用 https 访问,并且只开放 443 和 80 端口,其他端口一律关闭(防止黑客端口扫描),内网使用 http,性能和安全都有保障。 12.前端大量的组件代码得以复用,组件化,提升开发效率,抽出来!注意事项1.在开需求会议的时候,前后端工程师必须全部参加,并且需要制定好接口文档,后端工程师要写好测试用例(2 个维度),不要让前端工程师充当你的专职测试,推荐使用 chrome 的插件 postman 或 soapui 或 jmeter,service 层的测试用例拿 junit 写。ps:前端也可以玩单元测试吗? 2.上述的接口并不是 java 里的 interface,说白了调用接口就是调用你 controler 里的方法。 3.加重了前端团队的工作量,减轻了后端团队的工作量,提高了性能和可扩展性。 4.我们需要一些前端的框架来解决类似于页面嵌套,分页,页面跳转控制等功能。(上面提到的那些前端框架)。 5.如果你的项目很小,或者是一个单纯的内网项目,那你大可放心,不用任何架构而言,但是如果你的项目是外网项目,呵呵哒。 6.以前还有人在使用类似于 velocity/freemarker 等模板框架来生成静态页面,仁者见仁智者见智。 7.这篇文章主要的目的是说 jsp 在大型外网 java web 项目中被淘汰掉,可没说 jsp 可以完全不学,对于一些学生朋友来说,jsp/servlet 等相关的 java web 基础还是要掌握牢的,不然你以为 springmvc 这种框架是基于什么来写的? 8.如果页面上有一些权限等等相关的校验,那么这些相关的数据也可以通过 ajax 从接口里拿。 9.对于既可以前端做也可以后端做的逻辑,我建议是放到前端,为什么?因为你的逻辑需要计算资源进行计算,如果放到后端去 run 逻辑,则会消耗带宽&内存&cpu 等等计算资源,你要记住一点就是服务端的计算资源是有限的,而如果放到前端,使用的是客户端的计算资源,这样你的服务端负载就会下降(高并发场景)。类似于数据校验这种,前后端都需要做! 10.前端需要有机制应对后端请求超时以及后端服务宕机的情况,友好的展示给用户。扩展阅读 1.其实对于 js,css,图片这类的静态资源可以考虑放到类似于阿里云的 oss 这类文件服务器上(如果是普通的服务器&操作系统,存储在到达 pb 级的文件后,或者单个文件夹内的文件数量达到 3-5 万,io 会有很严重的性能问题),再在 oss 上配 cdn(全国子节点加速),这样你页面打开的速度像飞一样, 无论你在全国的哪个地方,并且你的 nginx 的负载会进一步降低。 2.如果你要玩轻量级微服务架构,要使用 nodejs 做网关,用 nodejs 的好处还有利于 seo 优化,因为 nginx 只是向浏览器返回页面静态资源,而国内的搜索引擎爬虫只会抓取静态数据,不会解析页面中的 js,这使得应用得不到良好的搜索引擎支持。同时因为 nginx 不会进行页面的组装渲染,需要把静态页面返回到浏览器,然后完成渲染工作,这加重了浏览器的渲染负担。浏览器发起的请求经过 nginx 进行分发,URL 请求统一分发到 nodejs,在 nodejs 中进行页面组装渲染;API 请求则直接发送到后端服务器,完成响应。 3.如果遇到跨域问题,spring4 的 CORS 可以完美解决,但一般使用 nginx 反向代理都不会有跨域问题,除非你把前端服务和后端服务分成两个域名。JSONP 的方式也被淘汰掉了。 4.如果想玩多端应用,注意要去掉 tomcat 原生的 session 机制,要使用 token 机制,使用缓存(因为是分布式系统),做单点,对于 token 机制的安全性问题,可以搜一下 jwt。 5.前端项目中可以加入 mock 测试(构造虚拟测试对象来模拟后端,可以独立开发和测试),后端需要有详细的测试用例,保证服务的可用性与稳定性。总结前后端分离并非仅仅只是一种开发模式,而是一种架构模式(前后端分离架构)。千万不要以为只有在撸代码的时候把前端和后端分开就是前后端分离了。需要区分前后端项目前端项目与后端项目是两个项目,放在两个不同的服务器,需要独立部署,两个不同的工程,两个不同的代码库,不同的开发人员。前后端工程师需要约定交互接口,实现并行开发,开发结束后需要进行独立部署,前端通过 ajax 来调用 http 请求调用后端的 restful api。前端只需要关注页面的样式与动态数据的解析&渲染,而后端专注于具体业务逻辑开发人员分离以前的 JavaWeb 项目大多数都是 java 程序员又当爹又当妈,又搞前端(ajax/jquery/js/html/css 等等),又搞后端(java/mysql/oracle 等等)。随着时代的发展,渐渐的许多大中小公司开始把前后端的界限分的越来越明确,前端工程师只管前端的事情,后端工程师只管后端的事情。正所谓术业有专攻,一个人如果什么都会,那么他毕竟什么都不精。大中型公司需要专业人才,小公司需要全才,但是对于个人职业发展来说,我建议是分开。对于后端 java 工程师:把精力放在 java 基础,设计模式,jvm 原理,spring+springmvc 原理及源码,linux,mysql 事务隔离与锁机制,mongodb,http/tcp,多线程,分布式架构(dubbo,dubbox,spring cloud),弹性计算架构,微服务架构(springboot+zookeeper+docker+jenkins),java 性能优化,以及相关的项目管理等等。后端追求的是:三高(高并发,高可用,高性能),安全,存储,业务等等。对于前端工程师:把精力放在 html5,css3,jquery,angularjs,bootstrap,reactjs,vuejs,webpack,less/sass,gulp,nodejs,Google V8 引擎,javascript 多线程,模块化,面向切面编程,设计模式,浏览器兼容性,性能优化等等。前端追求的是:页面表现,速度流畅,兼容性,用户体验等等。术业有专攻,这样你的核心竞争力才会越来越高,正所谓你往生活中投入什么,生活就会反馈给你什么。并且两端的发展都越来越高深,你想什么都会,那你毕竟什么都不精。通过将 team 分成前后端 team,让两边的工程师更加专注各自的领域,独立治理,然后构建出一个全栈式的精益求精的 team。各种耦合几曾何时,我们的 JavaWeb 项目都是使用了若干后台框架,springmvc/struts + spring + spring jdbc/hibernate/mybatis 等等。大多数项目在 java 后端都是分了三层,控制层(controller/action),业务层(service/manage),持久层(dao)。控制层负责接收参数,调用相关业务层,封装数据,以及路由&渲染到 jsp 页面。然后 jsp 页面上使用各种标签(jstl/el/struts 标签等)或者手写 java 表达式(<%=%>)将后台的数据展现出来,玩的是 MVC 那套思路。我们先看这种情况:需求定完了,代码写完了,测试测完了,然后呢?要发布了吧?你需要用 maven 或者 eclipse 等工具把你的代码打成一个 war 包,然后把这个 war 包发布到你的生产环境下的 web 容器(tomcat/jboss/weblogic/websphere/jetty/resin)里,对吧?发布完了之后,你要启动你的 web 容器,开始提供服务,这时候你通过配置域名,dns 等等相关,你的网站就可以访问了(假设你是个网站)。那我们来看,你的前后端代码是不是全都在那个 war 包里?包括你的 js,css,图片,各种第三方的库,对吧?好,下面在浏览器中输入你的网站域名(www.xxx.com),之后发生了什么?(这个问题也是很多公司的面试题)我捡干的说了啊,基础不好的童鞋请自己去搜。浏览器在通过域名通过 dns 服务器找到你的服务器外网 ip,将 http 请求发送到你的服务器,在 tcp3 次握手之后(http 下面是 tcp/ip),通过 tcp 协议开始传输数据,你的服务器得到请求后,开始提供服务,接收参数,之后返回你的应答给浏览器,浏览器再通过 content-type 来解析你返回的内容,呈现给用户。那么我们来看,我们先假设你的首页中有 100 张图片,此时,用户的看似一次 http 请求,其实并不是一次,用户在第一次访问的时候,浏览器中不会有缓存,你的 100 张图片,浏览器要连着请求 100 次 http 请求(有人会跟我说 http 长连短连的问题,不在这里讨论),你的服务器接收这些请求,都需要耗费内存去创建 socket 来玩 tcp 传输(消耗你服务器上的计算资源)。重点来了,这样的话,你的服务器的压力会非常大,因为页面中的所有请求都是只请求到你这台服务器上,如果 1 个人还好,如果 10000 个人并发访问呢(先不聊服务器集群,这里就说是单实例服务器),那你的服务器能扛住多少个 tcp 连接?你的带宽有多大?你的服务器的内存有多大?你的硬盘是高性能的吗?你能抗住多少 IO?你给 web 服务器分的内存有多大?会不会宕机?这就是为什么,越是大中型的 web 应用,他们越是要解耦。理论上你可以把你的数据库+应用服务+消息队列+缓存+用户上传的文件+日志+等等都扔在一台服务器上,你也不用玩什么服务治理,也不用做什么性能监控,什么报警机制等等,就乱成一锅粥好了。但是这样就好像是你把鸡蛋都放在一个篮子里,隐患非常大。如果因为一个子应用的内存不稳定导致整个服务器内存溢出而 hung 住,那你的整个网站就挂掉了。如果出意外挂掉,而恰好这时你们的业务又处于井喷式发展高峰期,那么恭喜你,业务成功被技术卡住,很可能会流失大量用户,后果不堪设想。注意:技术一定是要走在业务前面的,否则你将错过最佳的发展期哟,亲~此外,你的应用全部都耦合在一起,相当于一个巨石,当服务端负载能力不足时,一般会使用负载均衡的方式,将服务器做成集群,这样其实你是在水平扩展一块块巨石,性能加速度会越来越低,要知道,本身负载就低的功能 or 模块是没有必要水平扩展的,在本文中的例子就是你的性能瓶颈不在前端,那干嘛要水平扩展前端呢???还有发版部署上线的时候,我明明只改了后端的代码,为什么要前端也跟着发布呢???(引用:《架构探险-轻量级微服务架构》,黄勇)正常的互联网架构,是都要拆开的,你的 web 服务器集群,你的应用服务器集群+文件服务器集群+数据库服务器集群+消息队列集群+缓存集群等等。来说说 jspJSP 的痛点以前的 javaWeb 项目大多数使用 jsp 作为页面层展示数据给用户,因为流量不高,因此也没有那么苛刻的性能要求,但现在是大数据时代,对于互联网项目的性能要求是越来越高,因此原始的前后端耦合在一起的架构模式已经逐渐不能满足我们,因此我们需要需找一种解耦的方式,来大幅度提升我们的负载能力。1.动态资源和静态资源全部耦合在一起,服务器压力大,因为服务器会收到各种 http 请求,例如 css 的 http 请求,js 的,图片的等等。一旦服务器出现状况,前后台一起玩完,用户体验极差。2.UI 出好设计图后,前端工程师只负责将设计图切成 html,需要由 java 工程师来将 html 套成 jsp 页面,出错率较高(因为页面中经常会出现大量的 js 代码),修改问题时需要双方协同开发,效率低下。3.jsp 必须要在支持 java 的 web 服务器里运行(例如 tomcat,jetty,resin 等),无法使用 nginx 等(nginx 据说单实例 http 并发高达 5w,这个优势要用上),性能提不上来。4.第一次请求 jsp,必须要在 web 服务器中编译成 servlet,第一次运行会较慢。5.每次请求 jsp 都是访问 servlet 再用输出流输出的 html 页面,效率没有直接使用 html 高(是每次哟,亲~)。6.jsp 内有较多标签和表达式,前端工程师在修改页面时会捉襟见肘,遇到很多痛点。7.如果 jsp 中的内容很多,页面响应会很慢,因为是同步加载。8.需要前端工程师使用 java 的 ide(例如 eclipse),以及需要配置各种后端的开发环境,你们有考虑过前端工程师的感受吗。基于上述的一些痛点,我们应该把整个项目的开发权重往前移,实现前后端真正的解耦!其次1、无法做到动静分离传统 java 程序通过 war 包形式部署到 tomcat,除了 java 代码和 jsp 页面,还包括 css、js、图片等静态资源,一旦其中的某个 jsp 页面出问题,会导致部分功能不可用,甚至服务器响应阻塞,无法对外提供服务。2、分工协调性差jsp 本质上是一个 java 类,所以早期 java 开发人员是前后端开发任务全负责,而 UI 设计师把设计好的 html 页面给开发人员集成,这个需要双方共同协调完成,效率低下,很难完成需求快速更新迭代,持续交付。3、并发、吞吐量差由于 jsp 本质是 java 类,只能放在 web 服务器(如 tomcat),所以 jsp 不能部署到并发性能更好的 nginx 或者 apache 下,这是很多人诟病 java web 性能不好的原因之一。4、扩展性差jstl 内置的一些 tag 标签耦合 java 代码(类似于 react 中的 component 组件),很难做到只修改页面而不用修改 java 代码,扩展性很差。5、页面加载慢(同步机制)如果一个页面承载的内容很多(如表单、表格、详情),会导致页面加载很慢。究其原因是 jsp 内在特性决定的。首先,jsp 页面会初始化为 servlet 的 class 文件其次,在 servlet 代码中解析 jsp tag 标签,转换成 html 网页标签最后,以流的方式输出 html 网页这里有个要命的问题,从 jsp 转换成 html 到浏览器渲染是一个同步过程。也就是说,如果数据加载很慢,会导致整个页面出不来。前端较全技术汇总IDE 集VSCode:https://code.visualstudio.com/SublimeText:https://www.sublimetext.com/WebStorm:https://www.jetbrains.com/webstorm/Atom:https://atom.io/Hbuilderx/Hbuilder:https://www.dcloud.io/hbuilderx.html微信开发者工具(小程序开发)QQ 开发者工具(小程序开发)支付宝开发者工具(小程序开发)hbuilderx(小程序开发、网页开发、移动端开发)构建集NPM:https://www.npmjs.com/简单易操作的包管理器,前端开发必备。Yarn:https://yarnpkg.com/zh-Hans/和 npm 差不多也是简单易操作的包管理器,两者选择其中一个。Webpack:https://webpack.js.org/强大的包转换器和打包Gulp:https://www.gulpjs.com.cn/Babel:https://babeljs.io/代码转换器ESLint:https://cn.eslint.org/可组装的 JavaScript 和 JSX 检查工具。PostCSS:https://www.postcss.com.cn/用 JavaScript 工具和插件转换 CSS 代码的工具框架集Vue.js:https://cn.vuejs.org/Nuxtjs:https://zh.nuxtjs.orgNuxt.js 是一个基于 Vue.js 的通用应用框架。通过对客户端/服务端基础架构的抽象组织,Nuxt.js 主要关注的是应用的 UI 渲染,简称服务端渲染。React:https://reactjs.org/Angular:https://angular.cn/AngularJS:https://angularjs.org/Nodejs:https://nodejs.org/zh-cn/基于 JS 开发的一个性能超过 PHP 的的服务器,这是作为一个前端走向全栈工程师必学的东西。Express:http://www.expressjs.com.cn/基于 Node.js 平台,快速、开放、极简的 Web 开发框架。Koa:https://koa.bootcss.com/基于 Node.js 平台的下一代 Web 开发框架。Egg:https://eggjs.org/zh-cn/Egg 继承于 Koa。Koa 是一个非常优秀的框架,然而对于企业级应用来说,它还比较基础。而 Egg 选择了 Koa 作为其基础框架,在它的模型基础上,进一步对它进行了一些增强。Electron:https://www.electronjs.cn/Electron(原名为 Atom Shell)是 GitHub 开发的一个开源 js 框架。它允许使用 Node.js(作为后端)和 Chromium(作为前端)完成桌面 GUI 应用程序的开发。Nw:https://nwjs.org.cn/Nwjs 和 Electronjs 都是同一个作者不同地方开发的前者主要由微软维护,而后者由 GitHub 团队维护,但是目前越来越多的人都在使用 Electron。例如 VS Code 这个客户端软件就是用 Electron 语言写的,而微信开发者工具就是用 Nw 配合 react 配合开发的。Redux:https://www.redux.org.cn/Redux 是 JavaScript 状态容器,提供可预测化的状态管理。ReactNative:https://reactnative.cn/使用 JavaScript 编写原生移动应用。WebGL:http://www.hewebgl.com/主要用于网络游戏开发,是国内较为牛逼的同学开发的。tensorflow:https://tensorflow.google.cn/TensorFlow 是一个端到端开源机器学习平台。它拥有一个全面而灵活的生态系统,其中包含各种工具、库和社区资源,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。多端开发的框架uniapp:https://uniapp.dcloud.io/uni-app 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一套代码,可发布到 iOS、Android、H5、以及各种小程序(微信/支付宝/百度/头条/QQ/钉钉/淘宝)、快应用等多个平台。Taro:https://taro.aotu.io/Taro 是一套遵循 React 语法规范的 多端开发 解决方案。使用 Taro,我们可以只书写一套代码,再通过 Taro 的编译工具,将源代码分别编译出可以在不同端(微信 / 京东 / 百度 / 支付宝 / 字节跳动 小程序、快应用、H5、React-Native 等)运行的代码。mpvue:http://mpvue.com/基于 Vue.js 的小程序开发框架。kbone: https://developers.weixin.qq.com/miniprogram/dev/extended/kbone/Kbone 是一个致力于微信小程序和 Web 端同构的解决方案。一些类库集jQuery:http://jquery.com/Zepto.js:https://zeptojs.com/可以理解成是移动端的 jQuery。ECharts:https://echarts.baidu.com/使用 JavaScript 实现的开源可视化库。tween.js:http://www.createjs.cc/tweenjs/用来调整和动画 HTML5 和 Javascript 属性,提供了简单并且强大的 tweening 接口。EaselJS :http://www.createjs.cc/easeljs/使 HTML5 Canvas 标签变得更简单。用于创建游戏,生成艺术作品,和处理其他高级图形化等有着很友好的体验。SoundJS:http://www.createjs.cc/soundjs/提供了简单而强大的 API 来处理音频。通过插件来执行实际的音频实现,简单直接的处理声音。PreloadJS:http://www.createjs.cc/preloadjs/用来管理和协调相关资源加载的类库,它可以方便的帮助你预先加载相关资源。openlayers:https://openlayers.org/一个高性能的、功能丰富的库,满足您的所有映射需求。使得在任何网页中放置动态地图变得很容易。它可以显示从任何源加载的地图块、矢量数据和标记。开发 OpenLayers 是为了进一步利用各种地理信息。它是完全免费的,开源 JavaScript,在 2 子句 BSD 许可下发布(也称为 FreeBSD)。数据库MongoDB:https://www.mongodb.com/MongoDB 是一个文档数据库,这意味着它将数据存储在类似于 JSON 的文档中。我们认为这是思考数据的最自然的方式,并且比传统的行/列模型更有表现力和更强大的功能。Mongoose:https://mongoosejs.com/Mongoose 是一个 MongoDB 的框架便于更好的操作数据库CSSSass:https://sass-lang.com/Sass 是成熟、稳定、强大的 CSS 扩展语言。入门文档可以看:http://sass.bootcss.com/Less:http://lesscss.org/给 CSS 加点料。入门文档可以看:https://less.bootcss.com/Stylus:http://stylus-lang.com/UI 框架Bootstrap:http://www.bootcss.com/ElementUI:http://element-cn.eleme.io/基于 Vue.js 的组件库。iView:https://www.iviewui.com/一套基于 Vue.js 的高质量 UI 组件库。VUX:https://vux.li/一个凑合的 Vue.js 移动端 UI 组件库(由个人维护)cube-ui:https://didi.github.io/cube-ui/#/zh-CN/docs/introductioncube-ui 是基于 Vue.js 实现的精致移动端组件库。Muse-UI:https://muse-ui.org/#/zh-CNMuse UI 基于 Vue2.0 开发,Vue2.0 是当下最快的前端框架之一,小巧,api 友好,可用于开发的复杂单页应用vant:https://youzan.github.io/vant/#/zh-CN/轻量、可靠的移动端 Vue 组件库Layui:https://www.layui.com/由职业前端倾情打造,面向全层次的前后端开发者,低门槛开箱即用的前端 UI 解决方案MUI:https://dev.dcloud.net.cn/mui/最接近原生 APP 体验的高性能前端框架Ant Design:https://ant.design基于 React 的 UI 组件库,主要用于研发企业级中后台产品。官网推出了 Ant Design pro 作为示例,可以看看。Ant Design Mobile:https://mobile.ant.design/一个基于 Preact / React / React Native 的 移动端 UI 组件库。Ant Design of Vue:https://vue.ant.design/docs/vue/introduce-cn/Ant Design 的 Vue 实现,开发和服务于企业级后台产品。CDN 加速器BootCDN: https://www.bootcdn.cn/稳定、快速、免费的前端开源项目 CDN 加速服务共收录了 3599 个前端开源项目调试集whistle:https://wproxy.org/whistle/代理抓包工具,很好很强大。Fiddler:https://www.telerik.com/fiddler编码规范Bootstrap 编码规范:https://codeguide.bootcss.com/es6 编程风格:http://es6.ruanyifeng.com/#docs/styleAirbnbJavascriptStyleGuide:https://github.com/airbnb/javascript强大的技术学习网站MDN:https://developer.mozilla.org/zh-CN/docs/Webw3schools:https://www.quanzhanketang.com/w3school:https://www.w3school.com.cnw3cschool:https://www.w3cschool.cn/菜鸟教程:https://www.runoob.com/开源中国:https://www.oschina.net/project/lang/28/javascriptsmashingmagazine:https://www.smashingmagazine.com/HTML 中文网:http://www.css88.com前端乱炖:http://www.html-js.com/爱思资源网:http://www.aseoe.com/掘金 APPCSDN 网站及 APPsegmentFauultAPP字体图标集Font Awesome:http://www.fontawesome.com.cn/Iconfont:https://www.iconfont.cn/icomoon:https://icomoon.io/EasyIcon:https://www.easyicon.net/icons8:https://icons8.cn/IconStore:https://iconstore.co/iconninja:http://www.iconninja.com/web 字体webfont:https://www.webfont.com/onlinefont/indexMOKE 数据Easy Mock:https://www.easy-mock.com切图工具PSPxcook(像素大厨):https://www.fancynode.com.cn/pxcook原型设计工具墨刀:https://modao.cc/Mockplus:直接搜索下载uxpin:https://www.uxpin.com/静态站点生成工具集Hexo:https://hexo.io/zh-cn/VuePress:https://www.vuepress.cn/GitBook:https://www.gitbook.com/GitHubpage:https://pages.github.com/API 接口聚合数据:https://www.juhe.cn/和风天气:https://www.heweather.com/讯飞开放平台:https://www.xfyun.cn/网易云音乐接口:https://binaryify.github.io/NeteaseCloudMusicApi/#/心知天气:https://www.seniverse.com/饿了么接口:https://github.com/bailicangdu/node-elm/blob/master/API.md其他工具程序员的工具箱:https://tool.lu/有八十个在线小工具特别强悍,是我较为喜欢的一个。CanIUse:https://caniuse.com/浏览器兼容性查询。前端同学必须要知道。幕布:https://mubu.com极简大纲笔记、一键生成思维导图。非常好用。JSON 格式化:http://www.bejson.com/短链生成:http://www.dh6.ink/GitHub 短网址:https://git.io/图片压缩:https://www.yasuotu.com/在线 PS:https://www.photopea.com/图片在线裁剪:https://www.asqql.com/gifc/Gif 添加字幕:http://www.yingjingtu.com/Photoshop 的投影参数转换为 CSS 代码:https://psd2css.mezw.com/将 Photoshop 设计文件图层中的混合选项参数快速转换为 CSS3 代码,以节省前端开发人员的时间和精力。Get Emoji:https://emoji.svend.cc/图片转 Ascii:http://picascii.com/视频转 GIF:https://github.com/vvo/gififyOCR 文字识别:https://app.xunjiepdf.com/ocr学 UI 网:http://www.xueui.cn/design/online-tools总结该内容主要收集于网络和平常自己用到的一些工具,如果想学习前端开发的同学,你可以先学习 HTML、CSS 和 JS 基础打牢后,可以学习一些库和框架,前端常用的库、框架、UI 上面都已经贴出,你可以按照该技术栈进行学习而不是漫无目的去晚上找各种资料,学框架啃文档做小 demo 会学的更快更牢。JAVA 后端常用技术Spring FrameworkSpring 容器http://projects.spring.io/spring-framework/SpringMVCSpring MVC 框架http://docs.spring.io/spring/docs/current/spring-framework-reference/htmlsingle/#mvcApache Shiro安全框架 http://shiro.apache.org/Spring session分布式 Session 管理http://projects.spring.io/spring-session/MyBatisORM 框架http://www.mybatis.org/mybatis-3/zh/index.htmlMyBatis Generator代码生成http://www.mybatis.org/generator/index.htmlPageHelperMyBatis 物理分页插件http://git.oschina.net/free/Mybatis_PageHelperDruid数据库连接池https://github.com/alibaba/druidFluentValidator校验框架https://github.com/neoremind/fluent-validatorThymeleaf模板引擎http://www.thymeleaf.org/Velocity模板引擎http://velocity.apache.org/ZooKeeper分布式协调服务http://zookeeper.apache.org/Dubbo分布式服务框架 http://dubbo.io/TBSchedule & elastic-job分布式调度框架https://github.com/dangdangdotcom/elastic-jobRedis分布式缓存数据库 https://redis.io/Solr & Elasticsearch分布式全文搜索引擎http://lucene.apache.org/solr/ https://www.elastic.co/Quartz作业调度框架 http://www.quartz-scheduler.org/Ehcache进程内缓存框架http://www.ehcache.org/ActiveMQ消息队列http://activemq.apache.org/JStorm实时流式计算框架 http://jstorm.io/FastDFS分布式文件系统https://github.com/happyfish100/fastdfsLog4J日志组件http://logging.apache.org/log4j/1.2/Swagger2接口测试框架http://swagger.io/sequence分布式高效 ID 生产http://git.oschina.net/yu120/sequenceAliOSS & Qiniu & QcloudCOS云存储https://www.aliyun.com/product/oss/ http://www.qiniu.com/https://www.qcloud.com/product/cosProtobuf & json数据序列化https://github.com/google/protobufJenkins持续集成工具 https://jenkins.io/index.htmlMaven项目构建管理 http://maven.apache.org/
2022年RPA机器人流程自动化行业研究报告
第一章 行业概况RPA即Robotic Process Automation(机器人流程自动化),是一种通过软件机器人模拟人与计算机的交互过程,实现工作流程自动化执行的技术应用。RPA软件机器人可以根据流程设定完成计算机操作,替代或辅助人完成规则明确的重复性劳动,成为一种新兴的“数字劳动力”RPA技术的兴起和应用,契合了企业普遍存在且日益增长的业务流程自动化需求。图:企业IT应用体系资料来源:千际投行,资产信息网,爱分析随着信息化和数字化的推进,企业根据不同业务流程的需求建设了大量分立的业务系统,实现了业务流程的线上化,同时也产生了大量需要人工执行的重复性的系统操作流程,成为机械性的低附加值劳动。与此同时,大量业务流程需要进行繁琐的跨系统操作,并形成了数据孤岛,企业对于跨系统流程连接和数据集成的需求不断增长。面对上述问题,企业可以通过业务流程外包来降低成本,但仍然面临劳动力成本日益上升的压力以及人工操作的效率瓶颈问题。除此以外,传统的IT解决方案是由IT人员开发系统接口或者重构系统的方式提升流程效率,但往往成本较高,且开发周期较长,难以及时响应业务需求的快速变化。相比之下,RPA在解决上述需求方面具备可以快速开发和灵活部署的优势。首先,RPA是从UI层面进行“非侵入式”的系统连接,不影响原有的IT架构;其次,RPA支持低门槛的基于图形化界面的自动化流程设计,可以由业务人员直接开发和上手使用,IT人员的介入不是必须的。从早期的批处理脚本、屏幕抓取到VBA等,RPA相关的自动化技术由来已久,而Al与RPA的结合进一步拓展了RPA的可用性,加速了RPA的应用落地。传统的RPA只能执行简单的鼠标和键盘操作,导致应用场景有限,只能作为个人助手执行简单的桌面自动化任务。随着OCR、NLP等Al技术的成熟并与RPA结合,RPA逐步具备了图像识别、文本识别等非结构化数据处理能力,可以在企业业务场景中执行更复杂的业务流程自动化,具备更广阔的应用价值。现阶段,RPA技术已经较为成熟,能够带来流程效率提升的确定性回报,RPA已经成为投入增长最快的企业级软件之一。Gartner预计,到2023年底,90%的大型和超大型组织将部署某种形式的RPA。企业应该积极尝试部署RPA,迎接RPA的浪潮。RPA平台架构RPA技术以RPA软件平台为落地载体,实现企业业务流程的自动化。典型的企业级RPA软件平台包括设计平台、机器人、控制平台三个基本组成部分,被称为RPA“三件套”,三者共同实现RPA机器人的正常运行。图:RPA平台“三件套”资料来源:千际投行,资产信息网,爱分析设计平台(设计器):负责机器人的脚本开发,基于具体的业务流程自动化需求,通过编码开发、低代码图形化界面编排.流程界面录制等方式,生成机器人运行脚本。RPA机器人的设计需要建立在对业务流程梳理和优化的基础上,决定了机器人上线后需要执行的具体任务。机器人(执行器):负责根据设计脚本,执行具体业务流程,完成任务。机器人可以根据工作模式分为无人值守、有人值守两种模式,无人值守是指RPA在后台运行,无需业务人员操作,可以自动完成任务;有人值守是指需要业务人员参与到流程当中触发任务或执行部分流程,采用人机协同的方式完成任务。控制平台:负责对机器人进行控制管理,包括任务分配、任务启动和停止、运行状况监控和统计、权限控制、机器人集群任务协同等,保证机器人的高效、稳定运行。RPA的应用价值RPA的核心价值是实现企业业务流程的自动化和智能化,从而降本增效,这建立在RPA的技术能力之上。一方面,RPA的基础能力是自动化,可以模拟人对鼠标键盘的操作,执行数据提取与处理、系统登录与操作等任务,替代人的“执行”。另一方面,RPA软件平台在融合OCR、NLP等Al技术后,还可以处理图片、文字等非结构化数据,替代人的“认知”甚至“决策”,完成复杂任务的闭环。例如,结合OCR识别发票数据,再自动录入相关系统。此外,RPA在执行业务流程中还具备以下突出优势:快速灵活部署:RPA是从UI层面进行“非侵入式”的系统连接,不影响原有IT架构,可以快速落地部署,及时响应业务需求。高效率:相比人工执行,理想情况下,RPA可以7*24小时不间断工作,单个业务流程操作时间大幅缩短,可以大幅提升业务流程效率。高准确性:理想情况下,RPA处理业务流程的错误率为0,可以有效降低人工操作带来的错误风险。可追溯留痕:作为软件平台,RPA的所有业务操作都可以保留日志数据,可追溯留痕,确保安全合规。图:RPA适用的场景条件资料来源:千际投行,资产信息网,爱分析虽然具备以上能力和优势,但RPA并非是万能的,无法实现所有业务流程的自动化。RPA适用的应用场景需要同时具备以下两个特征:规则明确。从可行性的角度,由于RPA本身基本不具备认知判断能力,RPA执行的业务流程需要基于明确但相对固定的规则,并不需要在流程中做出复杂判断。大量重复。从必要性的角度,只有大量重复性的业务流程,才使得部署RPA成为必要的投入,能产生足够高的业务价值产出。RPA在应用场景上具有很强的跨场景属性。只要符合上述特征的场景,都可以应用RPA。典型的通用场景包括财务管理、人力资源管理、供应链与采购、客服、IT运维等,以及各垂直行业中具备类似特征的业务场景。图:RPA的典型应用场景资料来源:千际投行,资产信息网,爱分析第二章 商业模式与技术发展2.1 产业链分析RPA厂商主要参与者有四大类:RPA厂商、技术支持方、集成商/实施方、渠道方:技术支持方:RPA厂商中,部分企业不具备AI能力,因此寻求和第三方AI公司合作,由AI企业为其提供技术支持;集成商/实施方:在业务场景落地过程中,RPA厂商会采取自己实施或与第三方服务合作两种形式交付,在与业务伙伴时,RPA厂商会提供标准化平台产品(设计平台、机器人、控制平台、AI能力等)叠加一定的扩展性开发,后续实施运维交由第三方;渠道商:帮助RPA厂商扩大市场销售范围。RPA市场仍在发展早期,聚集市场中的业务合作伙伴提升服务能力为不同行业客户提供解决方案是当前市场的主要模式。图:中国RPA产业链资料来源:千际投行,资产信息网,甲子光年当前中国市场中的RPA厂商大致可以分为两类:基于多种业务流程进行自动化的通用RPA和基于特定流程及逆行自动化的专用RPA。其中,专用RPA厂商具体还可以区分为基于没有明显业务属性的通用业务流程的功能RPA和基于特定行业业务流程的行业RPA(如金融行业RPA等)。目前均有多种厂商试图从不同的角度切入RPA市场。图:中国市场RPA厂商图谱资料来源:千际投行,资产信息网,甲子光年图:通用RPA厂商资料来源:千际投行,资产信息网,甲子光年2.2 商业模式分析目前RPA厂商的商业收入主要分为两部分:产品输出、服务输出。这也是当下RPA市场规模的主要构成部分。主要销售途径:厂商销售团队、厂商渠道伙伴主要付费类别:产品费用(产品输出)、实施与培训费用(服务输出)主要付费模式:整体解决方案售卖、即付即用、按投入产出比付费等。主要产品费用(执行机器人、设计器、管理器、软硬一体机/硬件控制器/OCR/…)市场中的不同厂商所提供的各类产品费用均有差异,主要由功能实现(如:人机交互/无人值守)、License绑定形式(如:机器绑定、用户绑定)等多种因素决定。较为常见的情况下,RPA厂商为渠道提供的代理价格为常规刊例价的4-6折。实施培训费用(定制开发及实施服务、实施前的技术培训、实施后的应用培训)主要有“按人天工时计算(多数)、按项目计算(少数)”两种计费方式,部分项目会将“实施培训费用”作为权益赠送。通常产品的售卖方会对客户展开实施与培训(RPA厂商会对渠道伙伴进行体系化的培训并进行授权认证,以保证渠道伙伴的培训与实施的质量)。2.3 技术发展RPA+LCAP+AI超级自动化实现飞速发展的主要动力超级自动化是Gartner在《2020年重要战略科技趋势》中提出的技术概念,它是一种技术合集,由RPA(机器人流程自动化)、LCAP(低代码应用平台)、AI(人工智能技术)、iBPMS(智能业务流程管理)等创新技术组成,从而帮助用户将一些流程更加复杂的非结构化数据业务实现自动化。疫情进一步加速了数字化进程,它迅速推动企业允许更多远程、数字化的首选方案。与此同时,随着组织寻求帮助推动其业务向新的方向发展以及IT和业务流程的自动化需求日益迫切等,驱动了超级自动化软件市场的发展。Gartner预计,到2025年超级自动化软件市场将达到8600亿美元,复合年增长率为12.3%。其中,RPA、LCAP、AI等创新技术,成为超级自动化实现飞速发展的主要动力。Gartner预测到2022年,RPA、LCAP和AI的市场规模,将达到300亿美元,未来将保持两位数高增长率。此外,那些可以将ERP、CRM、供应链等系统实现自动化的软件,也为超级自动化市场的增长做出了贡献。为了解决企业中更为复杂的流程,例如多种类型的文本处理工作,Gartner表示到2022年,65%部署自动化能力的组织将引入人工智能(AI),包括机器学习(ML)、自然语言处理(NLP)算法和智能文档处理(IDP)。战略应用平台LCAP如今,很多IT团队面临的一个难题是业务部门不断提出各种新需求,并且通常要求在很短的时间内交付。这让开发资源仅仅为了应付眼前的需求就捉襟见肘,更无暇顾及对企业应用的长期能力进行投入。但是市场的快速发展、客户需求的变化、竞争的日益激烈,以及“黑天鹅”事件突发,都要求企业必须在长期应用能力上进行投入,否则就无法满足业务发展乃至企业生存的要求。而低代码开发工具可以为企业和开发人员实现平民化和自助式应用程序开发,并帮助在整个企业范围内扩展业务自动化和超自动化。LCAP不仅支持IT以外的应用程序开发的平民化,还可以提高业务服务的自动化程度:支持平民和专业开发人员、实现更快的交付、轻松构建应用程序、避免内部和外部开发团队的瓶颈、提高专业开发人员构建更复杂系统的要素的生产力。在后疫情时代,低代码技术产品将使企业能够迅速解决战术和企业优先事项,从而提高运营效率。Gartner预测到2023年,超过50%的大中型企业将采用LCAP作为战略应用平台。RPA+LCAP打通技术壁垒,实现平民化RPA和低代码技术的结合,在为客户提供更好的解决方案,更高效地解决实际问题之外,更重要的是实现了技术平民化。众所周知,技术平民化的根本优势是构建业务系统的能力从企业外部转移到企业内部,从而,将维护成本降到最低,并且,通过强大的连接能力让自有业务系统具备强大的可拓展性。而通过将RPA和LCAP有效结合能够为企业带来这种优势,以ENCOOViCode为例,通过与ENCOORPA产品无缝结合,借助RPA非侵入式和灵活配置的特性,构建跨多系统、多数据源的完整闭环应用:帮助企业打通内外网应用之间的壁垒;连接没有或无法提供标准接口的异种管理平台;各类结构化和非结构化数据进行快速获取、处理、转化与迁移,赋能企业构建跨越新旧解决方案的下一代应用系统。2.4 行业自律协会中国信息通信研究院中国信息通信研究院(以下简称“中国信通院”)始建于1957年,是工业和信息化部直属科研事业单位。多年来,中国信通院始终秉持“国家高端专业智库产业创新发展平台”的发展定位和“厚德实学兴业致远”的核心文化价值理念,在行业发展的重大战略、规划、政策、标准和测试认证等方面发挥了有力支撑作用,为我国通信业跨越式发展和信息技术产业创新壮大起到了重要推动作用。近年来,适应经济社会发展的新形势新要求,围绕国家“网络强国”和“制造强国”新战略,中国信通院着力加强研究创新,在强化电信业和互联网研究优势的同时,不断扩展研究领域、提升研究深度,在4G/5G、工业互联网、智能制造、移动互联网、物联网、车联网、未来网络、云计算、大数据、人工智能、虚拟现实/增强现实(VR/AR)、智能硬件、网络与信息安全等方面进行了深入研究与前瞻布局,在国家信息通信及信息化与工业化融合领域的战略和政策研究、技术创新、产业发展、安全保障等方面发挥了重要作用,有力支撑了互联网+、制造强国、宽带中国等重大战略与政策出台和各领域重要任务的实施。RPA产业推进方阵RPA产业推进方阵(以下简称方阵),由中国人工智能产业发展联盟(AIIA)指导,中国信息通信研究院联合敦富咨询、高效运维社区、华佑科技、RPA中国和金智维等RPA相关公司成立。聚焦有关“RPA、自动化技术、AI技术”的主题技术交流、标准规范制定与评测、资源共享、产业发展、平台搭建及RPA人才培养。宗旨是围绕RPA(机器人流程自动化)技术,聚焦产品和服务,建立RPA行业良好的发展生态,为中国人工智能领域产业端的发展做好支持。中国人工智能产业发展联盟(AIIA)为加快推动我国人工智能产业发展,搭建人工智能产业发展公共服务平台,提升产业发展能力与应用水平,按照《“互联网+”人工智能三年行动实施方案》有关部署,在国家发展改革委、科学技术部、工业和信息化部、中央网信办四部委共同指导下于2017年10月13日成立中国人工智能产业发展联盟。联盟由中国信息通信研究院、百度、阿里、腾讯、清华、浙大、科大讯飞、奇虎360、中科院自动化所、沈阳新松、中兴通讯、上海仪电、中国电力科学研究院、航天科工集团、中国联通、电子四院、电子一所等积极推动人工智能产业发展的代表性企业、高校、科研院所、社会组织参加,并适当邀请代表性跨国企业或国外企业参与。2.5 政府法律法规2017年之前,人工智能相关政策主要集中在人工智能技术研发突破方面。从2017年开始,政策的重点已经从人工智能技术转向技术和产业的深度融合,特别是2017年7月国务院印发的《新一代人工智能发展规划》明确指出要“加快人工智能深度应用”。从2018年两会发言的不完全汇总也可以看出,人工智能+产业的融合将是未来的重点,包括科技部、工信部、民政部等官方部门和百度、腾讯、联想等民间代表,均提出了人工智能+产业、人工智能+医疗等。2019年,两会更是将“智能+”写入政府工作报告,人工智能技术对于社会的赋能被给予最高层次的期待。在工业经济由数量和规模扩张向质量和效益提升转变的关键期,“智能+”的理念给人工智能等数字技术提供了最广阔的落地空间和回报想象。通过智能化手段把传统工业生产的全链条要素打通,可以更好地推动制造业的数字化、网络化和智能化转型,更能反向助推技术自身的迭代和进步。2020年,明确人工智能作为“新基建”建设重要一环,“十四五”指出要推动互联网、大数据、人工智能等同各产业深度融合。并且各省市也在大力推动人工智能与产业融合,打造应用场景,示范项目。图:人工智能机器人行业重要政策汇总资料来源:千际投行,资产信息网,前瞻网第三章 行业发展与市场竞争3.1 行业财务分析图:行业综合财务分析资料来源:千际投行,资产信息网,Wind图:行业历史估值资料来源:千际投行,资产信息网,Wind图:指数市场表现资料来源:千际投行,资产信息网,Wind图:指数历史估值资料来源:千际投行,资产信息网,Wind估值方法可以选择市盈率估值法、PEG估值法、市净率估值法、市现率、P/S市销率估值法、EV/Sales市售率估值法、RNAV重估净资产估值法、EV/EBITDA估值法、DDM估值法、DCF现金流折现估值法、NAV净资产价值估值法等。图:主要上市公司资料来源:千际投行,资产信息网,Wind图:机器人主营构成资料来源:千际投行,资产信息网,Wind图:科大智能主营构成资料来源:千际投行,资产信息网,Wind3.2 风险因子人才和技术发展风险专业人才和技术发展对于软件企业至关重要。软件行业的管理人员需要熟悉该行业的发展规律和企业经营方法,其来源相对稀缺,一般只有通过从现有企业的管理人员中聘请的方式来获得。技术人员是软件企业持续发展的关键力量,由于中低端软件的技术含量偏低,大部分软件厂商基本都能开发,而市场空间大、利润高的专业软件技术含量较高,需要更加专业的技术人员进行研发。另一方面,电信、金融等行业发展加快、业务复杂程度加剧以及相应监管要求的不断提高,对专业软件的持续开发提出了更高要求。因此,如果专业人才流失或不足,技术水平跟不上软件最终应用领域业务发展需要或无法及时满足客户要求,公司将面临相关损失的风险。市场风险软件行业竞争较为激烈,如果公司在技术创新和产品规模方面不能进一步发挥其优势,在日趋激烈的市场竞争环境下,将面临一定风险。核心技术失密风险软件企业的核心技术及产品源代码体现了其技术实力,核心代码作为公司最高机密,由专人负责掌握,公司技术人员根据不同的级别和权限,掌握不同的业务代码。但是,如果未来由于不正当竞争等因素,导致公司核心技术失密,可能会给公司带来较大损失。3.3 市场发展现状RPA前驱早在2000年左右便以“按键精灵”的形式出现,更多用于玩家游戏、知识化办公等桌面级阶段。2011年左右,国内开始出现最早推出RPA产品的厂商,同年,阿里云RPA的前身“码栈”在淘宝诞生,主要帮助阿里巴巴集团小二做运营和服务售后等自动化。2015年随着四大会计事务所在中国区应用RPA,RPA工具也逐渐被国内金融机构所接受。随后两年,大批RPA厂商开始成立,金融科技厂商、AI厂商也是在这个阶段开始转型进军RPA,随着早期厂商对市场认知的教育和产品拓展,2018年更多企业开始认知并接纳RPA带来的价值,并在2019年掀起一股资本浪潮。未来,技术成熟度提升、不同行业应用场景的挖掘仍会在较长一段时间伴随RPA市场。图:RPA发展历程介绍资料来源:千际投行,资产信息网,艾瑞咨询美国企业整体数字化转型要早于中国,美国RPA龙头厂商Automation Anywhere和UiPath分别成立于2003年和2005年,且美国劳动力成本高于中国,员工对于重复类工作更为排斥,导致企业对数字员工的接受度更高,部分RPA应用场景如桌面级软件已经实现规模化应用。在中国,RPA厂商大多成立于2015年前后,进入时间尚且较短,应用场景中业务流程标准化程度低,厂商对应用场景的拓展还处于早期,企业对于数字员工的投入产出比还存在迟疑,市场教育力度有待提高。目前,中国厂商更多专注于对产品和技术的打磨,国内市场已经出现如来也科技这样估值超过20亿的独角兽企业,但要达到规模化应用还需要市场的验证和认可。图:中美RPA发展阶段对比资料来源:千际投行,资产信息网,艾瑞咨询从产品层面来看,中国和美国大体上要完成四个维度的进阶,分别是桌面级RPA软件、轻自动化RPA软件、自动化RPA软件、智能化RPA软件。桌面级产品主要以实现桌面自动化为目标,中国早期发展更多是处理批量邮件、客户资料登记等重复类工作。而轻自动化和自动化RPA产品都是以实现更大范围的流程创建为价值指向,用户无需再关注每个节点如何实现,可以使用RPA软件打通流程接口,增加产品自动化功能及降低使用风险。目前,中国大多数产品处于轻自动化阶段,美国则在完成自动化RPA软件的进阶。未来,随着AI技术的成熟,RPA+AI将打破人类在能力和算力上的瓶颈,进入智能化阶段,美国注重底层技术,综合能力更强,中国则在需求和解决方案端发力,在某种维度上实现对美国的超越。图:RPA产品发展形态资料来源:千际投行,资产信息网,艾瑞咨询在2017~2019年期间,全球RPA市场以49.10%的年复合增长率迅速发展,2019年全球RPA市场规模达到118.33亿元;2020~2022年增长稍有减缓,但仍以42.89%的年复合增长率保持上升,预计2022年将达到400亿元规模。 中国RPA行业尚处于初期阶段。2017,中国RPA市场规模仅为3.1亿元。从整体上看,中国的RPA市场规模与全球RPA市场规模均在上升,但中国RPA市场发展速度落后于全球,预计2022年规模为26.16亿元。一方面由于RPA行业尚处于早期发展阶段,早期成立的厂商对市场教育和宣传上有了一定投入,叠加传统软件遗留的问题在数字化转型趋势下暴露出来,RPA作为非侵入式、快速部署的软件在一定程度上缓解了企业数据和信息孤岛的经营痛点。另一方面,AI技术尤其是自然语言处理(NLP)和计算机视觉(CV)等技术的普及,也让资本市场关注到RPA在复杂场景中所能发挥的更大价值,面对人力成本的增加和企业投入产出的下降,更多企业愿意寻求软件工具解决经营管理痛点。2020年受制于疫情和宏观环境的影响,增速有所下滑为79.1%,但是RPA软件和服务市场还是蓝海,未来3年增速仍将维持在70%以上。图:全球及中国RPA市场规模(亿元)资料来源:千际投行,资产信息网,亿欧智库3.4 竞争格局围绕RPA技术,目前市场上已形成RPA供应商、集成商及实施方的RPA生态产业链。其中,RPA供应商又可分为国外RPA、原生RPA供应商、AI孵化供应商和互联网巨头,且集成商与实施方企业也开始自研RPA。从这几类生产RPA产品及解决方案的企业历史看,业务上的技术外包、应用场景中的智能客服以及以NLP、OCR为代表的AI公司最容易延伸出RPA需求和产品,其原因是为服务业务自动化需求较高,且容易与之结合,根据自身基因特色,后期的发展道路也有所侧重。图:RPA厂商基因及发展方向资料来源:千际投行,资产信息网,亿欧智库2018年11月,UiPath率先迈进中国市场,随后Blue Prism、Automation Anywhere等也在2019年步入战地。2020年6月,微软宣布旗下RPA产品“Microsoft Power Automate”在华商用,短短两三年时间,中国成为RPA龙头供应商云集之地。与此同时,中国RPA供应商也在尝试走向全球,主要目标为亚太地区,该地区正成为全球RPA供应商重点部署战略地。图:RPA供应商区域分布战略资料来源:千际投行,资产信息网,亿欧智库目前所有RPA企业虽估值攀升,但均处于亏损阶段,尚未实现盈利。以营收划分,RPA供应商前三的龙头企业分别为UiPath、Automation Anywhere和Blue Prism。此外,将RPA作为产线之一,与其业务结合的云联络中心NiCE;将RPA补充iBPM产品,与CRM集成的Pegasystems;以及较早拥有RPA底层技术却较晚入局的微软等企业都成为RPA供应商中具有特色的一员。 这些RPA供应商在市场竞争追赶上较为激烈,表现为产品迭代频繁、部分新产品功能类似,实际上其商业模式大同小异,差异化主要体现在技术和市场、业务策略,由此带来不同的企业用户体验。Gartner基于前瞻性和执行力将魔力象限划分为四个区域,分别是领导者(Leaders)、挑战者(Challengers)、远见者(Visionaries)和市场参与者(Niche Players)。其中,UiPath、Automation Anywhere、Blue Prism、WorkFusion被评为领导者,WorkFusion的地位得到了显著提升,去年只是远见者;Nice、Edge Verve Systems、KoFax评选为挑战者,Kofax去年是市场参与者;NTT、三星SDS、SAP、HelpSystems、AntWorks、Jacada被评为市场参与者;微软、Pegasystems、Servicetrace被评为远见者。与2019年(Gartner首次发布RPA行业魔力象限)相比,今年有三位新玩家入选分别是SAP、微软和三星SDS,这对RPA市场的发展将起到巨大推动作用并扩大其影响力。图:RPA魔力象限图资料来源:千际投行,资产信息网,Gartner该图右上角为执行力和前瞻性俱佳的领导者,包括UiPath、Automation Anywhere、Blue Prism这三家。几家企业在前瞻性上差别并不是很大,但是在执行能力上,UiPath与其他三家拉开了差距。Uipath拥有强大的合作伙伴系统和广阔的应用前景,拥有250多个技术合作伙伴,支持所有主流企业软件产品和应用程序。该公司总部位于纽约,在全球有大约1900名员工。排在第二位的是Automation Anywhere,其新版产品Automation360版是全球唯一的基于云的,基于Web的端到端自动化平台,在将自动化流程的数量增加一倍的同时,把扩展速度提升了三倍。图:领导者评价表资料来源:千际投行,资产信息网,Gartner挑战者象限共有三名玩家,分别是来自美国的NICE、Kofax和来自印度的Edge Verve Systems。NICE已经在机器人过程自动化领域深耕了18年,它提出的有人参与的自动化解决方案NEVA,将人与机器人结合在一起,在实现智能流程优化的同时释放出员工的潜力,确保优质的客户体验。全包式软件包NEVA Unlimited可为组织提供免费和无限数量的无人值守机器人,这些机器人可在参与自动化项目的过程中创造价值。NEVA还包含其他增值功能,例如Automation Finder(智能自动化过程发现),Automation Studio(新一代自动化开发工具),用于处理非结构化数据的OCR(光学字符识别)等。图:挑战者评价表资料来源:千际投行,资产信息网,Gartner入选远见者象限的供应商通常能够快速满足客户的需求和适应市场的潮流,他们分别是Microsoft、Pegasystems和Servicetrace。其中Pegasystems和Servicetrace均面向大中型客户,而Microsoft则覆盖各种规模的客户群。Microsoft提供用户友好的操作界面,无论用户的专业技术水平如何,都可以通过分步指南和易用、直观的无代码界面创建自动化工作流。Power Automate内臵的Microsoft安全技术,可帮助用户快速推出可扩展的更改,同时满足所有IT安全要求。用户还可以使用有人值守的RPA,自动执行重复性任务(如前端办公活动),将精力集中在更高价值的工作上。图:远见者评价表资料来源:千际投行,资产信息网,Gartner第四象限市场参与者通常从事垂直领域业务,拥有仅限于特定区域或市场的强大软件产品。入选的6家企业分别是来自亚洲的NTT、三星SDS、AntWorks和来自欧洲的SAP以及美洲的HelpSystems和Jacada,他们服务于遍布全球的各种规模的客户。作为该象限的先行者,三星SDS提供的Brity RPA使实施流程自动化变得快速而轻松。Brity RPA中创建的机器人可以执行重复性任务,因此员工可以专注于需要创造力的关键业务领域。集成可视,对话和分析技术的智能机器人将复杂的任务自动化,从而帮助企业提高效率。实时控制技术保障了机器人的可靠性,通过Web和移动连接对机器人进行的集成管理使实时控制成为可能,通过执行以执行日志为中心的业务,在提高输出质量的同时,可以防止在手动执行过程中可能发生的潜在错误。图:市场参与者评价表资料来源:千际投行,资产信息网,Gartner图:国内相关代表性公司资料来源:千际投行,资产信息网,Gartner3.5 中国参与者中国参与者主要有:来也科技、云扩科技、弘玑Cyclone、实在智能、艺赛旗(839025)、新纽科技(09600)、天行智能、和信融慧、金智维等。来也科技来也科技是中国乃至全球的RPA+AI行业领导者,为客户提供变革性的智能自动化解决方案,提升组织生产力和办公效率,释放员工潜力,助力政企实现智能时代的人机协同。来也科技与神州数码、微软、IBM、德勤中国等企业建立了稳固的合作关系,搭建了覆盖全国的渠道销售网络。同时,为推动RPA+AI在中国市场的普及,来也科技提供免费社区版产品,发展了近40万人的开发者社区,塑造了强大的生态开发能力。以合作伙伴和开发者的“双生态”立体化布局,形成行业竞争壁垒。现拥有机器人流程自动化平台“来也UiBot”、智能对话机器人平台“吾来”、全球首个专为RPA机器人打造的AI能力平台“UiBot Mage”三大核心产品,为政企实现“端到端”的智能自动化。图:来也科技产品资料来源:千际投行,资产信息网,来也科技云扩科技云扩科技以自研的云扩RPA平台为核心,致力于为各行业客户提供智能的RPA机器人产品与解决方案,通过RPA赋能,持续为客户创造价值,助力企业推进数字化转型。云扩科技提供端到端、全链路的流程管理自动化产品,其功能覆盖发现与共享、设计、管理、应用、智能五个板块。图:云扩科技产品资料来源:千际投行,资产信息网,云扩科技目前云扩科技在上海、北京、深圳、杭州、西安、苏州及日本东京均设有分公司及研发中心。公司已服务了来自金融、能源、电信、财税、制造、物流、零售等多个行业的上百家企业,始终坚持围绕客户需求持续创新,加大产品研发投入,为客户提供有竞争力、安全可信赖的RPA产品以及更智能的流程自动化解决方案,不断降低企业采用RPA的门槛。弘玑 Cyclone上海弘玑信息技术有限公司成立于2015年,旨在高速发展的企业数字化转型中,为客户提供安全可靠、高效适应、扩展协作的人工智能数字员工解决方案,并致力于创造先进的数字员工机器人生态体系。主要业务是开发、销售具有自主版权和知识产权的人工智能软件产品——Cyclone RPA(Robotic Process Automation)。Cyclone RPA正在银行、证券、保险、政府、能源、制造、医疗、电力等行业中广泛应用。公司总部位于上海,目前已在北京、深圳、广州、沈阳、哈尔滨等数十个城市设有分公司和办事处,商业化版图已拓展至大中华区、日本、东南亚等市场。图:弘玑Cyclone产品资料来源:千际投行,资产信息网,弘玑Cyclone3.6 全球主要参与者全球参与者主要有:UiPath(PATH)、Automation Anywhere、Blue Prism(PRSM)、WorkFusion、Nice(NICE)、Edge Verve Systems、Kofax(KFX)、日本电报电话公司(NTT)、三星SDS(018260)、SAP(SAP)、HelpSystems、AntWorks、Jacada(JCDA)、微软(MSFT)、Pegasystems(PEGA)、Servicetrace等。UiPath (PATH)2005年,在微软Owning SQL Server Agent dev(SQL服务器代理开发)的Daniel Dines离开微软,组建了一个10人的技术团队,即UiPath的前身Desk Over,为微软、IBM等公司提供技术外包服务,同时研发一些自动化产品。在一次技术合作中,Desk Over发现自动化商机,开始研发自动化产品,受到Yahoo关注,并于2015年获得第一笔融资,开发了一款企业级RPA平台,正式改名为“UiPath”。UiPath将工具与平台进行结合,产品覆盖发现、构建、管理、运行、参与和评估,为企业提供全生命周期服务。目前已完成2.25亿美元E轮融资,交易后估值达102亿美元,正计划IPO。UiPath的愿景是人手一个机器人,信奉该战略能够抓取企业低价值长尾;产品特点是门槛低,用户界面友好,致力于“平民IT”,为普通员工打造小而美的数字化工具。UiPath一人一机的理念更倾向于资本故事和业务理解。从员工角度切入的RPA虽然更靠近业务端,但也由此带来管理难题。因此UiPath选择咨询公司等渠道影响大B企业,大部分以自上而下的角度部署RPA,定位仍属于企业级RPA平台。Blue Prism (PRSM)Blue Prism成立于2001年,2016年正式在英国伦交所IPO,主要为大型企业提供“中心化”的数字劳动力管控平台,用于企业管理者统一调配、统一管理数字劳动力,帮助企业提升关键生产流程上的核心效率。2012年,Blue Prism的首席传教士Pat Geary将其定义为RPA,并为市场所接受。产品主要定位于大规模部署的企业级平台,强调connected-RPA理念,企业做既可以做中央化的治理,但同样可以让业务部门自己去做流程优化,是位于业务&IT部门中间的一个架构平台。目前产品涵盖智能RPA平台、DX平台、ROM支持,生态上拥有社区支持。Blue Prism的核心团队中,有大部分人拥有银行背景,创始人David Moss此前在Lynx Financial Systems担任高级软件设计师,为巴克莱银行等金融企业提供解决方案。团队的基因使得Blue Prism对金融领域业务了解深入,产品及解决方案安全性较高、可承接复杂的金融系统,随后逐步扩展到电信等其他领域。自2006年以来,Blue Prism的续订率增长至98%;2017年收入增速达155.2%,但近几年收入增速持续放缓,2019年增速为83%。2020年4月,通过配股筹集1亿英镑资金,截至2020年11月,Blue Prism市值约为18亿英镑。Automation AnywhereAutomation Anywhere(以下简称AA)成立于2003年,Salesforce是其主要投资者之一。不同于其他RPA供应商下载软件式的解决方案,AA的特色是将RPA转化为web网页版,并推出业内首个云原生的平台——EnterpriseA2019,适用于更多业务场景。EnterpriseA2019可部署在内部,或搭载在任何公有、私有或混合云上使用,向世界各地的企业开放RPA服务。云原生、网页版的解决方案在产品底层架构和流程上与传统解决方案均有较大差异,需要前期较大投入,也形成AA的竞争优势,但随着云端机器人成为趋势,RPA供应商也陆续推出了云平台和产品。AA提出了“RPA即服务”的口号,将人工智能、分析和RPA进行整合,强调其产品的全面及易用性,且首创数字劳动力概念,覆盖金融、医疗等各个领域。AA的解决方案将智能化和平台化进行结合,可集成各类AI能力,也可实现业务流程的发现、自动执行及优化等一体化功能,以推广RPA在企业中的大规模应用,拥有较为成熟的咨询顾问服务能力。2020年11月,AA发布智能数字助手--AARI(连接人与机器人的流程自动化通用平台),将消费级的体验带入企业的流程自动化,主要解决企业长流程自动化难题,2021年将建造RPA机器人工厂。AA于2019年进入中国市场,目前本地业务规模已扩大近十倍。但相较于UiPath和Blue Prism,AA的市场拓展稍有落后。AA未来重点部署战略地点在亚太市场,2020年至2023年,亚太地区直接投资于数字化转型的金额将达1.2万亿美元。NiCE (NICE)NICE成立于1986年,是以色列的一家云联络中心和企业软件解决方案提供商,由以色列国防军退伍军人创立,1986年于特拉维夫证券交易所(Tel Aviv Stock Exchange)上市,1997年开始在中国运营,2016年收购云呼叫中心技术提供商inContact,目前从事电话录音,数据安全性和监视以及分析记录数据。主要职责是极致客户体验、改善公共安全、提防商业犯罪和确保合规性,拥有消费者与员工体验转型的平台,在客户与员工之间交互研发的全渠道路由。RPA在NICE拥有15年左右的历史,作为产线之一为NICE的云呼叫服务提供自动化服务,其特色是可基于全渠道分析门户发现更多业务场景,且既具有本地化服务功能,又可基于云进行扩展。目前围绕RPA主要有三大产品:Robotic Automation、NEVA Attended Automation和Desktop Analytics,市场营销策略针对的是大型企业客户——拥有1000多名员工和超过10亿美元收入的组织。2019年8月,NICE推出了业内首个针对员工设计的数字化助理产品NEVA,可以与任何桌面应用程序交互,并且触发无人值守的流程自动化,以游戏化的方式优化员工的工作体验,驱动高效运营。2020年又推出NEVA Unlimited,这是首个全包式自动化软件包,覆盖完整的NICERPA模块集。基于NICE云联络的主营业务,其RPA解决方案融合了呼叫中心场景中各种分析和智能决策能力,可将桌面任务自动化处理,将高度结构化、常规化、日程化任务进行高效分析或主观判断,进而发现更多产品改善空间和业务场景,以客户体验为主导,驱动企业变革。Pegasystems (PEGA)Pegasystems(以下简称Pega)1983年由创始人兼首席执行官Alan Trefler创立,总部位于美国,1996年登陆纳斯达克证券交易所上市,主要提供CRM和BPM软件服务。2016年,Pega通过收购RPA供应商Open Span进入RPA市场,将RPA与其BPM和相关CRM应用程序进行集成(RPA并不是一个单独的产品),形成一个企业智能业务流程管理套件,既可以本地化部署,也可以在云端提供。目前核心产品是Pega平台,用于客户参与和数字流程自动化,领域涉及医疗保健公司、保险公司、银行、通信服务提供商等。Pega平台以低代码为核心,允许用户快速开发和提供连贯的应用程序,将业务流程管理和机器人流程自动化进行统一,具有快速建立、智能自动化、安全扩展的特点。Pega认为,机器人对端到端自动化至关重要,但RPA是数字流程自动化战略的一部分,而不是全部,只靠RPA无法解决流程自动化的所有问题,因此需要与其他业务软件相结合,通过集中式的业务架构,组合不同的业务程序完成更多工作。微软 (MSFT)作为早期就拥有大部分底层自动化框架和技术的IT巨头,在RPA布局上却相对较晚。其主要受制于微软庞大的生态体系限制,需求更围绕自有生态的协同能力展开,与真正用户的自动化需求有一定距离,因此微软在RPA爆发后的2019和2020年才开始发力,通过重构Microsoft Flow及收购RPA创业公司进军流程自动化赛道,除Win Automation和Softomotive的基于服务器的Process Robot产品外,其基于AI的数据理解、基于UI的应用程序自动化以及具有315种以上内置API连接器的数据库等功能使Power Automate与RPA竞争对手区分开来。Power Automate是帮助组织实现工作流和业务流程自动化的低代码开发平台,可通过访问API的方式调用新应用,也能以RPA的方式,通过对UI界面的操作,实现对遗留应用程序、系统和平台的自动化控制。通过Power Platform将其与Power BI和PowerApps进行衔接,形成微软智能云的“三架马车”,确保兼容性、可扩展性和企业级的安全合规性。第四章 未来趋势与AI技术集合延伸RPA能力边界,构筑行业高壁垒RPA作为流程自动化软件,受标准化特定场景、部署流程比较短,决策链单一的掣肘,在大范围企业业务的快速落地上仍旧困难。尤其是针对复杂场景的解决方案,常常会涉及非结构化数据、复杂元素识别等RPA无法处理的环节,企业个性化程度高,解决方案定制化强,由此给RPA的发展造成羁绊。而与AI能力的结合,可以提升感知非结构化数据能力和聊天机器人联动能力,帮助RPA提升易用性,业务端应用向前端迁移。除此之外,AI还能帮助RPA更好处理软件环境的变化,降低运维成本,满足客户智能审批、智能合规、智能信贷流程、智能风控等要求,在复杂应用场景中帮助RPA构筑高壁垒。RPA应用将向金融以外行业拓展,政务需求潜力渐显RPA应用不受行业和部门限制,但是一直以来,RPA的发力点仍主要落在金融、财税等信息化程度高、流程标准化程度高、重复性工作多、耗费人力大的行业和场景。相对于金融行业,制造、电信、医疗、政务等亟需转型的传统行业对RPA产品都有一定诉求,但渗透率并不理想。政务行业虽然存在标准化程度较高的场景,且人员短缺,但由于对人效考核制度不完善,对RPA的投入动力不足。近两年随着智慧政务的推进,利用AI和其他自动化软件提升政府部门在办公、监管、服务、决策等效率的提升成为共识。未来,RPA厂商协助传统企业进行数字化转型将成为行业增长新的发力点。产品和服务是未来RPA厂商进一步拓展市场的两个抓手目前,国内提供RPA产品和服务厂商达到数十家,产品在技术、功能、实现方法上各有差异,但综合来看,产品+服务仍是未来RPA能够拓展应用场景提升客户满意度的两个抓手。在产品方面,需重点关注稳定性和易用性,稳定性是保证客户使用信心的前提,能够支持高并发、高负荷等状态下的稳定运转,并可以提供异常状态的处理措施。易用性是指在交互界面上更加简洁,尽可能将模块的通用性进行封装,进而拓展客户群体和使用场景。在服务上,关注交付、扩展、后期运维,其中如何降低部署成本是提升竞争力的关键要素。
Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR)
《Windows Azure Platform 系列文章目录》
微软Azure认知服务的计算机视觉API,还提供读取图片中的文字功能
在海外的Windows Azure认知服务的读取图片功能,已经集成了用户界面,可以直接读取图片功能。
具体的链接是:https://azure.microsoft.com/zh-cn/services/cognitive-services/computer-vision/
请注意不要在生产环境中使用这个URL地址,因为服务器是在海外Azure数据中心。网络传输会有很大的延迟,谢谢!
我们点击上图中的浏览按钮,上传一张图片。
我这里有一个示例图片,地址是:https://leizhangstorage.blob.core.chinacloudapi.cn/azureblog/ocr.jpg
我们上传成功后,就可以看到Azure计算机视觉识别结果。如下图:
可以看到识别结果还是相当不错的。
本文转自Azure Lei Zhang博客园博客,原文链接:http://www.cnblogs.com/threestone/p/7267292.html,如需转载请自行联系原作者
微软发布Project Oxford,供Azure户免费集多项功能
昨天 Build Day1 Keynote 一开始的时候,有人说它被红衣主教 Scott Guthrie 变成了 Azure 展销会,当然这么理解其实没什么问题。
后续的 Section 里,微软公开了 Project Oxford 服务,主要为 Azure 用户免费提供图像、语音识别等智能 REST API 和 SDK。
这一服务由微软研究院(MSR)主导开发,其为开发者提供的模型都由微软现有其它产品中使用的深度学习和机器学习技术训练得到。
Project Oxford 目前为止提供图像识别 API、人脸识别 API、语音识别/处理 API 和名为 "LUIS" 的语义识别服务四类功能。其中:
图像识别 API 提供图像分析、OCR 和智能缩略图获取(智能提取图片主体)等功能。
人脸识别 API 则提供人脸检测、人脸验证、分组和身份认定等功能。
语音处理/识别 API 提供语音转文字和文字转语音两种服务。其后端与 Cortana 的识别引擎相同。发布之初语音转文字提供 7 种语言支持,文字转语音提供 17 种。
LUIS (Language Understanding Intelligent Service)服务提供语义分析、实体检测和自学习模型特性。
此前我们采访机器学习/深度学习界泰斗 Alan Yuille 时,他提到微软研究院是目前商业公司内几乎唯一一个纯以学术为目的的研究性机构,本次微软将 MSR 多年的积累提供给开发者,无疑是给创业公司们一个信号:别再折腾自己造轮子了,直接买个 Azure 然后专心做产品吧。
本文转自数据之巅博客园博客,原文链接:http://www.cnblogs.com/asxinyu/articles/4469655.html,如需转载请自行联系原作者
微软发布Project Oxford,供Azure户免费集多项功能
昨天 Build Day1 Keynote 一开始的时候,有人说它被红衣主教 Scott Guthrie 变成了 Azure 展销会,当然这么理解其实没什么问题。
后续的 Section 里,微软公开了 Project Oxford 服务,主要为 Azure 用户免费提供图像、语音识别等智能 REST API 和 SDK。
这一服务由微软研究院(MSR)主导开发,其为开发者提供的模型都由微软现有其它产品中使用的深度学习和机器学习技术训练得到。
Project Oxford 目前为止提供图像识别 API、人脸识别 API、语音识别/处理 API 和名为 "LUIS" 的语义识别服务四类功能。其中:
图像识别 API 提供图像分析、OCR 和智能缩略图获取(智能提取图片主体)等功能。
人脸识别 API 则提供人脸检测、人脸验证、分组和身份认定等功能。
语音处理/识别 API 提供语音转文字和文字转语音两种服务。其后端与 Cortana 的识别引擎相同。发布之初语音转文字提供 7 种语言支持,文字转语音提供 17 种。
LUIS (Language Understanding Intelligent Service)服务提供语义分析、实体检测和自学习模型特性。
此前我们采访机器学习/深度学习界泰斗 Alan Yuille 时,他提到微软研究院是目前商业公司内几乎唯一一个纯以学术为目的的研究性机构,本次微软将 MSR 多年的积累提供给开发者,无疑是给创业公司们一个信号:别再折腾自己造轮子了,直接买个 Azure 然后专心做产品吧。
消息来源:Channel 9(现场 Keynote 也能从本链接下载)、Project Oxford 项目地址
宜信OCR技术探索与实践|直播速记
宜信OCR技术探索与实践|完整视频回放分享实录
一、OCR概述
1.1 OCR技术演进
传统图像,冈萨雷斯的图像处理。
信号处理、频域分析以及各类算法:SIFT、HOG、HOUGH、Harris、Canny…都很赞。
从2016年以后业界基本上都已经转向深度了,因为效果真的特别好。
1.2 OCR技术商业服务
身份证卡证类相对容易些,但是要做到复杂场景的,也不是那么容易。
发票、业务单据相对复杂,除了识别,更重要的是版面分析。
最近表格识别比较火,各家都在努力实现,微软的开放tablebank数据集
移动端backboneMobileNet,或者是tesseract+opencv
二、我们的业务场景
2.1 业务需求
满足业务是第一需要,不同于大厂,对外服务API,要求大并发那么强,多样性品类完备,我们更强调单品要做到尽量达到业务要求,更强调定制化,可以分布走,业务上可以给反馈不断改进。
2.2 识别过程中需要解决的问题
三、OCR算法详解
3.1 算法概述——分享原则
大家一定要自己弄细节,读代码、甚至自己动手撸,自己训练,调参,排错,才能有真正的体会和理解,只讲我认为每个算法里面不太好理解,重点,以及容易忽略的点,跟同行一起交流,沟通。
一个模型,要全面深入了解,需要:
目标、目的、意义是啥?
网络结构啥样?
loss是啥?
样本咋做?
后处理干了啥
3.2 算法概述——三大板块
文字检测:把文字框住,缩小到最小范围内,从而降低识别难度。
文字识别:检测出文字后,就可以通过识别工具(算法)来识别出文字,如中间图。
版面分析:当文字识别出来后,我们得出的是文字和相应的坐标,可是当真正业务中要得到的不仅仅是这个,需要有一个结构,如何通过识别出的文字排版成为一个有逻辑结构的单据或者内容,这个工作也超级复杂。关于版面分析这方面,后面会有团队里面经验非常丰富的伙伴和大家分享。
3.3 算法概述——检测算法
表中从下往上的检测算法排序按照效果:越来越好
从anchorbased(也就是右边所示的最下面的那张图),现在逐渐转向pixel-based(像素级别)(右边所示的中间的那张图),主要是语义分割的技术效果实在是太好了。
CTPN:找框的一个算法。
预测最终结果是:10个anchor的y坐标偏移,和高度的调整值,还有它是不是前景的概率。输出是前后景概率[N,10,2],y、w调整值[N,10,2]。它只适合横向,或者纵向,不能同时。
一个模型主要从以下几个方面理解
亮点和核心思路是:预测框和文本线构造算法
loss是啥(损失函数):anchor前后景概率、y、w调整
label怎么做:大框,弄成小框,然后正负样本均衡
后处理
算法被命名为EAST(Efficient and Accuracy Scene Text),因为它是一个高效和准确的场景文本检测pipeline。
首先,将图像送到FCN网络结构中并且生成单通道像素级的文本分数特征图和多通道几何图形特征图。文本区域采用了两种几何形状:旋转框(RBOX)和水平(QUAD),并为每个几何形状设计了不同的损失函数;然后,将阈值应用于每个预测区域,其中评分超过预定阈值的几何形状被认为是有效的,并且保存以用于随后的非极大抑制。NMS之后的结果被认为是pipeline的最终结果。
最后预测:scoremap,textbox,textrotation
标注是:一个蒙版mask,一个4张图,上下左右的距离,还有个角度:一共3个。
对应就可以出loss了。每个点预测出来,加上角度,就是1个框,太多了框,所以要做LANMS(合并算法)的合并。为何不直接用socremap,我认为是置信度不够,所以要再加上bbox来加强验证。
PSENet是一种新的实例分割网络,它有两方面的优势。首先,psenet作为一种基于分割的方法,能够对任意形状的文本进行定位.其次,该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。
FPN,左面用resnet50。为何是resnet50,原因是效果不错,参数适中。
论文里是6个尺度,一个不行么?我理解是彻底分开不同行,逐渐扩大,渐进尺度可以防止彼此交叉哈
FPN和UNET都是concat,FCN是add,这个细节。
使用DB模块之后,二值化操作就变成了可微的,可以加到网络里一起训练。
网络输出
probabilitymap,代表像素点是文本的概率
thresholdmap,每个像素点的阈值
binarymap,由1,2计算得到,计算公式为DB公式
label制作
probabilitymap, 按照pse的方式制作即可,收缩比例设置为0.4
thresholdmap, 将文本框分别向内向外收缩和扩张d(根据第一步收缩时计算得到)个像素,然后计算收缩框和扩张框之间差集部分里每个像素点到原始图像边界的归一化距离。
3.4 算法概述——识别算法
Atttenion:Attention-basedExtraction of Structured Information from Street View Imagery-2017最早的尝试
非常经典的算法,主要的核心是CTC算法:Connectionist Temporal Classification (CTC)适合那种不知道输入输出是否对齐的情况使用的算法,所以CTC适合语音识别和手写字符识别的任务。
缺点:不能精确地联系特征向量与输入图像中对应的目标区域,这种现象称为attention drift。
Muturaltraining:
我们知道什么?什么字符,第几个?这个信息!
哪个字符?找到那个字符,第几个?然后和样本里的顺序比
第几个是啥字符?和对应位置的字符比
所以样本中不能存在重复字符。
四、我们的实践
4.1 实践之路
非单据:宽高比,白像素比例等
旋转角整:前面讲过了,通过旋转模型,以及投影分布
多单据:多张单据在一起,通过投影,阈值超参配置
表格识别:采用mask-rcnn的方法,来找出大表边缘
后处理:通过NLP纠错,后面会详细的讲
4.2 实践之路——旋转模型
大方向判断
第一版:
VGG做backbone,全连接,四分类
样本:人工标注、增强
正确率90%
第二版:
做切割,256x256
使用MSER找备选
训练小图
众数选出最可能方向
正确率99.7%
微调
每旋转1°做纵向投影
方差最大的角度为微调角度
4.3 我们遇到的坑
把crnn论文论文中的自定义cnn网络,换成resnet,但是resnet是缩小32倍,所以要拉长一些,到512。
首先是:样本集是1000万 (50万张,置信度单字95%+)100万真实 +100万常用字(造) + 200万数字时间英文(造)+ 600万其他汉字(造)大概需要3-4天
接下来进行训练:Resnet50,5-6天;Resize扩大,1024,=>512x8,256x8
过程中需要对greedy算法进行改进:
=>beam_search/merge_repeated=True
单独测是有问题,但是在置信度很高的情况下,两者差距很小,但是得到了极大的速度改进,28秒=>10秒,batch=128,size是512x32
因为有crnn的prob,所以纠错就有的放矢,把怀疑的字,替换成某个字,
Prob有个细节,如果是挨着的字,“__ 我 我 __”,就取最大的prob,
是根据一个字画相近度,对怀疑字替换的原则,是和原来识别字笔画最相近的,又是通过编辑距离。
4.4 我们的经验
1、 开发经验
2、生产经验
Tensorflow容器
模型部署使用官方推荐的tensorflowserving,容器方式
没有开启Batching,自己控制batch
宿主机只需要显卡驱动•容器内包含CUDA、cuDNN,免去版本适配
服务容器:
自己定义了Web容器基础镜像
自动构建容器、动态编排
本文作者:宜信技术学院 刘创
我不是机器人:谷歌最新版验证码系统ReCaptcha破解已开源
选自 Github
作者:George Hughey
机器之心编译
每个人都讨厌验证码,这些恼人的图片中包含你必须输入的字符,我们只有正确地填写才能继续访问网站。验证码旨在确认访问者是人还是程序,并防止恶意程序的入侵。然而,随着深度学习和计算机视觉技术的发展,现在这些认证方法可以被我们轻松破解了。
在这一个项目中,作者破解了最新版的 ReCaptcha,并开源了所有代码。不过项目作者声明:「这份代码能够解决最新版的 ReCaptcha,但仅限于在自己网站上使用,且仅用于教育目的。」
项目地址:https://github.com/ecthros/uncaptcha2
reCAPTCHA 项目是由卡内基梅隆大学开始构建的系统,这个项目将从书本上扫描下来、无法被 OCR 准确识别的文字显示在 CAPTCHA 问题中,从而判断访问者到底是程序还是人类。自 2014 年以来,reCAPTCHA 改为在「我不是机器人」(I'm not a robot)的方框中打勾,进而完成判别。
这个名为 unCaptcha 的项目最早创建于 2017 年 4 月,并在当时实现了 85% 的 ReCaptcha 对抗率。不过后来谷歌发布了新版本的 ReCaptcha,且新版的 ReCaptcha 主要有以下两个主要改进:
更好的浏览器自动检测使用短语语音而不是数字
这些改进最开始成功地防御了第一版 unCaptcha 的攻击,然而到了 18 年 6 月份,这些挑战基本都已被解决。本项目的作者同样与 ReCaptcha 团队取得了联系,他们完全了解这次攻击。此外,ReCaptcha 团队还允许该项目作者发布 unCaptcha2 的代码,尽管它目前仍然能有效破解 ReCaptcha 验证码。
unCaptcha2 简介
由于 ReCaptcha 添加了语音形式的验证码识别,破解 ReCaptcha 比以前变得更加容易。因为我们只需要调用一个免费的语音识别 API,对所有验证码的识别准确率就能达到 90% 左右。另外由于 ReCaptcha 会阻止浏览器自动化引擎 Selenium,unCaptcha2 会使用屏幕点击器(clicker)移动到屏幕上特定的像素,从而像人一样浏览网页。当然在模拟人类浏览的过程中,每一个新用户的坐标都需要更新,这个目前并不是太鲁棒。
unCaptcha2 的方法非常简洁:
导航至谷歌的 ReCaptcha 演示网站导航至 ReCaptcha 的语音库下载语音使用语音识别 API 识别语音解析 API 返回的参数和识别结果提交识别结果,判断是否成功
如下所示 unCaptcha2 的测试界面:
如何使用 unCaptcha2
因为 unCaptcha2 必须指定屏幕上的特定坐标,因此我们必须基于设置更新坐标。这些坐标更新的代码写在了 run.py 文件的最上面。在 Linux 系统中,使用命令行 xdotool getmouselocation—shell 可以定位鼠标在屏幕上的坐标位置。
我们还需要配置到底使用哪一个语音识别 API,国内的 BAT、讯飞和搜狗等都提供高效的语音识别 API,而国外的谷歌、微软和 IBM 也一样。谷歌、微软和 IBM 的的 API 结构都已经在 queryAPI.py 中,我们只需要配置用户名和密码就行了。如果你要使用谷歌 API,我们需要使用谷歌应用的证书参数配置环境变量 GOOGLE_APPLICATION_CREDENTIAL。
最后,安装剩下的依赖项就能愉快地破解了:pip install -r dependencies.txt。
阅读更多
阿里内部的那个牛逼带闪电的Java诊断工具终于开源了
一招教你打造一个滑动置顶的视觉特效
NDK项目实战—高仿360手机助手之卸载监听
(Android)面试题级答案(精选版)
相信自己,没有做不到的,只有想不到的
如果对技术开发比较感兴趣,欢迎关注一起交流和学习!
华为AI芯片+微软研发=第一款移动端离线推理神经网络
Microsoft Translator 是一款部署在 iOS 和 Android 平台上的应用,支持包括英文、中文等在内的超过 60 种语言的互译。其翻译模式按照输入类别可以分为三种,分别是文本翻译(text)、图像翻译(photo)和语音翻译(voice)。其中图像翻译是借助 OCR 技术,读取出图片内的文本然后进行翻译,语音翻译则借助了语音识别技术。按照翻译所用的模型类别,则可以分为在线的 NMT 模式和离线的 SMT 模式。NMT 指神经机器翻译,是以神经网络为基础,以句子为单位进行整体翻译的方法,是当下的最佳模型(state-of-the-art model),然而神经网络模型通常规模庞大,需要大量计算资源,因此只能部署在云端。SMT 以词和短语为单位进行翻译,是 NMT 出现前的上一代最佳模型,主要依赖于对大量语料进行统计找出规律,SMT 模型相比于 NMT 模型规模较小,能够保存在本地,以 Microsoft Translator 的 iOS 版本为例,一个简体中文离线包的大小是 205MB。而为华为特别开发的这一款 Microsoft Translator 的特别之处就在于,其文本翻译和图像翻译模式均采用了离线的神经机器翻译模型。这一原先仅仅能通过微软 Cognitive Services API 调用的,部署在微软云上的神经机器翻译系统,采用了惯用的多层 LSTM 编码器、注意力(attention)算法和解码器组成的系统。图:LSTM 编码器 + 注意力模型 + 解码器系统演示这类复杂的神经网络通常带有数以百万计的参数,每次解码过程需要进行大量的运算,通常都会以云端的 CPU 或 GPU 进行。例如,谷歌翻译利用 GPU 进行推理,有道翻译利用 CPU 进行。而开发一款神经机器翻译系统最大的障碍之一就是推理速度。谷歌和有道的工程师都曾表示,开发的初期阶段,模型虽然准确率很高,但翻译一句话需要 10 秒钟甚至更多。这使得系统完全达不到「可用」的标准。工程师们投入了大量的精力对模型做不影响效果前提下的修改和简化,才让部署在云端处理器上的系统变得可用。而这一次,微软的工程师直接将这个原本难倒了大型 CPU 和 GPU 的模型放在了移动端芯片里。微软将模型中最耗费计算资源的 LSTM 编码器用深层前馈神经网络(deep feed-forward neural network)替代,转换为大量低运算难度的可并行计算,充分利用华为 NPU 能够进行大规模并行计算的特点,让 NPU 在神经网络的每一层中同时计算神经元的原始输出和经过 ReLU 激活函数的非线性输出,由于 NPU 有充足的高速存储空间,这些计算可以免受 CPU 与 NPU 间数据交换的延迟,直接并行得到结果。图:替代后的翻译模型搭载于最新的 Mate 10 系列上的麒麟 970 芯片及其内置的 AI 专用处理单元 NPU,是华为第一次在移动设备的层面上把机器学习硬件计算加速能力叠加进芯片中去,也让 Mate 10 成为全世界的消费者拿到的第一款有专用于进行人工智能方面计算的处理单元的手机。黄学东表示,从手机 CPU 到 NPU 有接近 300% 的计算加速,正是这个加速让神经网络在终端设备上的离线推理越过了阈值,从不可能变成可能。以前在 CPU 时代,离线操作就要承受巨大的性能损失,而在线服务就无法脱离开对网络的依赖。尤其是翻译这样一项服务,很多应用场景都并没有稳定的网络支持,是需要有强大的离线功能存在的。而华为手机的用户大多为商务人士,很多应用场景都在国外,网络条件并不能得到保障,离线功能可以说是必不可少。因此微软的工程师联合华为的工程师,对现有的神经翻译模型进行了层数、模型结构、工程实现方法等多方面优化,能够在大幅减小所需运算量的情况下让离线模型效果可以媲美在线模型,「大家应该感觉不出来二者的差距」,黄学东说。同时也研究了如何更好地同时使用 NPU 与 CPU :利用 NPU 完成推理工作,利用 CPU 辅助程序所需的其他操作。而选择了神经机器翻译作「第一个吃螃蟹的 AI」,则主要是出于两个考量,一是翻译是一个痛点十分明确的需求,二是神经机器翻译模型的简化和提速相比于语音模型更容易。黄学东十分看好神经网络处理单元在移动端的前景:「未来会有更多手机有神经网络处理单元,例如苹果 iPhone X 需要做面部识别解锁,就一定需要手机具有离线运行深度神经网络的能力。另外 iPhone X 的照相功能中的三维打光,也需要进行大量的计算。未来这样的需求会越来越多,因此专门的处理单元是很必要的。」而对于微软来说,下一步可能会研发在线与离线相结合的混合系统,能够在网络条件好的时候自动调用性能更好的在线模型,在网络条件不足以支持的时候进行离线推理。这对于微软以 Cognitive Service 为代表的云服务是一个很自然的拓展,增加了终端的适用性。同时微软的 PowerPoint 实时翻译功能也能够在华为手机上使用,能在演讲中、课堂上提供实时的帮助。演讲者在台上进行演讲的同时,PowerPoint 的自动翻译插件会识别语音、转换为文本,并可以进行超过 60 种语言的同传。台下的每个人都可以在自己的手机上获得自己需要的语言的翻译。」「我们最终的目标是去掉语言障碍。」黄学东说,「We want to bring people together. 当年我带着美式英文的底子去爱丁堡大学留学,很是为教授的苏格兰口音英语吃了一些苦头。如果现在的爱丁堡大学的教授下载了 Presentation Translator,而每一位留学生的手里有一部华为 Mate 10 手机,他们就不必经受我当年的痛苦了。希望通过这次与华为合作,能够帮助更多用户打破语言障碍。」最后,让我们通过一组截图感受一下 NPU 与神经网络的强大之处。以下全部截图来自华为 Mate 10 Pro。主屏界面:可以看到有文本、图像、语音和对话四种翻译模式,用图标代替文字说明也体现了「消除语言障碍」的目标。文本翻译模式英翻中:我们选择了一段机器之心对 Christopher Manning 的专访文章的开篇:「Deep Learning waves have lapped at the shores of computational linguistics for several years now. but 2015 seems like the year when the full force of the tsunami hit the major Natural Language Processing(NLP) conferences.」Two years ago, Christopher Manning began his speech on ACL2015 this way. 复制完文档内容后,打开 Microsoft Translator,可以看到屏幕右侧有黏贴快捷方式。粘贴后不到一秒翻译完成,效果如下:你可以用全屏模式展示给他人:或双击复制内容:或用其他方式分享:图像翻译模式中翻英:这里主要测试 OCR 模型的识别能力、准确度,以及翻译速度与精度。我们截取了一段本文中的内容:应用在不到一秒的时间里完成了 OCR 文本识别和翻译两项工作。可以看出,该系统准确翻译了自然语言处理(natural language processing),神经网络(neural network)等专有名词,并能够主动调整句式,将「包括英文、中文在内的超过 60 种语言的互译」翻译为「translation of more than 60 languages, including English, Chinese, etc.」。图像识别英翻中:我们采用了两张 Christopher Manning 的演讲幻灯片作为样本:可以看到幻灯片右下角,连人眼很难看清的标识版权的蝇头小字都被 OCR 捕捉到。它也能自动区分哪些是专有名词与缩写,采用原文而不翻译。目前看来,华为 Mate 10 系列上搭载的第一款移动端神经网络应用的效果很棒,相信随着开发者的跟进,我们很快就会看到人工智能芯片驱动的更多 AI 新应用。
【云周刊】第155期:助APP尽情“撒币”,直播答题背后的技术实现难度究竟几何?
本期头条
助APP尽情“撒币”,直播答题背后的技术实现难度究竟几何?
2018刚刚开年,直播答题迅速抢占各大新闻版面,以映客芝士超人等为代表的直播问答平台,凭借较低的获客成本、极高的客户参与度成为了全新的获客、促活、盈利模式。那么看似简单的直播问答,到底技术实现的难度如何呢?超高互动下的百万级高并发、实时同步的推题效果实现起来是否复杂呢?点击查看。
8场云栖大会、10场在线技术峰会、200余场在线分享,千余份技术干货大盘点
燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!
阿里巴巴布局自动驾驶技术,夺道路场景分割技术三项世界第一
曾鸣:未来10年,在潮中戏水还是被大浪抛弃?| 阿里内部干货
阿里资深专家杭特撰文:《十余年目睹国内安全之“怪现状 ”》
阿里RocketMQ是怎样孵化成Apache顶级项目的?
阿里云弹性高性能计算产品商业化正式发布
阿里测试环境运维及研发效率提升之道
构建文件存储竞争力,阿里云宣布同时支持NFS和SMB协议
一副漫画解读阿里云无线网络体系产品:云AP
【友盟+】参与问卷即可获赠天猫超市优惠券,更有20万份开年礼等你来拿!
【2018开年知识盛会】15位大咖直播分享,全方位解析NoSQL数据库
【火热报名】云栖社区招聘各类运营,一起在风口上飞起来
技术干货
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能,点击查看。
【再论深度学习必死】马库斯回应14大质疑,重申深度学习怀疑论
专题解读 |「知识图谱」领域近期值得读的 6 篇顶会论文
基于容器技术的阿里云区块链优势和实现方法
Java调用C/C++实现的DLL动态库——JNI
回顾2017,容器圈热闹的一年
【干货集锦】图解阿里云网络产品
社区活动
【坐标杭州】阿里云API创新应用大赛
第一届
API 大赛,阿里云践行了狭义的 API 经济。第一赛段出现了智能识别植物花卉、智能车辆识别、文档转长图片鉴黄等优秀的 API
服务,现已成为阿里云 API 市场的合作伙伴。第二赛段涌现了很多基于 API 服务的优秀解决方案作品。本次大赛在广义 API
经济的背景下,邀请广大参赛者通过 API 串联产品和服务,来做自己的应用创新。为什么是狭义的?广义的 API 经济不只是 API
即服务、即数据、即工具,API 作为云时代的红细胞,更大的作用体现在系统对接、应用串联、服务串联上。开发者、高校师生(个人或团队)均可报名参加!点击报名。
【阿里云 MVP Meetup】1月20日,如何使用Elasticsearch进行智能运维
【坐标上海】1月23日,云栖·创峰会---企业服务智能化专场(上海站)
【坐标武汉】1月25日,云栖·创峰会---内容创业专场(武汉站)
独家视频
【创业在路上】编剧模式创新发展,创意星球希望未来编剧有更大的话语权!
海岩也曾用一句话道出编剧的尴尬处境,“不要说导演和演员,编剧现在连一些技术人员都不如。”世人看到的是电视剧产量不断攀高,收视不断破纪录,大腕们的片酬越来越高,却不知道无名编剧们的生存状态,稿酬、署名、宣传机会这些听上去理所当然的东西,对编剧圈很多年轻人来说显得尤为艰难。创业星球希望在编剧和制片方之间搭一个桥梁,让他们能够找到互相需要的资源,并邀请国内一流的影视方面的律师团队,为他们做这个法律方面的服务。他们希望能帮助年轻编剧成长,让编剧有更大的话语权,点击查看。
【创业在路上】老顽童创“玩童”,不只是桌游更是情怀!
【创业在路上】工业4.0, 他用软件重新定义世界
【创业在路上】妄想照进现实,视频之后迎来VR/AR/MR时代?
【资本说】无data不AI,创变时代的投资思维!
精彩直播
【2018开年知识盛会】15位大咖直播分享,全方位解析NoSQL数据库
2018年开年伊始,阿里云数据库团队将为大家带来一场别开生面的知识盛会,15位大咖汇聚云栖社区,带来18小时数据库干货分享!此次《Redis、MongoDB、HBase大咖直播大讲堂》技术直播峰会将由阿里云Redis、MongoDB、HBase的15位技术专家、产品专家给大家带来深度的技术及产品分享。主要板块包括1月17号的北京产品发布会、1月19号、23号、25号的系列直播技术大讲堂,阿里云数据库团队将线下线上结合,全方位给大家解读NoSQL产品家族,技术迷们千万不要错过!点击报名。
【在线直播】2018数据库直播大讲堂峰会-Redis专场
【在线直播】2018数据库直播大讲堂峰会-MongoDB专场
【在线直播】2018数据库直播大讲堂峰会-HBase专场
聚能聊
现在AI的阅读理解做的都比人类好了,它能用在那些方面呢?
在斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)评测中,阿里巴巴iDST-NLP团队的SLQA模型位列榜首。阿里巴巴机器阅读理解精确匹配为82.44%,人类精确匹配为82.30%。负责SQuAD挑战赛的负责人斯坦福大学 Pranav Rajpurkar在推特发文称,这是强势开局,2018年第一个模型(SLQA+)在精确匹配上超越了人类水平,下一个目标就是要在模糊匹配上超越人类现在领先的2.5分。大家是否了解NLP,它都有那些主要的应用场景?畅想一下,超越人类的阅读理解AI都能够用在那些方面,有那些应用场景?大家觉得未来除了阅读理解,未来还有那些方面AI会超过人?点击查看。
云计算怎样能助力APP尽情“撒币”?
杭州地铁全线上线支付宝刷码乘车,你还会用零钱或银行卡买票吗?
人工智能的时代,开发者如何获利?
年终快来学习加薪必杀技
区块链+软件开发?除了 比特币,你还能想起来干嘛?
论坛精选
【漏洞公告】微软“周二补丁日”---2018年01月
本次安全公告涉及56个新的漏洞,其中16个评级为重要,39个评级为重要,1个评级为中等。 这些漏洞影响ASP.NET,Edge,Internet Explorer,Office,Windows等微软产品,点击查看。
不用答题分福利,优惠19元得三大电商域名!
解决方案 :"1月11日ECS Linux系统安装源(yum/deb/apt等)服务暂停与升级"
window 2008 R2 提示副本不是正版,需要激活
福利再次来袭------.CN域名批量注册13元/首年!
读书推荐
《程序化广告实战》一 导读
虽然这几年程序化广告在数字营销领域高速发展,但是大家对于程序化广告的演变、行业现状等方面的认知仍然不够深入。这一方面是因为程序化广告相对于其他推广方式,涉及的概念、方法论、参与方更为复杂;另一方面,目前市面上没有一本面向营销从业者的主讲程序化广告业务实践类的书籍问世,大家只能从网上的一些文章中零散地了解程序化广告。但是,由此得出的很多信息已被多方渲染加工过了,很可能混杂了一定的水分。本书面向的主要受众是整个互联网行业中的媒体方、中间方、广告主等程序化广告行业上下游执行及决策层面的各类人群,以及对互联网商业变现感兴趣的人,点击查看。
《OpenACC并行程序设计:性能优化实践指南》一 导读
《构建实时机器学习系统》一 导读
《计算机视觉:模型、学习和推理》一导读
产品特惠
【限时75折】轻量应用服务器 限时75折
【0元购】钉钉智能前台:人脸识别考勤机M2,轻松实现多人、远距离、毫秒级人脸识别
【0门槛上云】阿里云免费套餐,40+核心产品,6个月免费使用
【全民云计算】低门槛上云捷径
【全面上新】大数据产品全面上新,DataV/QBI/OCR升级来袭