复盘|香侬科技:“云”上成长新范式

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 自然语言处理(NLP)的历史,几乎跟计算机科学一样久远。直到深度神经网络的出现,才从根本上改变了自然语言处理的发展周期,也一度给人工智能由弱到强、由窄变宽的变革趋势注入了一针“强心剂”。如今,智能搜索与推荐、智能问答系统、语义分析、机器翻译等自然语言处理核心技术早已走出实验室,应用于互联网、金融等诸多行业。在过往的研发中,香侬科技与阿里云团队无数次“碰撞”,逐渐找到了解决自然语言处理在开发、部署、交付等环节中对底层云资源的依赖和如何优化调度。凭借在科研和应用上的领先性,短短几年内香侬科技就崭露头角。

2017年前后,自然语言处理(NLP)领域,一场巨变正悄然来临。

 

在此之前,NLP核心技术研究已经历经长期的积淀,在深度神经网络加持下,出现了以Word2vecGloVe为代表的语言模型。

 

而预训练模型在ImageNet数据集任务上的出色表现,给机器视觉领域发展带来了极大的震撼:NLP能不能像机器视觉一样完成预训练并迁移学习?

 

Transformer模型正是发迹于此时。与注意力机制的结合,Transformer一举解决了原有循环神经网络(RNN)无法理解上下文的问题,后来业内知名的预训练模型ELMOBERTGPT-3以及再往后掀起的大模型浪潮,基本都受到了Transformer的影响。

 

这一系列突破,解锁了很多真实的应用场景,也让研发人员看到了NLP落地的更多可能性。2018年,香侬科技成立了。

 

主动上云,从虚拟机到GPU的探索

 

从海量的二级市场数据中挖掘对投资人与投资机构价格波动时,上市公司公告、卖方机构的研报、证监会公告、股票市场的财务信息、社交网络实时数据、专业数据库有大量的非结构化数据。如何找到新闻和股价之间的关联性分析,这需要掌握AI技术。

 

香侬科技就是一家长期专注于机器学习、自然语言处理、高性能计算等人工智能核心技术的公司,并且除了金融信息服务,在教育、航天、政务、司法等领域也有落地。

 

创立之初,香侬科技就明确一点:要保持技术领先,真实接触业务场景,实打实地把算法应用到业务领域里。

 

从数据切入,从数据采集、数据标注做起,到模型训练和最终服务的上线,完整参与整个过程。数据是属于客户的,但对于我们而言,这种方式能够让我们基于最天然的数据进行训练,得到的模型适配性会非常强。香侬科技CTO王思宽回答道。

 

NLP并不是一个独立的技术领域,需要有云计算、大数据、机器学习、知识图谱等方面的支撑。这也让香侬科技一开始就主动选择上云用数的路径。

 

第一站,香侬科技把业务放到了阿里云上,没有自己投入搭建物理机房。

 

这种方式的好处显而易见:不单是来自整体运维成本的降低,还有规模化后效率和业务稳定性带来的长期收益。2020年疫情以来,倒逼更多企业认真思考并落实数字化,从应用云上服务到将核心/全量业务迁移到云上,打开方式不同,云上生长的香侬科技很大程度上避免了企业系统迁移、数据迁移等诸多不必要麻烦,让这家年轻的企业可以轻装上阵。

 

20185月,香侬科技购买了阿里云第一台虚拟机,搭建第一个Demo原型起,四年总计使用了阿里云十多款产品支持核心业务系统,覆盖IaaS层的计算、存储、网络、CDNPaaS层的数据库、大数据等,再到云通信、流量、CDN等产品。选择阿里云,是最简单也是最正确的一个选择。香侬科技的技术负责人说道。

 

今年,香侬科技就给阿里云方面提出了一个非常具体的算力需求:一张GPU显卡成本较高,训练存在浪费。我们要不试着合作探索下,提高对GPU的利用率?

 

GPU算力满额意味着可以将计算资源100%利用起来,但也有很多时候,训练任务比较小对算力要求不高,却也得占用一张卡,这导致GPU使用率就会比较低。

 

其实不只是香侬科技,对很多使用GPU训练AI模型的企业来讲,GPU利用率不高是长期以来的困惑。

 

阿里云很快给出了初步解决方案:在GPU虚拟化过程中,训练任务进行切换时,可以试着对驱动层代码进行尽可能少的改动。这个策略不仅将GPU实例更高效地利用起来,还能减少开发投入的工作量。

 

香侬科技选择阿里云,实际上也结合了自身发展的长期战略。对于这类新兴领域的初创公司,核心是要将精力投入在业务上,不断创新和迭代,时间和效率是第一位。如果比别人慢一步,很可能在市场占有率上比不过友商。所以任何一个需求不仅仅是自己能够快速实现,也希望技术伙伴能够快速响应。吴国钊表示。

 

对高ROI技术的迫切追求

 

作为一家技术驱动型企业,任何能够降低机器学习模型训练成本、提高AI落地效率的关键因子,都会成为企业关注的热点,这也致使其势必对技术趋势要有足够的判断力。

 

2018年,香侬科技开始构建起了基于K8S开源版本的容器集群。当时的K8S容器编排技术,已经成为业内开源容器应用的事实标准。

 

20206月,香侬科技的智能文本处理产品火龙果写作上线,不到一年时间,注册用户实现了1500%的高速增长。随着业务场景逐年增长,给原先自建的容器集群带来了一个难以克服的问题:在不影响业务稳定的前提下,升级K8S版本是一项非常困难的工作。

 

由于K8S涉及的技术难点非常多,依赖的开源组件也十分庞杂,同时还需要有一定的运维人员进行维护。如果要迭代开源组件,将不可避免会对业务平稳性带来影响,但如果不迭代,很多开源社区的能力和技术优势根本无法享受到。

 

一个深坑就摆在眼前:从2018年到2020年,香侬科技所使用的K8S基本没有经过版本升级。团队自然而然就思考到了一个问题:究竟是继续使用自建K8S,还是切换到阿里云的容器服务ACK上?

 

经过一番对比和试用后,他们发现,阿里云ACK容器服务除了能够解决版本升级的问题外,还能一键检查升级的依赖项,在平滑升级的同时,无需做任何额外操作,对业务的影响也能降到最小。相比过去自建K8S升级可能需要级别时间,阿里云容器服务只需按小时级别即可。

 

为此在后续交付中,阿里云还考虑了底层资源包括单个的Docker节点、POD(代表节点上一个或多个容器的管理单元)的自主性,以及上层业务的可观测性能力。这一举动实际为香侬科技进一步加强对容器技术栈的理解,或者基于阿里云AKS进行自主改造提供了窗口。

 

此次香侬科技在容器服务上与阿里云的合作,看似只解决了时下AI任务在容器集群运维层面临的痛点问题,实际却为后来香侬科技搭上阿里云成长的二级引擎奠定了基础。

 

面向持续且大量的人工神经网络计算的深度学习场景,香侬科技使用了阿里云推荐的GPU实例及AMD实例;搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排的支持,香侬科技快速在云端搭建了完整的AI深度学习业务系统。

 

在阿里云上找答案

 

2019年,香侬科技提出了基于汉字字形的中文语义理解模型Glyce,首次成功将汉字象形字的特点用于所有中文NLP任务,一举刷新了十余项世界纪录。在2021年的ACL全球顶级人工智能学术会议上,香侬科技又提出ChineseBERT,在Glyce的基础上进一步结合拼音信息,作为首个融合字形与拼音信息的中文大规模预训练模型,再次刷新诸多任务纪录。2022年,香侬科技与浙江大学、新加坡南洋理工大学等单位合作提出基于图神经网络的语义理解模型GNN-LM拿到了ICLR顶会单项评审满分。

 

在以中文语言理解为核心的产品研发与前沿基础技术创新上,香侬科技的实力有目共睹。2022年,香侬科技及其创始人李纪为,分别入选了“AI2000榜单”NLP子领域的最具影响力机构和最具影响力学者榜单,是该榜单中唯一的中国代表。李纪为曾对下一代人工智能有这样的洞察:目前我们还处在技术的窄域时代,人工智能在我们规定的内容里面,进行舒展、布局与润色。但是未来的某一天,我们终将会突破窄域,进入宽域时代

 

当然,这背后所依托的始终是算力、算法、数据这三个层面的突破,即算力跟得上、算法做创新、数据量足够大。但作为解决NLP诸多问题的基本范式——大规模预训练模型的到来,也让语言模型进入巨量时代。以OpenAI提出的GPT-3模型为例,其参数量达到1750亿。这意味着,尽管大模型有效提升了AI任务的训练效果,但同时对底层计算和存储资源都提出了巨大挑战,如计算资源消耗过大、训练时间过长,同时还需要软硬件基础设施作为支撑而不断优化。有人曾计算过,用一块非常先进的英伟达GPU训练GPT-3,大概需要100年。

 

在大规模数据集上进行预训练,训练成本急剧攀升,这也是为什么香侬科技最近也在跟阿里云探索如何提升GPU计算资源利用率的缘故。此外,香侬科技也表达出,希望接下来能够联合国内高校及生态合作企业,尝试将计算扩展到多个GPU,在分布式训练上有所突破。

 

另一方面,香侬科技提供的NLP技术,也应用于诸多金融场景,如利用知识抽取技术,为银行、保险、基金券商提供金融知识图谱与风险监控、金融领域信息搜索与问答等服务。但在真实的金融场景中,企业对安全要求极高,这导致训练样本数据并不高,多依赖于专家经验,如果某些金融机构很难负担大规模的算力集群,大模型反倒不会很适用。

 

在实际应用场景中,只有大规模预训练模型是不够的,需要与领域知识紧密融合,才能解决实际问题。李纪为指出。例如,可研发知识驱动的预训练模型,在预训练模型中融入领域知识、逻辑、结构化数据,进行混合训练,从而将大规模预训练模型的小样本学习与迁移学习能力拓展到应用领域中。这也促使如今的NLP创业者开始反思:不盲目追求大模型,也不盲目追求一两个性能点的提升。在具体场景中少量性能的提升,也可以替换为其他方案,如加强数据生产的标准化、算法平台的全流程化等等。

 

在伴随香侬科技成长的这几年,阿里云在关注中小企业方面也在潜移默化发生着变化。从数字化转型、数据智能、中台、云钉一体……阿里云开始不断对外输出观点,将云计算基础设施化,使计算资源成为一项通用服务变得可行,让每家创新企业从诞生之日起就在阿里云上,塑造符合自身业务特征的成长引擎。

 

在这一点上,香侬科技在阿里云上的成长范式,正为未来越来越多的AI领域创新独角兽们带来新的路径选择。



本文摘自《云栖战略参考》2022第四期,订阅数字化转型双月刊《云栖战略参考》请扫码(或填写下方链接),工作人员会在审核后为您寄出

https://survey.aliyun.com/apps/zhiliao/xsTiZ4YaM

杂志订阅海报-定稿.png

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
22天前
从零到一:技术创新的个人感悟###
【10月更文挑战第20天】 在技术探索的征途中,每一步跨越都如同在浩瀚宇宙中点亮一颗新星,既照亮了未知的边界,也映照出自我成长的轨迹。本文旨在分享一段从技术小白到创新实践者的心路历程,探讨技术背后的本质、内涵与意义,以及这一过程中对人生哲理的深刻理解。通过亲身经历,展现技术创新如何成为推动个人成长与实现自我价值的桥梁。 ###
37 5
|
27天前
|
机器学习/深度学习 人工智能 算法
从零到一:技术创新与思维跃迁的旅程###
在技术探索的浩瀚星海里,每一次创新都是对未知领域的勇敢征服。本文通过个人实践经历,分享了从初涉技术领域的迷茫与挑战,到实现关键技术突破的心路历程。强调了持续学习、跨界融合及勇于试错的重要性,揭示了在技术革新背后,是思维方式的根本转变和不懈追求。 ###
|
6月前
|
算法 测试技术 项目管理
阿里十年总结之软件测试的价值
本文是作者十几年工作经验的总结,也对“软件测试的价值”做个探讨,希望有机会跟团队一起走出当前的周期。
|
存储 云安全 人工智能
有多难?直击传统行业的“云上再创业”之路
有多难?直击传统行业的“云上再创业”之路
610 0
有多难?直击传统行业的“云上再创业”之路
|
消息中间件 运维 架构师
架构师成长之路:如何提升技术掌控力?
在很多人眼里,架构师就犹如古代的将军一般,既能运筹帷幄决胜千里,又能独闯敌营取人首级,是所有士兵们崇拜的偶像...好了,其实我只是想说:能成为一名优秀的架构师,确实是所有工程师的梦想。那么,架构师应该具备什么能力呢?
2592 0
架构师成长之路:如何提升技术掌控力?
|
存储 弹性计算 Kubernetes
罗辑思维跨年演讲护航案例
在不到三个月的时间内,我们和阿里云PTS团队、阿里云服务团队一共进行了大大小小约七百次的单链路压测、十六轮完整形态全链路压测,压测所耗费的资源相当于一百多万用户一同测试两个多小时,有效保障了跨年活动和日常核心服务的稳定性和健壮性。
2850 1
|
Web App开发 移动开发 供应链
铁军:保持成长动力,与技术、业务、团队共成长
对于前端的成长我认为首要的是自身成长的内在动力,其次是伴随技术业务团队共同成长,不忘初心、保持空杯、梦想前行。
铁军:保持成长动力,与技术、业务、团队共成长
|
云安全 安全 网络安全
金融安全资讯精选 2017年第一期:云战略下的安全思维转型与新认知
Clutch云安全调查发布,Necurs僵尸网络攻击美国金融机构,账户盗用威胁加剧,英国60%的金融和保险机构将网络安全设为高优先级,阿里云安全负责人肖力谈企业安全的四个“新认知”
5446 0
|
机器学习/深度学习 大数据 数据处理
专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验
今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在实时数据处理技术以及超大规模的离线数据处理两方面,来自阿里巴巴的资深技术专家林伟将为大家介绍双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
15114 0
|
关系型数据库 MySQL 数据库
褚霸:阿里开源四部曲,从拥抱到回报
6月24日至25日,“第十一届开源中国开源世界高峰论坛”在北京成功召开。阿里云研究员余锋 (花名:褚霸)受邀参加了本次活动,褚霸代表阿里巴巴集团为大家介绍了阿里巴巴与开源的故事。阿里巴巴与开源的关系,褚霸总结为四个阶段,分别是拥抱开源、回馈开源、融合开源和回报开源四个阶段。
8250 0