复盘|香侬科技:“云”上成长新范式

简介: 自然语言处理(NLP)的历史,几乎跟计算机科学一样久远。直到深度神经网络的出现,才从根本上改变了自然语言处理的发展周期,也一度给人工智能由弱到强、由窄变宽的变革趋势注入了一针“强心剂”。如今,智能搜索与推荐、智能问答系统、语义分析、机器翻译等自然语言处理核心技术早已走出实验室,应用于互联网、金融等诸多行业。在过往的研发中,香侬科技与阿里云团队无数次“碰撞”,逐渐找到了解决自然语言处理在开发、部署、交付等环节中对底层云资源的依赖和如何优化调度。凭借在科研和应用上的领先性,短短几年内香侬科技就崭露头角。

2017年前后,自然语言处理(NLP)领域,一场巨变正悄然来临。

 

在此之前,NLP核心技术研究已经历经长期的积淀,在深度神经网络加持下,出现了以Word2vecGloVe为代表的语言模型。

 

而预训练模型在ImageNet数据集任务上的出色表现,给机器视觉领域发展带来了极大的震撼:NLP能不能像机器视觉一样完成预训练并迁移学习?

 

Transformer模型正是发迹于此时。与注意力机制的结合,Transformer一举解决了原有循环神经网络(RNN)无法理解上下文的问题,后来业内知名的预训练模型ELMOBERTGPT-3以及再往后掀起的大模型浪潮,基本都受到了Transformer的影响。

 

这一系列突破,解锁了很多真实的应用场景,也让研发人员看到了NLP落地的更多可能性。2018年,香侬科技成立了。

 

主动上云,从虚拟机到GPU的探索

 

从海量的二级市场数据中挖掘对投资人与投资机构价格波动时,上市公司公告、卖方机构的研报、证监会公告、股票市场的财务信息、社交网络实时数据、专业数据库有大量的非结构化数据。如何找到新闻和股价之间的关联性分析,这需要掌握AI技术。

 

香侬科技就是一家长期专注于机器学习、自然语言处理、高性能计算等人工智能核心技术的公司,并且除了金融信息服务,在教育、航天、政务、司法等领域也有落地。

 

创立之初,香侬科技就明确一点:要保持技术领先,真实接触业务场景,实打实地把算法应用到业务领域里。

 

从数据切入,从数据采集、数据标注做起,到模型训练和最终服务的上线,完整参与整个过程。数据是属于客户的,但对于我们而言,这种方式能够让我们基于最天然的数据进行训练,得到的模型适配性会非常强。香侬科技CTO王思宽回答道。

 

NLP并不是一个独立的技术领域,需要有云计算、大数据、机器学习、知识图谱等方面的支撑。这也让香侬科技一开始就主动选择上云用数的路径。

 

第一站,香侬科技把业务放到了阿里云上,没有自己投入搭建物理机房。

 

这种方式的好处显而易见:不单是来自整体运维成本的降低,还有规模化后效率和业务稳定性带来的长期收益。2020年疫情以来,倒逼更多企业认真思考并落实数字化,从应用云上服务到将核心/全量业务迁移到云上,打开方式不同,云上生长的香侬科技很大程度上避免了企业系统迁移、数据迁移等诸多不必要麻烦,让这家年轻的企业可以轻装上阵。

 

20185月,香侬科技购买了阿里云第一台虚拟机,搭建第一个Demo原型起,四年总计使用了阿里云十多款产品支持核心业务系统,覆盖IaaS层的计算、存储、网络、CDNPaaS层的数据库、大数据等,再到云通信、流量、CDN等产品。选择阿里云,是最简单也是最正确的一个选择。香侬科技的技术负责人说道。

 

今年,香侬科技就给阿里云方面提出了一个非常具体的算力需求:一张GPU显卡成本较高,训练存在浪费。我们要不试着合作探索下,提高对GPU的利用率?

 

GPU算力满额意味着可以将计算资源100%利用起来,但也有很多时候,训练任务比较小对算力要求不高,却也得占用一张卡,这导致GPU使用率就会比较低。

 

其实不只是香侬科技,对很多使用GPU训练AI模型的企业来讲,GPU利用率不高是长期以来的困惑。

 

阿里云很快给出了初步解决方案:在GPU虚拟化过程中,训练任务进行切换时,可以试着对驱动层代码进行尽可能少的改动。这个策略不仅将GPU实例更高效地利用起来,还能减少开发投入的工作量。

 

香侬科技选择阿里云,实际上也结合了自身发展的长期战略。对于这类新兴领域的初创公司,核心是要将精力投入在业务上,不断创新和迭代,时间和效率是第一位。如果比别人慢一步,很可能在市场占有率上比不过友商。所以任何一个需求不仅仅是自己能够快速实现,也希望技术伙伴能够快速响应。吴国钊表示。

 

对高ROI技术的迫切追求

 

作为一家技术驱动型企业,任何能够降低机器学习模型训练成本、提高AI落地效率的关键因子,都会成为企业关注的热点,这也致使其势必对技术趋势要有足够的判断力。

 

2018年,香侬科技开始构建起了基于K8S开源版本的容器集群。当时的K8S容器编排技术,已经成为业内开源容器应用的事实标准。

 

20206月,香侬科技的智能文本处理产品火龙果写作上线,不到一年时间,注册用户实现了1500%的高速增长。随着业务场景逐年增长,给原先自建的容器集群带来了一个难以克服的问题:在不影响业务稳定的前提下,升级K8S版本是一项非常困难的工作。

 

由于K8S涉及的技术难点非常多,依赖的开源组件也十分庞杂,同时还需要有一定的运维人员进行维护。如果要迭代开源组件,将不可避免会对业务平稳性带来影响,但如果不迭代,很多开源社区的能力和技术优势根本无法享受到。

 

一个深坑就摆在眼前:从2018年到2020年,香侬科技所使用的K8S基本没有经过版本升级。团队自然而然就思考到了一个问题:究竟是继续使用自建K8S,还是切换到阿里云的容器服务ACK上?

 

经过一番对比和试用后,他们发现,阿里云ACK容器服务除了能够解决版本升级的问题外,还能一键检查升级的依赖项,在平滑升级的同时,无需做任何额外操作,对业务的影响也能降到最小。相比过去自建K8S升级可能需要级别时间,阿里云容器服务只需按小时级别即可。

 

为此在后续交付中,阿里云还考虑了底层资源包括单个的Docker节点、POD(代表节点上一个或多个容器的管理单元)的自主性,以及上层业务的可观测性能力。这一举动实际为香侬科技进一步加强对容器技术栈的理解,或者基于阿里云AKS进行自主改造提供了窗口。

 

此次香侬科技在容器服务上与阿里云的合作,看似只解决了时下AI任务在容器集群运维层面临的痛点问题,实际却为后来香侬科技搭上阿里云成长的二级引擎奠定了基础。

 

面向持续且大量的人工神经网络计算的深度学习场景,香侬科技使用了阿里云推荐的GPU实例及AMD实例;搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排的支持,香侬科技快速在云端搭建了完整的AI深度学习业务系统。

 

在阿里云上找答案

 

2019年,香侬科技提出了基于汉字字形的中文语义理解模型Glyce,首次成功将汉字象形字的特点用于所有中文NLP任务,一举刷新了十余项世界纪录。在2021年的ACL全球顶级人工智能学术会议上,香侬科技又提出ChineseBERT,在Glyce的基础上进一步结合拼音信息,作为首个融合字形与拼音信息的中文大规模预训练模型,再次刷新诸多任务纪录。2022年,香侬科技与浙江大学、新加坡南洋理工大学等单位合作提出基于图神经网络的语义理解模型GNN-LM拿到了ICLR顶会单项评审满分。

 

在以中文语言理解为核心的产品研发与前沿基础技术创新上,香侬科技的实力有目共睹。2022年,香侬科技及其创始人李纪为,分别入选了“AI2000榜单”NLP子领域的最具影响力机构和最具影响力学者榜单,是该榜单中唯一的中国代表。李纪为曾对下一代人工智能有这样的洞察:目前我们还处在技术的窄域时代,人工智能在我们规定的内容里面,进行舒展、布局与润色。但是未来的某一天,我们终将会突破窄域,进入宽域时代

 

当然,这背后所依托的始终是算力、算法、数据这三个层面的突破,即算力跟得上、算法做创新、数据量足够大。但作为解决NLP诸多问题的基本范式——大规模预训练模型的到来,也让语言模型进入巨量时代。以OpenAI提出的GPT-3模型为例,其参数量达到1750亿。这意味着,尽管大模型有效提升了AI任务的训练效果,但同时对底层计算和存储资源都提出了巨大挑战,如计算资源消耗过大、训练时间过长,同时还需要软硬件基础设施作为支撑而不断优化。有人曾计算过,用一块非常先进的英伟达GPU训练GPT-3,大概需要100年。

 

在大规模数据集上进行预训练,训练成本急剧攀升,这也是为什么香侬科技最近也在跟阿里云探索如何提升GPU计算资源利用率的缘故。此外,香侬科技也表达出,希望接下来能够联合国内高校及生态合作企业,尝试将计算扩展到多个GPU,在分布式训练上有所突破。

 

另一方面,香侬科技提供的NLP技术,也应用于诸多金融场景,如利用知识抽取技术,为银行、保险、基金券商提供金融知识图谱与风险监控、金融领域信息搜索与问答等服务。但在真实的金融场景中,企业对安全要求极高,这导致训练样本数据并不高,多依赖于专家经验,如果某些金融机构很难负担大规模的算力集群,大模型反倒不会很适用。

 

在实际应用场景中,只有大规模预训练模型是不够的,需要与领域知识紧密融合,才能解决实际问题。李纪为指出。例如,可研发知识驱动的预训练模型,在预训练模型中融入领域知识、逻辑、结构化数据,进行混合训练,从而将大规模预训练模型的小样本学习与迁移学习能力拓展到应用领域中。这也促使如今的NLP创业者开始反思:不盲目追求大模型,也不盲目追求一两个性能点的提升。在具体场景中少量性能的提升,也可以替换为其他方案,如加强数据生产的标准化、算法平台的全流程化等等。

 

在伴随香侬科技成长的这几年,阿里云在关注中小企业方面也在潜移默化发生着变化。从数字化转型、数据智能、中台、云钉一体……阿里云开始不断对外输出观点,将云计算基础设施化,使计算资源成为一项通用服务变得可行,让每家创新企业从诞生之日起就在阿里云上,塑造符合自身业务特征的成长引擎。

 

在这一点上,香侬科技在阿里云上的成长范式,正为未来越来越多的AI领域创新独角兽们带来新的路径选择。



本文摘自《云栖战略参考》2022第四期,订阅数字化转型双月刊《云栖战略参考》请扫码(或填写下方链接),工作人员会在审核后为您寄出

https://survey.aliyun.com/apps/zhiliao/xsTiZ4YaM

杂志订阅海报-定稿.png

相关实践学习
使用ACS算力快速搭建生成式会话应用
阿里云容器计算服务 ACS(Container Compute Service)以Kubernetes为使用界面,采用Serverless形态提供弹性的算力资源,使您轻松高效运行容器应用。本文将指导您如何通过ACS控制台及ACS集群证书在ACS集群中快速部署并公开一个容器化生成式AI会话应用,并监控应用的运行情况。
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
供应链 数据建模 BI
打开阿里|阿里巴巴数字化的关键时刻
阿里巴巴如何跨越从信息化(IT)到数字化(DT)转型的关键时刻?
2057 0
打开阿里|阿里巴巴数字化的关键时刻
|
数据采集 人工智能 运维
创新场景丨新能源产业升级步入关键期,星星充电以数智探路
基于快速部署、技术创新等因素的考量,星星充电选择创立之初就将业务“长”在云上。自2014年成立以来,一方面通过推出和建设更多类型的充电桩,来满足日益增长的消费者充电需求,为用户打造充电全生命周期平台;另一方面,基于物联网和云计算技术,推出了“云、管、端”的充电桩管理模型,将充电过程智能化和高效化。伴随着人工智能技术的不断成熟,星星充电也在探索如何将人工智能与业务场景深度集成并实现创新。
创新场景丨新能源产业升级步入关键期,星星充电以数智探路
|
人工智能 搜索推荐 算法
智库观察丨超拟人大模型和个性化场景化的AI服务
以情绪价值为核心的超拟人大模型能够使AI 拥有自己的“个性”和“情感”,从而呈现出丰富的立体化“人格”,为用户提供量身定制的AI服务。
智库观察丨超拟人大模型和个性化场景化的AI服务
|
人工智能 运维 云计算
飞天技术观丨开放的Autonomous Cloud,开启AI崭新时代
面向智能时代,阿里云将通过从底层算力到AI平台再到模型服务的全栈技术创新,升级云计算体系,打造一朵AI时代最开放的云。2023年,AI和云计算也终于走在一起,融合出更有生命力的广阔空间。
飞天技术观丨开放的Autonomous Cloud,开启AI崭新时代
|
人工智能 开发框架 Java
智库观察丨让AI智能体释放大模型无限潜能
创新应用的潜力,在于从单体智能到群体智能的跨越,当具有固定交互模式的低智能单体达到一定数量以后,就会使群体涌现超越个体智能的现象。
智库观察丨让AI智能体释放大模型无限潜能
|
人工智能 自然语言处理 文字识别
飞天技术观丨大模型如何真正在应用环节产生价值
大模型揭开了智能时代的序幕,其技术发展日新月异,创新成果不断涌现。可即便如此,最终不可避免地要回答一个问题:大模型如何真正实现商业化应用落地?
飞天技术观丨大模型如何真正在应用环节产生价值
|
运维 Serverless 云计算
飞天技术观|云上开发新范式:Serverless的必然与应然
在2022年云栖大会上宣布核心产品全面Serverless化之前,阿里云在Serverless领域布局已经有六七年积累了,一直在打磨产品,夯实基础;从去年开始,阿里云进入到了Serverless的第二阶段,一路突飞猛进,相对应地,阿里云Serverless产品数量和丰富度都在快速增长,业务规模也在快速增长。
959 1
|
存储 人工智能 自动驾驶
创新场景|云上腾飞的自动驾驶,智能吉利背后藏着什么?
如今的全球化汽车产业竞争中,车企将竞争焦点纷纷聚焦到了智算中心的建设上。
448 2
创新场景|云上腾飞的自动驾驶,智能吉利背后藏着什么?
|
机器学习/深度学习 人工智能 自然语言处理
未来数据观|从大模型到AIGC:人工智能新范式
人工智能经历70余年的探索和发展,如今到了大模型时代并出现现象级AI产品。这不仅是人类研究积累的厚积薄发,也是数字时代下大数据、大模型、大算力发展到了一定阶段的必然结果。在大模型的加持下,AIGC(AI Generated Content,人工智能生成内容)有望助力内容生成跨越新时代,并开启人工智能应用的新浪潮。
1764 1
|
存储 缓存 分布式计算
复盘|吉林医保:新架构解决老问题
阿里云多年经验沉淀总结出的“应缓存尽缓存、应异步尽异步、大表要分库分表、并发平行散开”创新性最佳IT实践,支撑了医保信息化系统的改造。
697 0
复盘|吉林医保:新架构解决老问题