2017年前后,自然语言处理(NLP)领域,一场巨变正悄然来临。
在此之前,NLP核心技术研究已经历经长期的积淀,在深度神经网络加持下,出现了以Word2vec、GloVe为代表的语言模型。
而预训练模型在ImageNet数据集任务上的出色表现,给机器视觉领域发展带来了极大的震撼:NLP能不能像机器视觉一样完成预训练并迁移学习?
Transformer模型正是发迹于此时。与注意力机制的结合,Transformer一举解决了原有循环神经网络(RNN)无法理解上下文的问题,后来业内知名的预训练模型ELMO、BERT、GPT-3以及再往后掀起的大模型浪潮,基本都受到了Transformer的影响。
这一系列突破,解锁了很多真实的应用场景,也让研发人员看到了NLP落地的更多可能性。2018年,香侬科技成立了。
主动上云,从虚拟机到GPU的探索
从海量的二级市场数据中挖掘对投资人与投资机构价格波动时,上市公司公告、卖方机构的研报、证监会公告、股票市场的财务信息、社交网络实时数据、专业数据库有大量的非结构化数据。如何找到新闻和股价之间的关联性分析,这需要掌握AI技术。
香侬科技就是一家长期专注于机器学习、自然语言处理、高性能计算等人工智能核心技术的公司,并且除了金融信息服务,在教育、航天、政务、司法等领域也有落地。
创立之初,香侬科技就明确一点:要保持技术领先,真实接触业务场景,实打实地把算法应用到业务领域里。
“从数据切入,从数据采集、数据标注做起,到模型训练和最终服务的上线,完整参与整个过程。数据是属于客户的,但对于我们而言,这种方式能够让我们基于最天然的数据进行训练,得到的模型适配性会非常强。”香侬科技CTO王思宽回答道。
NLP并不是一个独立的技术领域,需要有云计算、大数据、机器学习、知识图谱等方面的支撑。这也让香侬科技一开始就主动选择“上云用数”的路径。
第一站,香侬科技把业务放到了阿里云上,没有自己投入搭建物理机房。
这种方式的好处显而易见:不单是来自整体运维成本的降低,还有规模化后效率和业务稳定性带来的长期收益。2020年疫情以来,倒逼更多企业认真思考并落实数字化,从应用云上服务到将核心/全量业务迁移到云上,打开方式不同,云上生长的香侬科技很大程度上避免了企业系统迁移、数据迁移等诸多不必要麻烦,让这家年轻的企业可以轻装上阵。
从2018年5月,香侬科技购买了阿里云第一台虚拟机,搭建第一个Demo原型起,四年总计使用了阿里云十多款产品支持核心业务系统,覆盖IaaS层的计算、存储、网络、CDN,PaaS层的数据库、大数据等,再到云通信、流量、CDN等产品。“选择阿里云,是最简单也是最正确的一个选择。”香侬科技的技术负责人说道。
今年,香侬科技就给阿里云方面提出了一个非常具体的算力需求:一张GPU显卡成本较高,训练存在浪费。我们要不试着合作探索下,提高对GPU的利用率?
GPU算力满额意味着可以将计算资源100%利用起来,但也有很多时候,训练任务比较小对算力要求不高,却也得占用一张卡,这导致GPU使用率就会比较低。
其实不只是香侬科技,对很多使用GPU训练AI模型的企业来讲,GPU利用率不高是长期以来的困惑。
阿里云很快给出了初步解决方案:在GPU虚拟化过程中,训练任务进行切换时,可以试着对驱动层代码进行尽可能少的改动。这个策略不仅将GPU实例更高效地利用起来,还能减少开发投入的工作量。
香侬科技选择阿里云,实际上也结合了自身发展的长期战略。“对于这类新兴领域的初创公司,核心是要将精力投入在业务上,不断创新和迭代,时间和效率是第一位。如果比别人慢一步,很可能在市场占有率上比不过友商。所以任何一个需求不仅仅是自己能够快速实现,也希望技术伙伴能够快速响应。”吴国钊表示。
对高ROI技术的迫切追求
作为一家技术驱动型企业,任何能够降低机器学习模型训练成本、提高AI落地效率的关键因子,都会成为企业关注的热点,这也致使其势必对技术趋势要有足够的判断力。
2018年,香侬科技开始构建起了基于K8S开源版本的容器集群。当时的K8S容器编排技术,已经成为业内开源容器应用的事实标准。
2020年6月,香侬科技的智能文本处理产品“火龙果写作”上线,不到一年时间,注册用户实现了1500%的高速增长。随着业务场景逐年增长,给原先自建的容器集群带来了一个难以克服的问题:在不影响业务稳定的前提下,升级K8S版本是一项非常困难的工作。
由于K8S涉及的技术难点非常多,依赖的开源组件也十分庞杂,同时还需要有一定的运维人员进行维护。如果要迭代开源组件,将不可避免会对业务平稳性带来影响,但如果不迭代,很多开源社区的能力和技术优势根本无法享受到。
一个深坑就摆在眼前:从2018年到2020年,香侬科技所使用的K8S基本没有经过版本升级。团队自然而然就思考到了一个问题:究竟是继续使用自建K8S,还是切换到阿里云的容器服务ACK上?
经过一番对比和试用后,他们发现,阿里云ACK容器服务除了能够解决版本升级的问题外,还能一键检查升级的依赖项,在平滑升级的同时,无需做任何额外操作,对业务的影响也能降到最小。相比过去自建K8S升级可能需要“天”级别时间,阿里云容器服务只需按“小时”级别即可。
为此在后续交付中,阿里云还考虑了底层资源包括单个的Docker节点、POD(代表节点上一个或多个容器的管理单元)的自主性,以及上层业务的可观测性能力。这一举动实际为香侬科技进一步加强对容器技术栈的理解,或者基于阿里云AKS进行自主改造提供了窗口。
此次香侬科技在容器服务上与阿里云的合作,看似只解决了时下AI任务在容器集群运维层面临的痛点问题,实际却为后来香侬科技搭上阿里云成长的二级引擎奠定了基础。
面向持续且大量的人工神经网络计算的深度学习场景,香侬科技使用了阿里云推荐的GPU实例及AMD实例;搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排的支持,香侬科技快速在云端搭建了完整的AI深度学习业务系统。
在阿里云上“找答案”
2019年,香侬科技提出了基于汉字字形的中文语义理解模型Glyce,首次成功将汉字象形字的特点用于所有中文NLP任务,一举刷新了十余项世界纪录。在2021年的ACL全球顶级人工智能学术会议上,香侬科技又提出ChineseBERT,在Glyce的基础上进一步结合拼音信息,作为首个融合字形与拼音信息的中文大规模预训练模型,再次刷新诸多任务纪录。2022年,香侬科技与浙江大学、新加坡南洋理工大学等单位合作提出基于图神经网络的语义理解模型GNN-LM拿到了ICLR顶会单项评审满分。
在以中文语言理解为核心的产品研发与前沿基础技术创新上,香侬科技的实力有目共睹。2022年,香侬科技及其创始人李纪为,分别入选了“AI2000榜单”NLP子领域的最具影响力机构和最具影响力学者榜单,是该榜单中唯一的中国代表。李纪为曾对下一代人工智能有这样的洞察:目前我们还处在技术的“窄域时代”,人工智能在我们规定的内容里面,进行舒展、布局与润色。但是未来的某一天,我们终将会突破窄域,进入“宽域时代”。
当然,这背后所依托的始终是算力、算法、数据这三个层面的突破,即算力跟得上、算法做创新、数据量足够大。但作为解决NLP诸多问题的基本范式——大规模预训练模型的到来,也让语言模型进入“巨量”时代。以OpenAI提出的GPT-3模型为例,其参数量达到1750亿。这意味着,尽管大模型有效提升了AI任务的训练效果,但同时对底层计算和存储资源都提出了巨大挑战,如计算资源消耗过大、训练时间过长,同时还需要软硬件基础设施作为支撑而不断优化。有人曾计算过,用一块非常先进的英伟达GPU训练GPT-3,大概需要100年。
在大规模数据集上进行预训练,训练成本急剧攀升,这也是为什么香侬科技最近也在跟阿里云探索如何提升GPU计算资源利用率的缘故。此外,香侬科技也表达出,希望接下来能够联合国内高校及生态合作企业,尝试将计算扩展到多个GPU,在分布式训练上有所突破。
另一方面,香侬科技提供的NLP技术,也应用于诸多金融场景,如利用知识抽取技术,为银行、保险、基金券商提供金融知识图谱与风险监控、金融领域信息搜索与问答等服务。但在真实的金融场景中,企业对安全要求极高,这导致训练样本数据并不高,多依赖于专家经验,如果某些金融机构很难负担大规模的算力集群,大模型反倒不会很适用。
“在实际应用场景中,只有大规模预训练模型是不够的,需要与领域知识紧密融合,才能解决实际问题。”李纪为指出。例如,“可研发知识驱动的预训练模型,在预训练模型中融入领域知识、逻辑、结构化数据,进行混合训练,从而将大规模预训练模型的小样本学习与迁移学习能力拓展到应用领域中。”这也促使如今的NLP创业者开始反思:不盲目追求大模型,也不盲目追求一两个性能点的提升。在具体场景中少量性能的提升,也可以替换为其他方案,如加强数据生产的标准化、算法平台的全流程化等等。
在伴随香侬科技成长的这几年,阿里云在关注中小企业方面也在潜移默化发生着变化。从数字化转型、数据智能、中台、云钉一体……阿里云开始不断对外输出观点,将云计算基础设施化,使计算资源成为一项通用服务变得可行,让每家创新企业从诞生之日起就在阿里云上,塑造符合自身业务特征的成长引擎。
在这一点上,香侬科技在阿里云上的成长范式,正为未来越来越多的AI领域创新独角兽们带来新的路径选择。
本文摘自《云栖战略参考》2022第四期,订阅数字化转型双月刊《云栖战略参考》请扫码(或填写下方链接),工作人员会在审核后为您寄出
https://survey.aliyun.com/apps/zhiliao/xsTiZ4YaM