案例酷|香侬科技:“云”上成长新范式

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 案例酷|香侬科技:“云”上成长新范式

本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数字先行者”共同探讨、碰撞,希望这些内容能让你有所启发。


自然语言处理(NLP)的历史,几乎跟计算机科学一样久远。直到深度神经网络的出现,才从根本上改变了自然语言处理的发展周期,也一度给人工智能由弱到强、由窄变宽的变革趋势注入了一针“强心剂”。

如今,智能搜索与推荐、智能问答系统、语义分析、机器翻译等自然语言处理核心技术早已走出实验室,应用于互联网、金融等诸多行业。在过往的研发中,香侬科技与阿里云团队无数次“碰撞”,逐渐找到了解决自然语言处理在开发、部署、交付等环节中对底层云资源的依赖和如何优化调度。凭借在科研和应用上的领先性,短短几年内香侬科技就崭露头角。

2017年前后,自然语言处理(NLP)领域,一场巨变正悄然来临。

在此之前,NLP核心技术研究已经历经长期的积淀,在深度神经网络加持下,出现了以Word2vec、GloVe为代表的语言模型。

而预训练模型在ImageNet数据集任务上的出色表现,给机器视觉领域发展带来了极大的震撼:NLP能不能像机器视觉一样完成预训练并迁移学习?

Transformer模型正是发迹于此时。与注意力机制的结合,Transformer一举解决了原有循环神经网络(RNN)无法理解上下文的问题,后来业内知名的预训练模型ELMO、BERT、GPT-3以及再往后掀起的大模型浪潮,基本都受到了Transformer的影响。

这一系列突破,解锁了很多真实的应用场景,也让研发人员看到了NLP落地的更多可能性。2018年,香侬科技成立了。


主动上云,从虚拟机到GPU的探索


从海量的二级市场数据中挖掘对投资人与投资机构价格波动时,上市公司公告、卖方机构的研报、证监会公告、股票市场的财务信息、社交网络实时数据、专业数据库有大量的非结构化数据。如何找到新闻和股价之间的关联性分析,这需要掌握AI技术。

香侬科技就是一家长期专注于机器学习、自然语言处理、高性能计算等人工智能核心技术的公司,并且除了金融信息服务,在教育、航天、政务、司法等领域也有落地。

创立之初,香侬科技就明确一点:要保持技术领先,真实接触业务场景,实打实地把算法应用到业务领域里

“从数据切入,从数据采集、数据标注做起,到模型训练和最终服务的上线,完整参与整个过程。数据是属于客户的,但对于我们而言,这种方式能够让我们基于最天然的数据进行训练,得到的模型适配性会非常强。”香侬科技CTO王思宽回答道。

NLP并不是一个独立的技术领域,需要有云计算、大数据、机器学习、知识图谱等方面的支撑。这也让香侬科技一开始就主动选择“上云用数”的路径。

第一站,香侬科技把业务放到了阿里云上,没有自己投入搭建物理机房。

这种方式的好处显而易见:不单是来自整体运维成本的降低,还有规模化后效率和业务稳定性带来的长期收益。2020年疫情以来,倒逼更多企业认真思考并落实数字化,从应用云上服务到将核心/全量业务迁移到云上,打开方式不同,云上生长的香侬科技很大程度上避免了企业系统迁移、数据迁移等诸多不必要麻烦,让这家年轻的企业可以轻装上阵。

从2018年5月,香侬科技购买了阿里云第一台虚拟机,搭建第一个Demo原型起,四年总计使用了阿里云十多款产品支持核心业务系统,覆盖IaaS层的计算、存储、网络、CDN,PaaS层的数据库、大数据等,再到云通信、流量、CDN等产品。“选择阿里云,是最简单也是最正确的一个选择。”香侬科技的技术负责人说道。

今年,香侬科技就给阿里云方面提出了一个非常具体的算力需求:一张GPU显卡成本较高,训练存在浪费。我们要不试着合作探索下,提高对GPU的利用率?

GPU算力满额意味着可以将计算资源100%利用起来,但也有很多时候,训练任务比较小对算力要求不高,却也得占用一张卡,这导致GPU使用率就会比较低。

其实不只是香侬科技,对很多使用GPU训练AI模型的企业来讲,GPU利用率不高是长期以来的困惑。

阿里云很快给出了初步解决方案:在GPU虚拟化过程中,训练任务进行切换时,可以试着对驱动层代码进行尽可能少的改动。这个策略不仅将GPU实例更高效地利用起来,还能减少开发投入的工作量。

香侬科技选择阿里云,实际上也结合了自身发展的长期战略。“对于这类新兴领域的初创公司,核心是要将精力投入在业务上,不断创新和迭代,时间和效率是第一位。如果比别人慢一步,很可能在市场占有率上比不过友商。所以任何一个需求不仅仅是自己能够快速实现,也希望技术伙伴能够快速响应。”吴国钊表示。


对高ROI技术的迫切追求


作为一家技术驱动型企业,任何能够降低机器学习模型训练成本、提高AI落地效率的关键因子,都会成为企业关注的热点,这也致使其势必对技术趋势要有足够的判断力。

2018年,香侬科技开始构建起了基于K8S开源版本的容器集群。当时的K8S容器编排技术,已经成为业内开源容器应用的事实标准。

2020年6月,香侬科技的智能文本处理产品“火龙果写作”上线,不到一年时间,注册用户实现了1500%的高速增长。随着业务场景逐年增长,给原先自建的容器集群带来了一个难以克服的问题:在不影响业务稳定的前提下,升级K8S版本是一项非常困难的工作。

由于K8S涉及的技术难点非常多,依赖的开源组件也十分庞杂,同时还需要有一定的运维人员进行维护。如果要迭代开源组件,将不可避免会对业务平稳性带来影响,但如果不迭代,很多开源社区的能力和技术优势根本无法享受到。

一个深坑就摆在眼前:从2018年到2020年,香侬科技所使用的K8S基本没有经过版本升级。团队自然而然就思考到了一个问题:究竟是继续使用自建K8S,还是切换到阿里云的容器服务ACK上?

经过一番对比和试用后,他们发现,阿里云ACK容器服务除了能够解决版本升级的问题外,还能一键检查升级的依赖项,在平滑升级的同时,无需做任何额外操作,对业务的影响也能降到最小。相比过去自建K8S升级可能需要“天”级别时间,阿里云容器服务只需按“小时”级别即可。

为此在后续交付中,阿里云还考虑了底层资源包括单个的Docker节点、POD(代表节点上一个或多个容器的管理单元)的自主性,以及上层业务的可观测性能力。这一举动实际为香侬科技进一步加强对容器技术栈的理解,或者基于阿里云AKS进行自主改造提供了窗口。

此次香侬科技在容器服务上与阿里云的合作,看似只解决了时下AI任务在容器集群运维层面临的痛点问题,实际却为后来香侬科技搭上阿里云成长的二级引擎奠定了基础。

面向持续且大量的人工神经网络计算的深度学习场景,香侬科技使用了阿里云推荐的GPU实例及AMD实例;搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排的支持,香侬科技快速在云端搭建了完整的AI深度学习业务系统。


在阿里云上“找答案”


2019年,香侬科技提出了基于汉字字形的中文语义理解模型Glyce,首次成功将汉字象形字的特点用于所有中文NLP任务,一举刷新了十余项世界纪录。在2021年的ACL全球顶级人工智能学术会议上,香侬科技又提出ChineseBERT,在Glyce的基础上进一步结合拼音信息,作为首个融合字形与拼音信息的中文大规模预训练模型,再次刷新诸多任务纪录。2022年,香侬科技与浙江大学、新加坡南洋理工大学等单位合作提出基于图神经网络的语义理解模型GNN-LM拿到了ICLR顶会单项评审满分。

在以中文语言理解为核心的产品研发与前沿基础技术创新上,香侬科技的实力有目共睹。2022年,香侬科技及其创始人李纪为,分别入选了“AI2000榜单”NLP子领域的最具影响力机构和最具影响力学者榜单,是该榜单中唯一的中国代表。李纪为曾对下一代人工智能有这样的洞察:目前我们还处在技术的“窄域时代”,人工智能在我们规定的内容里面,进行舒展、布局与润色。但是未来的某一天,我们终将会突破窄域,进入“宽域时代”

当然,这背后所依托的始终是算力、算法、数据这三个层面的突破,即算力跟得上、算法做创新、数据量足够大。但作为解决NLP诸多问题的基本范式——大规模预训练模型的到来,也让语言模型进入“巨量”时代。以OpenAI提出的GPT-3模型为例,其参数量达到1750亿。这意味着,尽管大模型有效提升了AI任务的训练效果,但同时对底层计算和存储资源都提出了巨大挑战,如计算资源消耗过大、训练时间过长,同时还需要软硬件基础设施作为支撑而不断优化。有人曾计算过,用一块非常先进的英伟达GPU训练GPT-3,大概需要100年。

在大规模数据集上进行预训练,训练成本急剧攀升,这也是为什么香侬科技最近也在跟阿里云探索如何提升GPU计算资源利用率的缘故。此外,香侬科技也表达出,希望接下来能够联合国内高校及生态合作企业,尝试将计算扩展到多个GPU,在分布式训练上有所突破。

另一方面,香侬科技提供的NLP技术,也应用于诸多金融场景,如利用知识抽取技术,为银行、保险、基金券商提供金融知识图谱与风险监控、金融领域信息搜索与问答等服务。但在真实的金融场景中,企业对安全要求极高,这导致训练样本数据并不高,多依赖于专家经验,如果某些金融机构很难负担大规模的算力集群,大模型反倒不会很适用。

在实际应用场景中,只有大规模预训练模型是不够的,需要与领域知识紧密融合,才能解决实际问题。”李纪为指出。例如,“可研发知识驱动的预训练模型,在预训练模型中融入领域知识、逻辑、结构化数据,进行混合训练,从而将大规模预训练模型的小样本学习与迁移学习能力拓展到应用领域中。”这也促使如今的NLP创业者开始反思:不盲目追求大模型,也不盲目追求一两个性能点的提升。在具体场景中少量性能的提升,也可以替换为其他方案,如加强数据生产的标准化、算法平台的全流程化等等。

在伴随香侬科技成长的这几年,阿里云在关注中小企业方面也在潜移默化发生着变化。从数字化转型、数据智能、中台、云钉一体……阿里云开始不断对外输出观点,将云计算基础设施化,使计算资源成为一项通用服务变得可行,让每家创新企业从诞生之日起就在阿里云上,塑造符合自身业务特征的成长引擎。

在这一点上,香侬科技在阿里云上的成长范式,正为未来越来越多的AI领域创新独角兽们带来新的路径选择。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1月前
|
算法 搜索推荐 量子技术
技术探索之旅:从基础到创新的心得体会
在技术的浩瀚海洋中,我踏上了一段从基础学习到创新实践的旅程。这不仅是一次知识的积累,更是一场关于自我挑战与突破的冒险。本文将分享我的技术感悟,展现如何从零开始,逐步深入,最终实现技术创新的过程。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术性文章移动应用开发之旅:从新手到专家的蜕变之路
【8月更文挑战第30天】本文将介绍人工智能的基本原理和应用,包括机器学习、深度学习和自然语言处理等。我们将通过代码示例来展示如何使用Python和TensorFlow库实现一个简单的神经网络模型。
|
4月前
|
数据采集 人工智能 数据可视化
“会数据同学”首站走进雅戈尔,看老牌男装品牌如何用“数据+AI”华丽转身
“会数据同学”首站走进雅戈尔,看老牌男装品牌如何用“数据+AI”华丽转身
136 0
|
5月前
|
算法 前端开发 程序员
一个土木工程专业背景的开发者,讲述开源带给他的力量
**谭雪峰在TDengine Open Day分享开源经历,揭示程序员如何通过开源项目成长。自学成才的他,从土木工程转行编程,借助开源社区学习、贡献代码,参与TDengine HiveMQ挑战赛获胜,最终加入涛思数据。开源不仅提升代码质量、提供实战经验,也拓宽技术视野,助力个人品牌建立,促进开发者、项目和社区的共赢。程序员通过参与开源,能从代码编写者转变为问题解决者和工具创造者。**
65 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
小小前端如何在AIGC领域“乘风破浪”
作者从7月份开始做AIGC相关的项目有了一些感触和经验总结分享给大家,生成图片的质量提升一方面来自于AIGC领域大模型和开源插件的飞速发展,一方面来自对于生成路线和参数的理解加深。
|
6月前
|
人工智能 搜索推荐 算法
AIGC技术在淘淘秀场景的探索与实践
AIGC技术在淘淘秀场景的探索与实践
143 0
|
人工智能 移动开发 定位技术
|
人工智能 运维 自然语言处理
案例酷|“云”加持下,北大英华加速法律人工智能
案例酷|“云”加持下,北大英华加速法律人工智能
225 0
|
前端开发
《蚂蚁金服玉伯:我们是如何从前端技术进化到体验科技的?》电子版地址
蚂蚁金服玉伯:我们是如何从前端技术进化到体验科技的?
151 0
《蚂蚁金服玉伯:我们是如何从前端技术进化到体验科技的?》电子版地址
|
人工智能 安全 算法
【社区图书馆】《新程序员005:开源深度指南 & 新金融背后的科技力量》
【社区图书馆】《新程序员005:开源深度指南 & 新金融背后的科技力量》
下一篇
无影云桌面