LinkedIn在利用大型语言模型服务十亿用户中的收获

简介: LinkedIn在利用大型语言模型服务十亿用户中的收获

本文来自 企业网D1net公众号

社交媒体巨头LinkedIn转向GenAI,以提升其会员服务,本文介绍了其工程师在利用LLMs取得业务成果方面所学到的一些内部经验。


LinkedIn 在全球拥有超过10亿用户,不断挑战当今企业技术的极限。很少有公司能够像LinkedIn那样运营,或者拥有类似的大量数据资源。


对这个专注于商业和就业的社交媒体平台来说,将合格的候选人与潜在雇主连接起来,帮助填补职位空缺是其核心业务。同样重要的是确保平台上的帖子反馈与消费者的需求相关。在LinkedIn的规模下,这些匹配过程一直依赖于技术。


在2023年夏天,当GenAI的兴趣首次高涨时,LinkedIn开始考虑是否利用大型语言模型(LLMs)来匹配候选人与雇主,以及使信息流更加有用会更好。


因此,这家社交媒体巨头开启了一段GenAI的旅程,并现在正在报告其利用Microsoft的Azure OpenAI服务的经验成果。各行各业的CIOs都可以从LinkedIn在此过程中学到的一两点经验。


起伏跌宕



正如大多数CIO所经历的那样,采用新兴技术伴随着试验和挫折。LinkedIn的情况也不例外,据该公司的首席软件工程师及技术负责人Juan Bottaro所说,其走向LLM洞察的道路一点也不平坦。


Bottaro表示,最初的成果“感觉不够完善”,“连接的点还不够多。”


围绕GenAI的首波炒作并没有帮助。


“LLM是新事物,感觉它能解决所有问题,”Bottaro说。“我们开始时对LLM能做什么并没有一个非常清晰的概念。”


例如,早期版本的改进型职位匹配工作可以说是相当的,用一个不太恰当的词来说,粗鲁。或者至少过于直白。


“点击‘评估我是否适合这份工作’后得到‘你完全不适合’并不实用,”Bottaro说。“我们希望[回应]既事实准确,同时也要有同理心。有些会员可能正在考虑转行到他们目前并不十分适合的领域,需要帮助了解差距和下一步该怎么做。”


因此,LinkedIn初步学到的一个重要经验是调整LLM以满足观众的期望——并帮助LLM理解如何以一种或许不是人类,但至少是人性化的方式来回应。


速度问题



尽管LinkedIn拥有超过十亿会员,依靠LinkedIn的LLM工作的大部分求职功能最初是针对高级会员的,这是一个相对较小的群体。(LinkedIn拒绝透露其拥有多少高级会员。)


在如此大的规模运作时,速度是至关重要的,特别是在与相关职位匹配候选人这样细致的事务上。这里,人们认为LLM会有所帮助,因为LLM的一个经常被提及的优点是其速度,使它们能够迅速完成复杂的步骤。但Bottaro表示,LinkedIn的部署并非如此。


“我不会说LLM很快。我不认为速度是一个优势,”他说。


速度可以有多种定义。虽然在操作上LLM可能没有像希望的那样快,但Bottaro表示整体部署过程的加速令人震惊。“这项新技术的超能力在于你可以非常快速地创建原型,大约在两到三个月之间。在这项技术出现之前,这是不可能的,”他说。


当被问及如果没有LLM,项目的各个方面需要多久时,Bottaro表示有些可能根本无法完成,而其他元素“可能需要几年时间。”


作为一个例子,Bottaro提到了旨在理解意图的系统部分。没有LLM,这可能需要两到三个月,但LLM在“不到一周”的时间内就掌握了它。


成本考虑



Bottaro称之为“障碍”的一个方面是成本。同样,成本在项目的不同阶段意味着不同的东西,正如LinkedIn的经验所示。


“我们用于开发的金额微不足道,”Bottaro说。但当涉及到向LinkedIn的客户提供数据时,成本激增。


“即便只是针对几百万会员,”Bottaro说,这可能暗示了高级会员的数量,价格也飙升了。这是因为LLM的定价——至少是LinkedIn与Microsoft(其LLM提供商及母公司)达成的许可协议——是基于使用量的,具体来说是输入和输出令牌的使用量。


一位AI供应商的首席执行官Tarun Thummala在一篇与此项目无关的LinkedIn帖子中解释说,LLM的输入和输出令牌大约相当于0.75个单词。LLM供应商通常按成千上万或成百万卖令牌。例如,LinkedIn使用的Azure OpenAI在美国东部地区收费标准为每100万个8K GPT-4输入令牌30美元,每100万个8K GPT-4输出令牌60美元。


评估挑战



LinkedIn为其项目设定的另一个功能目标是自动评估。LLM在准确性、相关性、安全性和其他关注点方面的评估一直是个挑战。领先的组织和LLM制造商一直在尝试自动化一些工作,但据LinkedIn称,这种能力“仍然是在进行中”。


没有自动化评估,LinkedIn报告称“工程师们只能靠目测结果,并在有限的样本集上进行测试,且通常会有超过1天的延迟才能知道指标。”


该公司正在构建基于模型的评估器,以帮助估计关键的LLM指标,如整体质量得分、幻觉率、连贯性和负责任的AI违规情况。这样做将能够加快实验的速度,公司的工程师说,尽管LinkedIn的工程师在幻觉检测方面取得了一些成功,但他们还没有完成该领域的工作。


数据质量



LinkedIn在其职位匹配努力中遇到的部分挑战归结为双方的数据质量问题:雇主和潜在雇员。


LLM只能使用提供给它的数据,有时候职位发布并不精确或全面地说明雇主所寻求的技能。另一方面,一些求职者发布的简历表述不佳,无法有效反映他们在解决问题等方面的丰富经验。


在这方面,Bottaro看到了LLM帮助雇主和潜在雇员的潜力。通过改善雇主和LinkedIn用户的书写,双方都能受益,因为公司的职位匹配LLM在数据输入质量更高时能够更有效地工作。


用户体验



在处理如此庞大的会员基础时,准确性和相关性指标可能“给人一种虚假的安慰感,”Bottaro说。例如,如果LLM“90%的时间都做得对,这意味着十分之一的人会有糟糕的体验,”他说。


使这种部署更加困难的是,提供有用、有帮助且准确答案所涉及的极端细微差别和判断。


“你如何定义什么是好的,什么是坏的?我们花了很多时间与语言学家一起制定关于如何提供全面代表性的指导。我们也做了很多用户研究,”Bottaro说。“你如何训练人们撰写正确的回应?你如何定义任务,规定回应应该是什么样的?产品可能试图建设性或有帮助。它不试图假设太多,因为那是幻觉开始的地方。我们对回应的一致性感到非常自豪。”


实时运营



LinkedIn庞大的规模为职位匹配带来了另一个挑战。在拥有十亿会员的情况下,一个职位广告在发布几分钟内可能会收到数百甚至数千个应聘回应。如果看到已经有数百人申请,许多求职者可能就不会再费心申请了。这就要求LLM非常迅速地找到匹配的会员,在资质较低的申请者提交材料之前做出反应。之后,会员是否看到通知并及时做出反应仍然是一个问题。


在雇主方面,挑战在于找到最合适的应聘者——不一定是反应最快的人。一些公司不愿公布薪资范围,这进一步复杂化了双方的努力,因为最合格的应聘者可能对职位的薪酬不感兴趣。这是一个LLM无法解决的问题。


API和RAG



LinkedIn庞大的数据库包含了关于个人、雇主、技能和课程的许多独特信息,但其LLM尚未接受过这些数据的培训。因此,根据LinkedIn工程师的说法,它们目前无法使用这些资产进行任何推理或生成响应的活动,因为这些资产是如何存储和提供的。


在这里,检索增强生成(RAG)是一个典型的解决方案。通过建立内部API的管道,企业可以用额外的上下文“增强”LLM提示,以更好地指导和限制LLM的响应。LinkedIn的大部分数据通过RPC API公开,公司的工程师说这“方便人类以编程方式调用”,但“对LLM并不友好”。


为了解决这个问题,LinkedIn的工程师围绕其API“封装了技能”,给它们提供了一个“对LLM友好的API功能描述以及何时使用它”,以及配置细节、输入和输出架构以及将每个API的LLM版本映射到其底层(实际)RPC版本所需的所有逻辑。


LinkedIn的工程师在一份声明中写道:“像这样的技能使LLM能够执行与我们产品相关的各种操作,如查看个人资料、搜索文章/人员/职位/公司,甚至查询内部分析系统。”他们还提到,“同样的技术也用于调用非LinkedIn的API,如Bing搜索和新闻。”这种方法不仅提高了LLM的功能性,还增强了其与现有技术基础设施的整合能力,使得LLM能够更广泛地应用于企业的各个方面。


相关文章
|
1月前
|
数据采集 人工智能 自然语言处理
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
【4月更文挑战第12天】谷歌DeepMind的Gecko模型以小巧身形(256维)展现出媲美大型语言模型的检索性能,且在MTEB基准测试中超越768维模型。采用两步蒸馏法训练,适用于多任务及硬件环境,尤其在多语言处理上表现出色。尽管训练成本高、泛化能力待优化,但其创新为文本嵌入技术带来新可能。
47 7
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
|
1月前
|
机器学习/深度学习 搜索推荐 TensorFlow
LiRank: LinkedIn在2月新发布的大规模在线排名模型
LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。
40 3
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
310 0
|
Web App开发 数据采集 自然语言处理
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
122 0
|
机器学习/深度学习 算法 搜索推荐
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(一)
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(一)
308 0
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(一)
|
机器学习/深度学习 算法 搜索推荐
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(二)
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(二)
373 0
请问机器学习算法岗中用户增长和推荐系统差别是什么呢?(二)
|
机器学习/深度学习 人工智能 自然语言处理
担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题
谷歌的研究人员发表的新论文提出了一种能够准确地回答用户提问的系统,其无需像传统搜索引擎一样展示所有的结果。
179 0
担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题
|
机器学习/深度学习 数据采集 人工智能
深度学习变天,模型越做越小!Google发布FLAN,模型参数少400亿,性能超越GPT-3
你是否抱怨过深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!最近Google发布了一个新的语言模型FLAN,或许能在深度学习中带来新的发展趋势,它相比GPT-3少了400亿参数,性能还更强!
250 0
深度学习变天,模型越做越小!Google发布FLAN,模型参数少400亿,性能超越GPT-3
|
机器学习/深度学习 搜索推荐 算法
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec
知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集「ZhihuRec」。该数据集包含了知乎上的 1 亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。
714 0
1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec
|
机器学习/深度学习 Kubernetes 负载均衡
独家揭秘:微博深度学习平台如何支撑4亿用户愉快吃瓜?
随着深度学习在微博业务场景中的广泛使用,深度学习平台也遇到一些挑战:在离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。新浪微博基于K8s构建了分布式离线与在线方案,解决了上述两个维度遇到的挑战。 新浪微博机器学习研发架构师于翔老师在ArchSummit全球架构师峰会2018北京站分享了《微博深度学习平台基于 K8s 的解决方案》主题演讲,介绍了微博深度学习平台概况,以及他们在离线与在线两个维度基于 K8s 的应用实践,我们对演讲内容进行了整理,希
2453 0
独家揭秘:微博深度学习平台如何支撑4亿用户愉快吃瓜?