将大型语言模型(LLM)整合到搜索引擎中,或意味着 5 倍的算力增长和巨大的碳排放。
2 月初,微软和谷歌相继宣布对其搜索引擎进行重大改革。
这两家科技巨头都在建立或购买生成式人工智能工具上花费了大量资金,这些工具使用大型语言模型来理解和回应复杂问题。
如今,他们正试图将这些工具整合到搜索中,希望它们能给用户带来更丰富、更准确的体验。
然而,人们对这些新工具的热情,可能掩盖了一个肮脏的秘密——
建立高性能、人工智能驱动的搜索引擎的竞赛可能导致算力的急剧上升,随之而来的是科技公司的能源消耗量和碳排放量的大幅增加。
“在索引和搜索互联网内容方面已经涉及巨大的资源,但人工智能的融入需要一种不同的‘火力’,” 英国萨里大学的网络安全教授 Alan Woodward 说,“它需要处理能力,以及存储和有效的搜索,每当我们看到在线处理的一点变化时,都意味着大型处理中心所需的电力和冷却资源大幅增加。”
大型语言模型,比如那些支撑 OpenAI ChatGPT 的模型,将为微软经过改进的必应搜索引擎提供动力,谷歌的同类产品 Bard 也是如此。这意味着需要解析和计算海量数据中的联系,也能解释为什么它们往往由拥有大量资源的公司开发。
“训练这些模型需要大量的算力,”西班牙科鲁尼亚大学的计算机科学家 Carlos Gómez-Rodríguez 说,“目前,只有大型科技公司可以训练它们。”
虽然 OpenAI 和谷歌都没有说过自家产品的计算成本是多少,但来自研究人员的第三方分析估计,训练 GPT-3 消耗了 1287 兆瓦时,并导致超过 550 吨二氧化碳当量的排放——相当于一个人在纽约和旧金山之间往返 550 次。
Gómez-Rodríguez 说:“这不是那么糟糕,但你必须考虑到,你不仅要训练它,而且要执行它,为数百万用户服务。”
将 ChatGPT 作为一个独立的产品使用,与将其整合到每天处理 5 亿次搜索的必应中,也有很大的区别。
加拿大数据中心公司 QScale 的联合创始人 Martin Bouchard 认为,根据他对微软和谷歌搜索计划的理解,在这个过程中加入生成式人工智能将使“每次搜索的计算量至少增加四到五倍”。
为了满足搜索引擎用户的要求,这将不得不改变。“如果他们要经常重新训练模型,并添加更多的参数,这是一个完全不同规模的事情”。
这将需要对硬件进行大量投资。“目前的数据中心和我们现有的基础设施将无法应对生成式人工智能的竞赛,”Bouchard 说,“这太多了。”
根据国际能源署的数据,数据中心已经占到世界温室气体排放的 1% 左右。随着对云计算需求的增加,这一比例预计将会上升,但运行搜索的公司此前已经承诺减少他们对全球供暖的净贡献。
“它绝对没有运输业或纺织业那么糟糕,”Gómez-Rodríguez 说,“但人工智能可以成为碳排放的一个重要贡献者。”
微软已经承诺到 2050 年实现负碳排放。该公司打算在今年购买价值 150 万公吨的碳信用。谷歌已经承诺在 2030 年前实现其运营和价值链的净零排放。OpenAI 和微软没有对评论请求作出回应。
将人工智能整合到搜索中的环境足迹和能源成本可以通过将数据中心转移到更清洁的能源上、设计更高效的神经网络来降低。
谢菲尔德大学的自然语言处理讲师 Nafise Sadat Moosavi 说:“我们必须研究如何减少大模型所需的推理时间,现在是关注效率方面的一个好时机。”
谷歌发言人 Jane Park 表示,谷歌最初发布的 Bard 版本是由一个规模较小的大型语言模型驱动的。
“我们还发表了研究报告,详细介绍了最先进的语言模型的能源成本,包括早期的更大版本的 LaMDA,”Park 说,“我们的研究结果表明,将高效的模型、处理器和数据中心与清洁能源相结合,可以将机器学习系统的碳足迹减少 1000 倍之多。”
问题是,至少在谷歌的情况下,为了在搜索准确性上的微小进步而付出额外的计算能力和麻烦是否值得。
但 Moosavi 认为,虽然关注大型语言模型产生的能源和碳的数量很重要,但也需要考虑一些其他因素。“这对终端用户来说是友好的,因为以前的大型语言模型并不是每个人都能使用。”