基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?

简介: 基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?



 新智元报道  

编辑:LRS

【新智元导读】在浮躁的机器学习领域,仍然有人致力于研究基础算法。


由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & beyond」第五期,本期的主题是算法上的进步(algorithmic advances),撰写作者是谷歌研究院的副总裁Vahab Mirrokni.



往期链接:

  1. 超详超硬Jeff Dean万字总结火热出炉!图解谷歌2022年AIGC、LLM、CV三大领域成就
  2. 谷歌2022年度回顾:让AI更负责任,主要做了4点微小的工作
  3. Jeff Dean发推:谷歌超硬年终总结「第三弹」来了!大力发展Jax
  4. 让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹


稳健的算法设计是整个谷歌系统的基础,特别是对于机器学习和人工智能模型来说,稳健性显得更加重要。


因此,开发具有更高效率、更强性能以及更快速的算法仍然具有相当高的优先级,可以提升从搜索和广告到地图和 YouTube 等各种服务的能力。


Google Reserach一直走在该领域前沿,开发了许多创新性的算法,涉及的领域包括隐私安全的推荐系统、大规模机器学习的可扩展解决方案等。


下面介绍一些Google在2022年提出的最先进的技术包括可伸缩性、隐私、市场算法和算法基础等。


可伸缩算法: 图、聚类和优化


随着处理大规模数据集的需求增加,复杂算法的可伸缩性(scalability)和可靠性(reliability)在改进算法的可解释性、健壮性和速度上仍然具有较高优先级。


谷歌开发的新算法可用于处理各个领域的大型数据集,包括无监督和半监督学习、基于图的学习、聚类和大规模优化。


系统中的一个重要组成部分是建立一个相似图(similarity graph),节点为对象,边表示对象之间的相似度。为了提高可伸缩性和速度,邻接图应该是稀疏的。


谷歌提出了一种叫做 STAR 的两跳扩展技术(2-hop spanner technique),是一种高效的分布式图形生成策略,并展示了它如何在理论和实践上显著减少相似度计算的数量,在生成高质量的图形学习或聚类输出的同时生成更稀疏的图形。


论文链接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=53141


比如说对于具有10T条边的图,在成对相似性比较和运行时间加速方面实现了约100倍的改进,而质量损失可以忽略不计,谷歌已经应用这个想法来开发用于度量和最小规模聚类的大规模并行处理算法。


论文链接:https://proceedings.mlr.press/v139/dhulipala21a.html


在广义的聚类背景下,谷歌开发了第一个具有线性时间层次聚集聚类(HAC)算法和第一个对数深度 HAC 并行算法 DBSCAN,该算法在100B 边图上实现了50倍的加速。


并且还针对不同类型的聚类问题设计了改进的次线性算法,如几何连接聚类、常数轮相关聚类和完全动态 k 聚类。


受到多核处理(例如 GBBS)成功的启发,研究人员开始着手开发能够在单个多核机器上处理具有100B 边的图的图挖掘算法,其中最大的难题是实现快速(例如,次线性)并行运行时间(例如,深度)。


在之前社区检测和相关聚类工作的基础上,谷歌开发了一个 HAC 算法叫做 ParHAC,具有可证明的多对数深度和近线性工作,并实现了50倍的加速。


论文链接:https://openreview.net/pdf?id=LpgG0C6Y75


例如,ParHAC 只需要约10分钟就可以在一个超过100B 边的图上找到一个近似的亲和层次结构,而在一台机器上找到完整的 HAC 则需要约3小时。


继之前在分布式 HAC 上的工作之后,使用这些多核算法作为分布式算法中的一个子例程来ter-scale的图。


2022年,谷歌在图形神经网络(GNN)方面也得到了一些进展。


论文链接:https://www.jmlr.org/papers/volume23/20-852/20-852.pdf


研究人员开发了一个基于模型的分类方法,统一了图学习方法,实验中还从数千个不同结构的图表中发现了对 GNN 模型的新思路,提出了一种新的混合体系结构,以克服现有 GNN 解决基本图问题(如最短路径和最小生成树)的深度要求。



此外,为了将这些成果带到更广泛的社区中,谷歌发布了用于在 TensorFlow (TF-GNN)中构建图形神经网络的旗舰建模库的三个版本,其中的亮点包括一个模型库和模型编排 API,这使得编写 GNN 解决方案变得更加容易。


在NeurIPS’20上的关于大规模图形挖掘和学习研讨会之后,谷歌在 ICML’22举办了一个关于基于图形的学习的研讨会,以及在 NeurIPS’22举办了一个关于 TensorFlow 中 GNN 的教程。


论文链接:https://dl.acm.org/doi/abs/10.1145/3474717.3483961


谷歌还提出了一个谷歌地图解决方案,可以有效地计算道路网络中的可选路线、持续故障(例如,道路关闭和突发事件等)。


文中还展示了该模型如何显著优于现实世界中的道路网络的最先进的plateau and penalty方法。



在优化方面,谷歌开源了 Vizier,一个强大的黑盒优化和超参数调优库。


研究人员还为线性规划(LP)解决方案开发了新的技术,解决了由于依赖矩阵分解而导致的可伸缩性限制,限制了并行性和分布式方法的发展。


代码链接:https://github.com/google/or-tools


为此,研究人员开源了一个称为原始-对偶线性规划(PDLP)的原始-对偶混合梯度(PDHG)解决方案,一个新的一阶求解器,可用于解决大规模 LP 问题。



PDLP 已经被用来解决现实世界中多达12B non-zeros的问题(内部分布式版本扩展到92B non-zeros),PDLP 的有效性是理论发展和算法工程相结合的结果。



目录
打赏
0
0
0
0
368
分享
相关文章
|
12天前
|
基于 PHP 语言深度优先搜索算法的局域网网络监控软件研究
在当下数字化时代,局域网作为企业与机构内部信息交互的核心载体,其稳定性与安全性备受关注。局域网网络监控软件随之兴起,成为保障网络正常运转的关键工具。此类软件的高效运行依托于多种数据结构与算法,本文将聚焦深度优先搜索(DFS)算法,探究其在局域网网络监控软件中的应用,并借助 PHP 语言代码示例予以详细阐释。
27 1
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
19 3
基于 Python 哈希表算法的员工上网管理策略研究
于当下数字化办公环境而言,员工上网管理已成为企业运营管理的关键环节。企业有必要对员工的网络访问行为予以监控,以此确保信息安全并提升工作效率。在处理员工上网管理相关数据时,适宜的数据结构与算法起着举足轻重的作用。本文将深入探究哈希表这一数据结构在员工上网管理场景中的应用,并借助 Python 代码示例展开详尽阐述。
33 3
基于 Node.js 深度优先搜索算法的上网监管软件研究
在数字化时代,网络环境呈现出高度的复杂性与动态性,上网监管软件在维护网络秩序与安全方面的重要性与日俱增。此类软件依托各类数据结构与算法,实现对网络活动的精准监测与高效管理。本文将深度聚焦于深度优先搜索(DFS)算法,并结合 Node.js 编程语言,深入剖析其在上网监管软件中的应用机制与效能。
28 6
|
27天前
|
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
29 7
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
36 3
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
53 10
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
30 0
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
113 13
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】

新智元

+ 订阅

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等