基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?

简介: 基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?



 新智元报道  

编辑:LRS

【新智元导读】在浮躁的机器学习领域,仍然有人致力于研究基础算法。


由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & beyond」第五期,本期的主题是算法上的进步(algorithmic advances),撰写作者是谷歌研究院的副总裁Vahab Mirrokni.



往期链接:

  1. 超详超硬Jeff Dean万字总结火热出炉!图解谷歌2022年AIGC、LLM、CV三大领域成就
  2. 谷歌2022年度回顾:让AI更负责任,主要做了4点微小的工作
  3. Jeff Dean发推:谷歌超硬年终总结「第三弹」来了!大力发展Jax
  4. 让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹


稳健的算法设计是整个谷歌系统的基础,特别是对于机器学习和人工智能模型来说,稳健性显得更加重要。


因此,开发具有更高效率、更强性能以及更快速的算法仍然具有相当高的优先级,可以提升从搜索和广告到地图和 YouTube 等各种服务的能力。


Google Reserach一直走在该领域前沿,开发了许多创新性的算法,涉及的领域包括隐私安全的推荐系统、大规模机器学习的可扩展解决方案等。


下面介绍一些Google在2022年提出的最先进的技术包括可伸缩性、隐私、市场算法和算法基础等。


可伸缩算法: 图、聚类和优化


随着处理大规模数据集的需求增加,复杂算法的可伸缩性(scalability)和可靠性(reliability)在改进算法的可解释性、健壮性和速度上仍然具有较高优先级。


谷歌开发的新算法可用于处理各个领域的大型数据集,包括无监督和半监督学习、基于图的学习、聚类和大规模优化。


系统中的一个重要组成部分是建立一个相似图(similarity graph),节点为对象,边表示对象之间的相似度。为了提高可伸缩性和速度,邻接图应该是稀疏的。


谷歌提出了一种叫做 STAR 的两跳扩展技术(2-hop spanner technique),是一种高效的分布式图形生成策略,并展示了它如何在理论和实践上显著减少相似度计算的数量,在生成高质量的图形学习或聚类输出的同时生成更稀疏的图形。


论文链接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=53141


比如说对于具有10T条边的图,在成对相似性比较和运行时间加速方面实现了约100倍的改进,而质量损失可以忽略不计,谷歌已经应用这个想法来开发用于度量和最小规模聚类的大规模并行处理算法。


论文链接:https://proceedings.mlr.press/v139/dhulipala21a.html


在广义的聚类背景下,谷歌开发了第一个具有线性时间层次聚集聚类(HAC)算法和第一个对数深度 HAC 并行算法 DBSCAN,该算法在100B 边图上实现了50倍的加速。


并且还针对不同类型的聚类问题设计了改进的次线性算法,如几何连接聚类、常数轮相关聚类和完全动态 k 聚类。


受到多核处理(例如 GBBS)成功的启发,研究人员开始着手开发能够在单个多核机器上处理具有100B 边的图的图挖掘算法,其中最大的难题是实现快速(例如,次线性)并行运行时间(例如,深度)。


在之前社区检测和相关聚类工作的基础上,谷歌开发了一个 HAC 算法叫做 ParHAC,具有可证明的多对数深度和近线性工作,并实现了50倍的加速。


论文链接:https://openreview.net/pdf?id=LpgG0C6Y75


例如,ParHAC 只需要约10分钟就可以在一个超过100B 边的图上找到一个近似的亲和层次结构,而在一台机器上找到完整的 HAC 则需要约3小时。


继之前在分布式 HAC 上的工作之后,使用这些多核算法作为分布式算法中的一个子例程来ter-scale的图。


2022年,谷歌在图形神经网络(GNN)方面也得到了一些进展。


论文链接:https://www.jmlr.org/papers/volume23/20-852/20-852.pdf


研究人员开发了一个基于模型的分类方法,统一了图学习方法,实验中还从数千个不同结构的图表中发现了对 GNN 模型的新思路,提出了一种新的混合体系结构,以克服现有 GNN 解决基本图问题(如最短路径和最小生成树)的深度要求。



此外,为了将这些成果带到更广泛的社区中,谷歌发布了用于在 TensorFlow (TF-GNN)中构建图形神经网络的旗舰建模库的三个版本,其中的亮点包括一个模型库和模型编排 API,这使得编写 GNN 解决方案变得更加容易。


在NeurIPS’20上的关于大规模图形挖掘和学习研讨会之后,谷歌在 ICML’22举办了一个关于基于图形的学习的研讨会,以及在 NeurIPS’22举办了一个关于 TensorFlow 中 GNN 的教程。


论文链接:https://dl.acm.org/doi/abs/10.1145/3474717.3483961


谷歌还提出了一个谷歌地图解决方案,可以有效地计算道路网络中的可选路线、持续故障(例如,道路关闭和突发事件等)。


文中还展示了该模型如何显著优于现实世界中的道路网络的最先进的plateau and penalty方法。



在优化方面,谷歌开源了 Vizier,一个强大的黑盒优化和超参数调优库。


研究人员还为线性规划(LP)解决方案开发了新的技术,解决了由于依赖矩阵分解而导致的可伸缩性限制,限制了并行性和分布式方法的发展。


代码链接:https://github.com/google/or-tools


为此,研究人员开源了一个称为原始-对偶线性规划(PDLP)的原始-对偶混合梯度(PDHG)解决方案,一个新的一阶求解器,可用于解决大规模 LP 问题。



PDLP 已经被用来解决现实世界中多达12B non-zeros的问题(内部分布式版本扩展到92B non-zeros),PDLP 的有效性是理论发展和算法工程相结合的结果。



相关文章
|
27天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
17天前
|
算法 测试技术 量子技术
时隔5年,谷歌再创量子霸权里程碑!RCS算法让电路体积增加一倍
谷歌在量子计算领域取得新突破,其研究人员在《自然》杂志上发表论文《随机电路采样中的相变》,介绍了一种名为随机电路采样(RCS)的算法。该算法通过优化量子关联速度、防止经典简化和利用相变现象,使量子电路体积在相同保真度下增加一倍,为量子计算的发展树立了新的里程碑。实验结果显示,RCS算法在67个量子比特和32个周期的条件下,实现了1.5×10^-3的保真度。这一成果不仅提升了量子计算的效率,也为解决噪声问题提供了新思路。
31 3
|
27天前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习(8)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
27天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之顺序表【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
顺序表的定义和基本操作之插入;删除;按值查找;按位查找等具体详解步骤以及举例说明
|
27天前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习之单双链表精题详解(9)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
27天前
|
存储 Web App开发 算法
2024重生之回溯数据结构与算法系列学习之单双链表【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构之单双链表按位、值查找;[前后]插入;删除指定节点;求表长、静态链表等代码及具体思路详解步骤;举例说明、注意点及常见报错问题所对应的解决方法
|
27天前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之栈和队列精题汇总(10)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第3章之IKUN和I原达人之数据结构与算法系列学习栈与队列精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
27天前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之顺序表习题精讲【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
顺序表的定义和基本操作之插入;删除;按值查找;按位查找习题精讲等具体详解步骤以及举例说明
|
27天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构的基本概念;算法的基本概念、特性以及时间复杂度、空间复杂度等举例说明;【含常见的报错问题及其对应的解决方法】
|
27天前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习之王道第2.3章节之线性表精题汇总二(5)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
IKU达人之数据结构与算法系列学习×单双链表精题详解、数据结构、C++、排序算法、java 、动态规划 你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!