基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?

简介: 基础算法才是王道!谷歌2022年终总结第五弹:真正的「算法工程师」都在研究啥?

隐私和联邦学习


在提供高质量服务的同时尊重用户隐私仍然是所有 Google 系统的首要任务,该领域的研究涉及许多产品,并使用了来自差分隐私(differential privacy,DP)和联邦学习的原则。


首先,为了解决用 DP 训练大型神经网络的问题,研究人员在算法上取得了一些进展。


在早期工作的基础上,继续开发了一个基于 DP-FTRL 算法的 DP 神经网络,用于矩阵分解的算法DP-FTRL。



论文链接:https://arxiv.org/pdf/2103.00039.pdf


这项工作表明,人们可以设计一个数学程序,以优化超过一个可能的 DP 机制的大集,以找到那些最适合特定的学习问题。


在神经网络和核方法的 DP 学习中,研究人员还建立了与输入特征维数无关的边界保证,并且进一步将这个概念扩展到更广泛的机器学习任务,以不到原来1/300的计算量就可以匹敌基线的性能。


对于大型模型的微调,研究人员认为,一旦预训练后,这些模型(甚至与 DP)基本上操作在一个低维子空间,从而绕过了 DP 强加的维数灾难。



在算法方面,为了估计一个高维分布的熵,可以得到局部 DP 机制(即使每个样本只有一个比特可用也能工作)和有效的shuffle DP 机制。


论文链接:https://arxiv.org/abs/2210.15178


研究人员提出了一种更加精确的方法来同时以私密的方式估计数据库中最受欢迎的项目,并在 Plume 库中应用了这种方法。


此外,在近似演算法计算(MPC)模型中展示了接近最佳的 DP 集群大规模并行处理机,进一步改进了以前在可伸缩和分布式设置方面的工作。


论文链接:https://arxiv.org/abs/2107.14527


另一个有前景的研究方向是隐私和流媒体的交叉,研究人员提出了一个近似最优的近似空间权衡私有频率矩和一个新的算法私有计数不同的元素在滑动窗口流模型,还提出了一个研究对抗流(adversarial streaming)的通用混合框架。


针对安全性和隐私性交叉的应用程序,谷歌开发了安全、私有和通信效率高的新算法,用于测量交叉出版商的覆盖范围和频率。


世界广告商联合会(World Federation of Advertisers)已经采用这些算法作为他们测量系统的一部分,在后续的工作中,研究人员还开发了新的协议,是保证安全的且私有的,用于在 DP 的两服务器模型中计算稀疏直方图。


论文链接:https://dl.acm.org/doi/10.1145/3548606.3559383


从计算和通信的角度来看,这些协议都是高效的,比标准方法要好得多,并且结合了草图、密码学和多方计算以及 DP 等工具和技术。


虽然目前已经用 DP 训练了 BERT 和变压器,但理解大语言模型(LLM)中的训练样例记忆是评估其隐私性的一种启发式方法。


论文链接:https://arxiv.org/abs/2207.00099


特别是研究了 LLM 在训练中忘记(潜在记忆)训练例子的时间和原因,研究结果表明,以前看到的例子可能会以后看到的例子为代价来观察隐私的好处。


论文链接:https://arxiv.org/abs/2202.07646


研究人员还量化了 LLM 发出记忆训练数据的程度。


市场算法与因果推理


谷歌在2022年继续研究如何改善在线市场(online marketplaces)。


例如,最近广告拍卖研究的一个重要领域是自动投标在线广告的研究,其中大多数投标是通过代理投标人,代表广告商优化更高层次的目标。用户、广告商、投标人和广告平台,导致这个领域存在一些问题。


继之前分析和改进自动竞价拍卖机制的工作之后,谷歌继续研究如何在自动化背景下改进在线市场,同时考虑到了不同方面,如用户体验和广告预算。


论文链接:https://arxiv.org/abs/2207.03630


研究结果表明,适当结合机器学习的建议和随机化技术,即使在非真实的拍卖,可以有力地改善整体福利在均衡的自动竞价算法。



除了自动竞价系统,谷歌还研究了复杂环境下的拍卖改进措施,例如,买家由中介代表,多种告形式,每个广告可以显示在几个可能的变体。在最近的一篇survey中,谷歌总结了相关工作。


论文链接:https://www.sigecom.org/exchanges/volume_20/2/BHAWALKAR.pdf


除了拍卖,谷歌还研究了合同在多代理人和对抗性环境中的使用,在线随机优化仍然是在线广告系统的重要组成部分,在最优投标和预算节奏方面有着广泛的应用。




在长期的在线分配研究的基础上,研究人员最近发表了关于双镜像下降(dual mirror descent)的介绍,一种简单、健壮和灵活的在线分配问题的新算法,可以抵抗广泛的对抗性和随机输入分布,并且可以优化经济效率之外的重要目标,如公平性。


结果还表明,通过裁剪双镜下降到日益流行的特殊结构回报的支出约束,可以优化广告客户的价值,其有着广泛的应用,并且随着时间的推移已经被用来帮助广告商通过更好的算法决策获得更多的价值。


论文链接:https://arxiv.org/abs/2109.03173


此外,根据在机器学习、机制设计和市场相互作用方面的工作,谷歌研究了非对称拍卖设计的Transformer,为no-regret学习的买家设计了效用最大化策略,并开发了新的学习算法来出价或在拍卖中定价。



复杂的在线服务的一个关键组成部分是能够通过实验测量用户和其他参与者对新干预措施的反应,准确估计这些因果效应的一个主要挑战是处理这些实验的控制单元和治疗单元之间的复杂相互作用(或干扰)。



论文链接:https://openreview.net/pdf?id=hqtSdpAK39W


将图形聚类和因果推理专业知识结合起来,扩展了之前在这个领域的工作成果,在灵活的响应模型和新的实验设计下改进了结果。


论文链接:https://proceedings.neurips.cc/paper/2021/file/48d23e87eb98cc2227b5a8c33fa00680-Paper.pdf


当treatment 任务和度量测量发生在二分平台的同一侧时,可以更有效地减少这些相互作用,文中还展示了如何将综合控制和优化技术相结合来设计更强大的实验,特别是在小数据情况下。


算法基础和理论


谷歌还通过解决长期存在的「开放问题来继续基础算法研究。



论文链接:https://dl.acm.org/doi/pdf/10.1145/3519935.3520054


一篇简明扼要的论文解决了一个40年前的悬而未决的问题: 是否存在一种机制,在买方价值弱于卖方成本的情况下,保证交易收益的一部分不变。


论文链接:https://dl.acm.org/doi/pdf/10.1145/3519935.3520011


另一篇论文得到了经典的和高度研究的 k- 均值问题的最新近似,还改进了相关聚类的最佳逼近,突破了2的障碍逼近因子。


并且在动态数据结构方面的工作解决了最小成本和其他网络流量问题,在采用连续优化技术解决经典的离散优化问题方面取得了突破性进展。


总结


设计有效的算法和机制是谷歌大规模系统的关键组成部分,这些系统需要以关键的隐私和安全考虑来稳健地处理大规模数据。


指导思想是开发具有坚实理论基础的算法,这些算法可以有效地部署在产品系统中,此外,通过开放一些最新颖的开发和发布它们背后的高级算法,将许多这些进步带给了更广泛的社区。


在这篇博客中,谷歌的研究人员讨论了算法在隐私、市场算法、可扩展算法、基于图表的学习和优化方面的进步。


随着朝着人工智能优先、自动化程度更高的谷歌迈进,开发健壮、可扩展和保护隐私的机器学习算法仍然是当务之急,对开发新的算法和更广泛地部署保持热情。


参考资料:https://ai.googleblog.com/2023/02/google-research-2022-beyond-algorithmic.html

相关文章
|
1月前
|
监控 算法 安全
基于 PHP 语言深度优先搜索算法的局域网网络监控软件研究
在当下数字化时代,局域网作为企业与机构内部信息交互的核心载体,其稳定性与安全性备受关注。局域网网络监控软件随之兴起,成为保障网络正常运转的关键工具。此类软件的高效运行依托于多种数据结构与算法,本文将聚焦深度优先搜索(DFS)算法,探究其在局域网网络监控软件中的应用,并借助 PHP 语言代码示例予以详细阐释。
42 1
|
1月前
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
29 3
|
1月前
|
存储 监控 算法
基于 Python 哈希表算法的员工上网管理策略研究
于当下数字化办公环境而言,员工上网管理已成为企业运营管理的关键环节。企业有必要对员工的网络访问行为予以监控,以此确保信息安全并提升工作效率。在处理员工上网管理相关数据时,适宜的数据结构与算法起着举足轻重的作用。本文将深入探究哈希表这一数据结构在员工上网管理场景中的应用,并借助 Python 代码示例展开详尽阐述。
44 3
|
1月前
|
存储 算法 JavaScript
基于 Node.js 深度优先搜索算法的上网监管软件研究
在数字化时代,网络环境呈现出高度的复杂性与动态性,上网监管软件在维护网络秩序与安全方面的重要性与日俱增。此类软件依托各类数据结构与算法,实现对网络活动的精准监测与高效管理。本文将深度聚焦于深度优先搜索(DFS)算法,并结合 Node.js 编程语言,深入剖析其在上网监管软件中的应用机制与效能。
35 6
|
1月前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
40 7
|
2月前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
48 3
|
2月前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
75 10
|
3月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
127 13
|
2月前
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
43 0
|
5月前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
下一篇
oss创建bucket