超越核方法的量子机器学习,量子学习模型的统一框架

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 超越核方法的量子机器学习,量子学习模型的统一框架


基于参数化量子电路的机器学习算法是近期在嘈杂的量子计算机上应用的主要候选者。在这个方向上,已经引入和广泛研究了各种类型的量子机器学习模型。然而,我们对这些模型如何相互比较以及与经典模型进行比较的理解仍然有限。

近日,来自奥地利因斯布鲁克大学的研究团队确定了一个建设性框架,该框架捕获所有基于参数化量子电路的标准模型:线性量子模型。

研究人员展示了使用量子信息论中的工具如何将数据重新上传电路有效地映射到量子希尔伯特空间中线性模型的更简单图像中。此外,根据量子比特数和需要学习的数据量来分析这些模型的实验相关资源需求。基于经典机器学习的最新结果,证明线性量子模型必须使用比数据重新上传模型多得多的量子比特才能解决某些学习任务,而核方法还需要多得多的数据点。研究结果提供了对量子机器学习模型的更全面的了解,以及对不同模型与 NISQ 约束的兼容性的见解。

该研究以「Quantum machine learning beyond kernel methods」为题,于 2023 年 1 月 31 日发布在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-023-36159-y

在当前嘈杂的中级量子 (NISQ) 时代,已经提出了一些方法来构建与轻微的硬件限制兼容的有用量子算法。大多数这些方法都涉及量子电路 Ansatz 的规范,以经典方式优化以解决特定的计算任务。除了化学中的变分量子特征求解器和量子近似优化算法的变体之外,基于这种参数化量子电路的机器学习方法是产生量子优势的最有希望的实际应用之一。

核方法(kernel methods)是一类模式识别的算法。其目的是找出并学习一组数据中的相互的关系。核方法是解决非线性模式分析问题的一种有效途径,其核心思想是:首先,通过某种非线性映射将原始数据嵌入到合适的高维特征空间;然后,利用通用的线性学习器在这个新的空间中分析和处理模式。

以前的工作通过利用一些量子模型和经典机器学习的核方法之间的联系,在这个方向上取得了长足的进步。许多量子模型确实是通过在高维希尔伯特空间中编码数据,并仅使用在此特征空间中评估的内积来对数据的属性进行建模来运行。这也是核方法的工作原理。

基于这种相似性,给定的量子编码可用于定义两种类型的模型:(a) 显式量子模型,其中编码数据点根据指定其标签的变分可观测值进行测量;或 (b) 隐式核模型,其中编码数据点的加权内积用于分配标签。在量子机器学习文献中,很多重点都放在隐式模型上。

图 1:这项工作中研究的量子机器学习模型。(来源:论文)

最近,所谓的数据重新上传(data re-uploading)模型取得了进展。数据重新上传模型可以看作是显式模型的推广。然而,这种概括也打破了与隐式模型的对应关系,因为给定的数据点 x 不再对应于固定的编码点 ρ(x)。数据重新上传模型比显式模型严格更通用,并且它们与内核模型范例不兼容。到目前为止,在核方法的保证下,是否可以从数据重新上传模型中获得一些优势仍然是一个悬而未决的问题。

在这项工作中,研究人员引入了一个用于显式、隐式和数据重新上传量子模型的统一框架。

图 2:量子机器学习中的模型族。(来源:论文)

量子学习模型的统一框架

首先回顾线性量子模型的概念,并根据量子特征空间中的定义线性模型解释显式和隐式模型。然后,展示了数据重新上传模型,并展示了尽管被定义为显式模型的推广,但它们也可以通过更大的希尔伯特空间中的线性模型来实现。

线性量子模型

下图给出了一个说明性结构,以直观地说明如何实现从数据重新上传到显式模型的映射。

图 3:近似于数据重新上传电路的说明性显式模型。(来源:论文)

这种结构背后的总体思想是将输入数据 x 编码为辅助量子比特,达到有限精度,然后可以重复使用它来使用与数据无关的单一体来近似数据编码门。

现在转向主要结构,导致数据重新上传和显式模型之间的精确映射。在这里,依赖于与前面结构相似的思想,在辅助量子位上对输入数据进行编码,然后使用数据独立操作在工作量子位上实现编码门。这里的区别在于,使用门传送( gate-teleportation)技术,一种基于测量的量子计算,直接在辅助量子位上实现编码门,并在需要时将它们传送回(通过纠缠测量)到工作量子位上。

图 4:使用门隐形传态从数据重新上传模型到等效显式模型的精确映射。(来源:论文)

研究人员证明了线性量子模型不仅可以描述显式和隐式模型,还可以描述数据重新上传电路。更具体地说,任何假设类的数据重新上传模型都可以映射到等效类的显式模型,即具有受限可观察量族的线性模型。

接着,研究人员更严格地分析了显式和数据重新上传模型相对于隐式模型的优势。在例子中,通过量子比特数和实现非平凡预期损失所需的训练集大小来量化量子模型解决学习任务的效率。关注的学习任务是学习奇偶函数。

图 5:学习分离。(来源:论文)

超越核方法的量子优势

量子机器学习的一个主要挑战是,表明这项工作中讨论的量子方法可以实现优于(标准)经典方法的学习优势。

在这方面的研究中,谷歌量子人工智能的 Huang 等人(https://www.nature.com/articles/s41467-021-22539-9)建议研究目标函数本身由(显式)量子模型生成的学习任务。

与 Huang 等人类似,研究人员使用来自 fashion-MNIST 数据集的输入数据进行回归任务,每个示例都是一个 28x28 的灰度图像。

图 6:显式、隐式和经典模型在「量子定制」学习任务上的回归性能。(来源:论文)

观察到:隐式模型系统地实现比显式模型更低的训练损失。特别是对于非正则化损失,隐式模型实现了 0 的训练损失。另一方面,关于代表预期损失的测试损失,从 n = 7 量子位开始的明显分离,其中经典模型开始与隐式模型具有竞争性能,而显式模型明显胜过他们两个。这表明,不应仅通过将经典模型与量子核方法进行比较来评估量子优势的存在,因为显式(或数据重新上传)模型也可以隐藏更好的学习性能。

这些结果让我们对量子机器学习领域有了更全面的了解,并拓宽了我们对模型类型的看法,以便在 NISQ 机制中实现实际的学习优势。

研究人员认为证明不同量子模型之间存在指数学习分离的学习任务是基于奇偶函数的,这在机器学习中不是一个实际感兴趣的概念类。然而,下限结果也可以扩展到其他具有大维度概念类(即由许多正交函数组成)的学习任务。

量子核方法必然需要许多与该维度成线性比例的数据点,而正如我们在结果中展示的那样,数据重新上传电路的灵活性以及显式模型的有限表达能力以节省大量资源。探索这些模型如何以及何时可以针对手头的机器学习任务进行定制仍然是一个有趣的研究方向。

相关文章
|
2天前
|
机器学习/深度学习 运维 持续交付
构建高效自动化运维体系:Ansible与Docker的完美结合构建高效机器学习模型的五大技巧
【4月更文挑战第30天】 在当今快速发展的云计算和微服务架构时代,自动化运维已成为维持系统稳定性和提高效率的关键。本文将探讨如何通过结合Ansible和Docker技术构建一个高效的自动化运维体系。文章不仅介绍了Ansible与Docker的基本原理和优势,还详细阐述了如何整合这两种技术以简化部署流程、加强版本控制,并提高整体运维效率。通过案例分析,我们将展示这一组合在实际环境中的应用效果,以及它如何帮助企业实现持续集成和持续部署(CI/CD)的目标。 【4月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是获取洞察力和预测未来趋势的关键步骤。本文将分享五种实用的技巧,帮助数
|
2天前
|
机器学习/深度学习 算法 数据挖掘
构建高效机器学习模型的五大技巧
【4月更文挑战第30天】 在数据科学领域,构建一个高效的机器学习模型是实现精准预测与分析的核心。本文将深入探讨提升模型效能的五个关键技巧:特征工程、模型选择、超参数调优、正则化技术以及交叉验证。通过这些方法的综合应用,读者可以显著提高其机器学习项目的准确率和泛化能力。
|
2天前
|
机器学习/深度学习 分布式计算 物联网
【Python机器学习专栏】联邦学习:保护隐私的机器学习新趋势
【4月更文挑战第30天】联邦学习是保障数据隐私的分布式机器学习方法,允许设备在本地训练数据并仅共享模型,保护用户隐私。其优势包括数据隐私、分布式计算和模型泛化。应用于医疗、金融和物联网等领域,未来将发展更高效的数据隐私保护、提升可解释性和可靠性的,并与其他技术融合,为机器学习带来新机遇。
|
2天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
2天前
|
机器学习/深度学习 数据采集 前端开发
【Python机器学习专栏】模型泛化能力与交叉验证
【4月更文挑战第30天】本文探讨了机器学习中模型泛化能力的重要性,它是衡量模型对未知数据预测能力的关键。过拟合和欠拟合影响泛化能力,而交叉验证是评估和提升泛化能力的有效工具。通过K折交叉验证等方法,可以发现并优化模型,如调整参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
|
2天前
|
机器学习/深度学习 数据可视化 前端开发
【Python机器学习专栏】机器学习模型评估的实用方法
【4月更文挑战第30天】本文介绍了机器学习模型评估的关键方法,包括评估指标(如准确率、精确率、召回率、F1分数、MSE、RMSE、MAE及ROC曲线)和交叉验证技术(如K折交叉验证、留一交叉验证、自助法)。混淆矩阵提供了一种可视化分类模型性能的方式,而Python的scikit-learn库则方便实现这些评估。选择适合的指标和验证方法能有效优化模型性能。
|
2天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】机器学习中的模型融合技术
【4月更文挑战第30天】模型融合,即集成学习,通过结合多个模型提升预测性能。常见方法包括:Bagging(如Random Forest)、Boosting(如AdaBoost、XGBoost)和Stacking。Python中可使用`scikit-learn`实现,例如BaggingClassifier示例。模型融合是机器学习中的强大工具,能提高整体性能并适应复杂问题。
|
2天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】集成学习中的Bagging与Boosting
【4月更文挑战第30天】本文介绍了集成学习中的两种主要策略:Bagging和Boosting。Bagging通过自助采样构建多个基学习器并以投票或平均法集成,降低模型方差,增强稳定性。在Python中可使用`BaggingClassifier`实现。而Boosting是串行学习,不断调整基学习器权重以优化拟合,适合弱学习器。Python中可利用`AdaBoostClassifier`等实现。示例代码展示了如何在实践中运用这两种方法。
|
2天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】模型选择中的交叉验证与网格搜索
【4月更文挑战第30天】交叉验证和网格搜索是机器学习中优化模型的关键技术。交叉验证通过划分数据集进行多次评估,如K折和留一法,确保模型性能的稳定性。网格搜索遍历预定义参数组合,寻找最佳参数设置。两者结合能全面评估模型并避免过拟合。Python中可使用`sklearn`库实现这一过程,但需注意计算成本、过拟合风险及数据适应性。理解并熟练应用这些方法能提升模型性能和泛化能力。
|
2天前
|
机器学习/深度学习 数据可视化 TensorFlow
【Python 机器学习专栏】使用 TensorFlow 构建深度学习模型
【4月更文挑战第30天】本文介绍了如何使用 TensorFlow 构建深度学习模型。TensorFlow 是谷歌的开源深度学习框架,具备强大计算能力和灵活编程接口。构建模型涉及数据准备、模型定义、选择损失函数和优化器、训练、评估及模型保存部署。文中以全连接神经网络为例,展示了从数据预处理到模型训练和评估的完整流程。此外,还提到了 TensorFlow 的自动微分、模型可视化和分布式训练等高级特性。通过本文,读者可掌握 TensorFlow 基本用法,为构建高效深度学习模型打下基础。

相关产品

  • 人工智能平台 PAI