机器学习模型的变音符号

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 机器学习模型的变音符号

机器学习模型的变音符号
视觉机器学习模型已经能够抵御各种现有的攻击,但它们仍然难易防范编码为文本的视觉对抗样本。通过使用变音符号组合(diacritical mark)的 Unicode功能来操作编码文本,可以在渲染文本时出现小的视觉扰动。
一点点的小研究
【变音符号】

学习如何使用遗传算法在黑盒设置中生成视觉对抗样本,并进行用户研究以确定欺骗模型的对抗样本可以欺骗用户。 通过攻击Facebook、Microsoft、IBM 和 Google 发布的生产模型,展示了这些对抗样本的有效性。

针对文本编码的难以察觉的扰动攻击利用不常见的 Unicode 编码来破坏文本模型,且欺骗用户的视觉感受。 现有的编码攻击防御措施通过统一视觉和编码管道来实现防护;

具体来说,视觉Transformer (ViT,Vision Transformer) 架构可用于构建强大的新模型,光学字符识别 (OCR,Optical Character Recognition) 则可用于对现有模型进行防御改造。 此类防御旨在确保视觉上相同的文本输入在受保护模型中产生相同的输出。

但是这些防御措施是不够的,本研究提出了一种对文本扰动进行编码的技术,一旦渲染,渲染文本的图像将包含绕过视觉防御的对抗性扰动。 这些对抗样本在视觉文本域中运行,意味着视觉输入完全由渲染文本生成,因此不可能扰乱任意像素值。 然而,通过利用 Unicode 规范中的组合符号,可以制作在文本渲染图像上的小型、有针对性的视觉扰动。

虽然这些符号在视觉上的重要性不足以影响人类读者对文本的理解,但渲染文本的图像域中被操纵的像素可以对模型输出进行有针对性的攻击。

视觉差距:传统上,处理自然语言等文本的机器学习模型直接对输入文本的编码进行操作。 这可以采用输入嵌入的形式作为表示单词、字符或通过解析 Unicode 输入创建的学习子词组件的向量。 然而,与模型不同的是,人类并不直接使用编码文本。 相反,文本被渲染,然后以视觉方式呈现给人类用户。在这里出现了安全设计缺陷:编码文本和呈现文本之间的关系不是双射的。也就是说,视觉呈现可以由许多独特的文本编码来表示。形式化地,

其中 T 是所有可能的文本序列的集合,U 是生成文本的所有可能的 Unicode 表示形式的集合的函数,v 是文本的视觉呈现。对于不可见字符,例如 Unicode 的零宽度空间 (ZWSP,Zero-Width Space); 这些字符对大多数文本的呈现没有影响,但会改变编码表示。

视觉上相同的字符(称为同形文字)也可以互换使用,控制字符可用于删除和重新排序字符。当文本编码与视觉呈现存在差异时,可用于生成针对特定形式文本输入操作的模型的对抗样本,从而提高利用拼写错误或释义的攻击隐蔽性。

其中 E 生成作为输入的编码值的嵌入集。

在现有模型上实现此目的的一种简单但有效的方法是渲染文本输入并通过 OCR 处理生成的图像,作为模型推理之前的预处理步骤。 实际上,这提供了一个自动化系统,将固定的视觉渲染映射到公共编码输入。 此设置中的推理管道为:编码输入→渲染图像→文本→模型。

对于全新模型而言,对于全新模型而言,Vision Transformers 可能是首选的防御方法,因为不需要计算密集型的预处理模型。 ViT 将图像作为输入进行操作,并直接将渲染图像作为嵌入进行操作。

可以产生良好的性能,并通过设计来对利用视觉差距的攻击进行防御。 此设置中的推理管道为:编码输入→渲染图像→模型。

相关文章
|
21天前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
27天前
|
人工智能 物联网 机器人
使用PAI×LLaMA Factory 微调 Llama3 模型
本次教程介绍了如何使用PAI和LLaMA Factory框架,基于轻量化LoRA方法微调Llama-3模型,使其能够进行中文问答和角色扮演,同时通过验证集ROUGE分数和人工测试验证了微调的效果。在后续实践中,可以使用实际业务数据集,对模型进行微调,得到能够解决实际业务场景问题的本地领域大模型。
使用PAI×LLaMA Factory 微调 Llama3 模型
|
2天前
|
机器学习/深度学习 监控 API
基于云计算的机器学习模型部署与优化
【8月更文第17天】随着云计算技术的发展,越来越多的数据科学家和工程师开始使用云平台来部署和优化机器学习模型。本文将介绍如何在主要的云计算平台上部署机器学习模型,并讨论模型优化策略,如模型压缩、超参数调优以及分布式训练。
13 2
|
3天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
13 1
|
5天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的模型优化策略
【8月更文挑战第14天】在机器学习领域,模型的优化是提升预测性能的关键步骤。本文将深入探讨几种有效的模型优化策略,包括超参数调优、正则化方法以及集成学习技术。通过这些策略的应用,可以显著提高模型的泛化能力,减少过拟合现象,并增强模型对新数据的适应能力。
|
17天前
|
机器学习/深度学习 运维
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
30 13
|
11天前
|
机器学习/深度学习 算法 数据可视化
【机器学习】机器学习中的人工神经元模型有哪些?
本文概述了多种人工神经元模型,包括线性神经元、非线性神经元、自适应线性神经元(ADALINE)、感知机神经元、McCulloch-Pitts神经元、径向基函数神经元(RBF)、径向基概率神经元(RBPNN)、模糊神经元、自组织映射神经元(SOM)、CMAC神经元、LIF神经元、Izhikevich神经元、Spiking神经元、Swish神经元和Boltzmann神经元,各自的特点和应用领域,为理解神经网络中神经元的多样性和适应性提供了基础。
14 4
|
13天前
|
机器学习/深度学习 数据采集 算法
【机器学习】K-Means聚类的执行过程?优缺点?有哪些改进的模型?
K-Means聚类的执行过程、优缺点,以及改进模型,包括K-Means++和ISODATA算法,旨在解决传统K-Means算法在确定初始K值、收敛到局部最优和对噪声敏感等问题上的局限性。
30 2
|
13天前
|
机器学习/深度学习 算法 数据挖掘
|
18天前
|
机器学习/深度学习 算法
【Deepin 20系统】机器学习分类算法模型xgboost、lightgbm、catboost安装及使用
介绍了在Deepin 20系统上使用pip命令通过清华大学镜像源安装xgboost、lightgbm和catboost三个机器学习分类算法库的过程。
14 4